このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240805となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 深層学習とマルチスペクトル時系列を用いた不均衡文脈における画素レベルの木種分類
Tree species classification at the pixel-level using deep learning and multispectral time series in an imbalanced context ( http://arxiv.org/abs/2408.08887v1 ) ライセンス: Link先を確認 | Florian Mouret, David Morin, Milena Planells, Cécile Vincent-Barbaroux, | (参考訳) 本稿では,Sentinel-2マルチスペクトル衛星画像時系列を用いた木種分類について検討する。
多くのアプリケーションにとって重要な意味があるにもかかわらず、そのような地図はしばしば利用できない、時代遅れである、あるいは大きな領域で不正確である。
これらの地図を作成するためにリモートセンシング時系列を使用するという関心は、多くの研究で強調されている。
しかし、文献で提案された多くの手法は依然として標準的な分類アルゴリズム(通常、植生指標を持つランダムフォレスト(RF)アルゴリズム)に依存している。
本研究は,RFアルゴリズムが多数派に対して予測する傾向にある不均衡な状況において,ディープラーニングモデルを用いることで,分類結果の大幅な改善につながることを示唆する。
10種の樹種を持つフランス中部のユースケースでは,3つの異なるベンチマークディープラーニングアーキテクチャを用いて,95%程度の総合的精度(OA)とF1マクロスコア(F1-macro score)を80%程度取得した。
対照的に、RFアルゴリズムを使用すると、OAは93%、F1は60%となり、マイノリティクラスは十分な精度で分類されない。
したがって,提案フレームワークは,参照データが少ない場合でも,ほとんどのシナリオで容易に実装できる強力なベースラインである。
この結果から, 標準的な多層パーセプトロンは, バッチ正規化と十分な量のパラメータとを競合させることができることがわかった。
その他のアーキテクチャ(畳み込みや注意に基づく)も、適切に調整すれば、強い結果が得られる。
さらに,本研究の結果から,DLモデルは不均衡なデータに対して自然に頑健であることが明らかとなった。
This paper investigates tree species classification using Sentinel-2 multispectral satellite image time-series. Despite their critical importance for many applications, such maps are often unavailable, outdated, or inaccurate for large areas. The interest of using remote sensing time series to produce these maps has been highlighted in many studies. However, many methods proposed in the literature still rely on a standard classification algorithm, usually the Random Forest (RF) algorithm with vegetation indices. This study shows that the use of deep learning models can lead to a significant improvement in classification results, especially in an imbalanced context where the RF algorithm tends to predict towards the majority class. In our use case in the center of France with 10 tree species, we obtain an overall accuracy (OA) around 95% and a F1-macro score around 80% using three different benchmark deep learning architectures. In contrast, using the RF algorithm yields an OA of 93% and an F1 of 60%, indicating that the minority classes are not classified with sufficient accuracy. Therefore, the proposed framework is a strong baseline that can be easily implemented in most scenarios, even with a limited amount of reference data. Our results highlight that standard multilayer perceptron can be competitive with batch normalization and a sufficient amount of parameters. Other architectures (convolutional or attention-based) can also achieve strong results when tuned properly. Furthermore, our results show that DL models are naturally robust to imbalanced data, although similar results can be obtained using dedicated techniques. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-05 |
# 天文時系列に応用したマルチクラス異常検出のための分類器に基づくアプローチ
A Classifier-Based Approach to Multi-Class Anomaly Detection Applied to Astronomical Time-Series ( http://arxiv.org/abs/2408.08888v1 ) ライセンス: Link先を確認 | Rithwik Gupta, Daniel Muthukrishna, Michelle Lochner, | (参考訳) 異常検出を自動化することは、多くの科学分野、特に現代の望遠鏡が毎晩数百万のアラートを発生させる時間領域天文学において、オープンな問題である。
現在、天文時系列のほとんどの異常検出アルゴリズムは、手作りの特徴か、教師なし表現学習によって生成された特徴に、標準の異常検出アルゴリズムと組み合わせて依存している。
本研究では,ニューラルネットワーク分類器の潜時空間を利用した異常検出手法を提案する。
そこで我々は,その潜在空間表現に基づくオブジェクトの異常スコアを導出するために,クラス毎に孤立林を分離するMCIF (Multi-class isolated Forests) という新しい手法を提案する。
このアプローチは、潜在空間に異なるクラスターが存在する場合、標準的な孤立林よりも著しく優れる。
Zwicky Transient Facility(54の異常と12,040の一般的)をエミュレートしたシミュレーションデータセットを使用して、私たちの異常検出パイプラインは、上位2000(\sim 15\%$)ランクのオブジェクトをフォローした後、46\pm3$異常(\sim 85\%$リコール)を発見した。
さらに、分類器に基づくアプローチは、他の最先端の異常検出パイプラインの性能より優れているか、あるいは優れている。
提案手法は,既存および新分類器をリアルタイムな異常検出に効果的に再利用できることを実証する。
この作業で使用されたPythonパッケージを含むコードは、https://github.com/Rithwik-G/AstroMCAD.comで公開されている。
Automating anomaly detection is an open problem in many scientific fields, particularly in time-domain astronomy, where modern telescopes generate millions of alerts per night. Currently, most anomaly detection algorithms for astronomical time-series rely either on hand-crafted features or on features generated through unsupervised representation learning, coupled with standard anomaly detection algorithms. In this work, we introduce a novel approach that leverages the latent space of a neural network classifier for anomaly detection. We then propose a new method called Multi-Class Isolation Forests (MCIF), which trains separate isolation forests for each class to derive an anomaly score for an object based on its latent space representation. This approach significantly outperforms a standard isolation forest when distinct clusters exist in the latent space. Using a simulated dataset emulating the Zwicky Transient Facility (54 anomalies and 12,040 common), our anomaly detection pipeline discovered $46\pm3$ anomalies ($\sim 85\%$ recall) after following up the top 2,000 ($\sim 15\%$) ranked objects. Furthermore, our classifier-based approach outperforms or approaches the performance of other state-of-the-art anomaly detection pipelines. Our novel method demonstrates that existing and new classifiers can be effectively repurposed for real-time anomaly detection. The code used in this work, including a Python package, is publicly available, https://github.com/Rithwik-G/AstroMCAD. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-05 |
# 機械学習システムの倫理的評価のための概念的枠組み
A Conceptual Framework for Ethical Evaluation of Machine Learning Systems ( http://arxiv.org/abs/2408.10239v1 ) ライセンス: Link先を確認 | Neha R. Gupta, Jessica Hullman, Hari Subramonyam, | (参考訳) Responsible AIの研究は、倫理的かつ人間の価値観に沿った方法で機械学習システムが使用されることを保証するために、さまざまな原則とプラクティスを開発した。
しかし、倫理的MLの批判的かつしばしば無視される側面は、MLシステムの評価を設計する際に現れる倫理的意味である。
例えば、チームは、ダウンストリーム製品の安全性を保証するために、非常に情報性の高いテスト間のトレードオフをバランスさせなければなりません。
我々は、標準ML評価手法における倫理に関する懸念を概念化する。
具体的には、倫理的評価における重要なトレードオフを、潜在的な倫理的害に対する情報ゲインのバランスとして特徴づけるユーティリティ・フレームワークを提案する。
フレームワークは、チームが直面する課題を特徴づけ、チームがバランスをとろうとする競合する考慮事項を体系的に切り離すためのツールになります。
評価で遭遇するさまざまなタイプの課題を区別することで、臨床試験や自動車事故テストのような類似のドメインからのベストプラクティスを強調できる。
本分析は,MLシステムの評価において生じる倫理的複雑さを開発チームが意図的に評価・管理し,倫理的評価を支援するための制度的政策を策定する上で重要な必要性を浮き彫りにするものである。
Research in Responsible AI has developed a range of principles and practices to ensure that machine learning systems are used in a manner that is ethical and aligned with human values. However, a critical yet often neglected aspect of ethical ML is the ethical implications that appear when designing evaluations of ML systems. For instance, teams may have to balance a trade-off between highly informative tests to ensure downstream product safety, with potential fairness harms inherent to the implemented testing procedures. We conceptualize ethics-related concerns in standard ML evaluation techniques. Specifically, we present a utility framework, characterizing the key trade-off in ethical evaluation as balancing information gain against potential ethical harms. The framework is then a tool for characterizing challenges teams face, and systematically disentangling competing considerations that teams seek to balance. Differentiating between different types of issues encountered in evaluation allows us to highlight best practices from analogous domains, such as clinical trials and automotive crash testing, which navigate these issues in ways that can offer inspiration to improve evaluation processes in ML. Our analysis underscores the critical need for development teams to deliberately assess and manage ethical complexities that arise during the evaluation of ML systems, and for the industry to move towards designing institutional policies to support ethical evaluations. | 翻訳日:2024-08-25 14:21:10 公開日:2024-08-05 |
# AltCanvas: 盲人または視覚障害者のための生成AIを備えたタイルベースの画像エディタ
AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People ( http://arxiv.org/abs/2408.10240v1 ) ライセンス: Link先を確認 | Seonghee Lee, Maho Kohga, Steve Landau, Sile O'Modhrain, Hari Subramonyam, | (参考訳) 視覚障害を持つ人々は、特に空間的・構造的な情報を伝達する際に、視覚要素に大きく依存するコンテンツを作成するのに苦労することが多い。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
一方、新たな生成型AIベースのテキスト・ツー・イメージツールは、自然言語による記述から表現力のあるイラストを生成することができるが、画像の構成や特性を正確に制御することはできない。
このギャップに対処するため、当社の作業では、ジェネレーティブAIを建設的なアプローチに統合し、ユーザに対して、コントロールと編集機能を強化しています。
システムであるAltCanvasはタイルベースのインタフェースを備えており,各タイルはシーン内のオブジェクトを表す。
ユーザーは音声や音声のフィードバックを受けながら、オブジェクトの追加、編集、移動、アレンジできる。
一度完成すると、シーンはカラーイラストや触覚グラフィック生成のベクターとして描画できる。
視覚障害者14名を対象にデザインと評価を行った結果,参加者はAltCanvasワークフローを効果的に使用してイラストを作成していることがわかった。
People with visual impairments often struggle to create content that relies heavily on visual elements, particularly when conveying spatial and structural information. Existing accessible drawing tools, which construct images line by line, are suitable for simple tasks like math but not for more expressive artwork. On the other hand, emerging generative AI-based text-to-image tools can produce expressive illustrations from descriptions in natural language, but they lack precise control over image composition and properties. To address this gap, our work integrates generative AI with a constructive approach that provides users with enhanced control and editing capabilities. Our system, AltCanvas, features a tile-based interface enabling users to construct visual scenes incrementally, with each tile representing an object within the scene. Users can add, edit, move, and arrange objects while receiving speech and audio feedback. Once completed, the scene can be rendered as a color illustration or as a vector for tactile graphic generation. Involving 14 blind or low-vision users in design and evaluation, we found that participants effectively used the AltCanvas workflow to create illustrations. | 翻訳日:2024-08-25 14:21:10 公開日:2024-08-05 |
# TrIM:畳み込みニューラルネットワークのための三角形入力運動シストリックアレイ -その2:アーキテクチャとハードウェア実装
TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation ( http://arxiv.org/abs/2408.10243v1 ) ライセンス: Link先を確認 | Cristian Sestito, Shady Agwa, Themis Prodromakis, | (参考訳) 畳み込みニューラルネットワーク(CNN)の現代的なハードウェアアーキテクチャは、高性能を目標とするだけでなく、限られたエネルギーを放出することを目指している。
コンピューティングコアとメモリ間のデータ移動コストを削減することは、エネルギー消費を軽減する方法である。
シストリックアレイはこの目的を達成するのに適したアーキテクチャであり、重み付けや行の定常といった適切なデータフローに基づいて、互いに通信する複数の処理要素を使用してデータ利用を最大化する。
そこで我々は,入力の三角移動に基づく革新的なデータフローであるTrIMを提案し,最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減した。
本稿では,CNNのためのTrIMベースのハードウェアアーキテクチャを提案する。
ショーケースとして、アクセルはフィールドプログラマブルゲートアレイ(FPGA)上に実装され、VGG-16 CNNを実行する。
アーキテクチャは毎秒453.6ギガ演算のピークスループットを実現し、メモリアクセスの点で最先端の定常シストリックアレイよりも5.1倍、他のFPGAアクセラレータよりも最大12.2倍高いエネルギー効率を実現している。
Modern hardware architectures for Convolutional Neural Networks (CNNs), other than targeting high performance, aim at dissipating limited energy. Reducing the data movement cost between the computing cores and the memory is a way to mitigate the energy consumption. Systolic arrays are suitable architectures to achieve this objective: they use multiple processing elements that communicate each other to maximize data utilization, based on proper dataflows like the weight stationary and row stationary. Motivated by this, we have proposed TrIM, an innovative dataflow based on a triangular movement of inputs, and capable to reduce the number of memory accesses by one order of magnitude when compared to state-of-the-art systolic arrays. In this paper, we present a TrIM-based hardware architecture for CNNs. As a showcase, the accelerator is implemented onto a Field Programmable Gate Array (FPGA) to execute the VGG-16 CNN. The architecture achieves a peak throughput of 453.6 Giga Operations per Second, outperforming a state-of-the-art row stationary systolic array by ~5.1x in terms of memory accesses, and being up to ~12.2x more energy-efficient than other FPGA accelerators. | 翻訳日:2024-08-25 14:21:10 公開日:2024-08-05 |
# VyAnG-Net:視覚的・音響的・用語的特徴を明らかにするマルチモーダルサルカズム認識モデル
VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features ( http://arxiv.org/abs/2408.10246v1 ) ライセンス: Link先を確認 | Ananya Pandey, Dinesh Kumar Vishwakarma, | (参考訳) 単語の過度な強調、声のトーンの変化、ぎこちない表現などの言語的・非言語的な手がかりは、しばしば皮肉を伝える。
会話における皮肉認識のコンピュータビジョン問題は、日常会話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
これまで、皮肉認識は主にテキストに焦点が当てられていた。
しかし,すべてのテキスト情報,音声ストリーム,表情,身体位置を信頼性の高い皮肉識別のために考慮することが重要である。
そこで,本研究では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に焦点をあてる手法を提案する。
以下に示すのは,マルチモーダルサルカズム認識(Multi-modal Sarcasm Recognition)の課題に対する我々の実験が行った重要な貢献の一覧である。サブタイトルが提供する用語的コンテンツから有益な特徴を得られる注目トークン化ブランチ,ビデオフレームから最も顕著な特徴を抽出するビジュアルブランチ,音響コンテンツから発話レベルの特徴抽出,マルチヘッドアテンションベースの特徴融合ブランチを融合して複数のモーダルから得られる特徴をブレンドする。
ベンチマークビデオデータセットの1つであるMUSTaRDの大規模なテストでは、話者依存型では79.86%、話者依存型では76.94%の精度が得られた。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
Various linguistic and non-linguistic clues, such as excessive emphasis on a word, a shift in the tone of voice, or an awkward expression, frequently convey sarcasm. The computer vision problem of sarcasm recognition in conversation aims to identify hidden sarcastic, criticizing, and metaphorical information embedded in everyday dialogue. Prior, sarcasm recognition has focused mainly on text. Still, it is critical to consider all textual information, audio stream, facial expression, and body position for reliable sarcasm identification. Hence, we propose a novel approach that combines a lightweight depth attention module with a self-regulated ConvNet to concentrate on the most crucial features of visual data and an attentional tokenizer based strategy to extract the most critical context-specific information from the textual data. The following is a list of the key contributions that our experimentation has made in response to performing the task of Multi-modal Sarcasm Recognition: an attentional tokenizer branch to get beneficial features from the glossary content provided by the subtitles; a visual branch for acquiring the most prominent features from the video frames; an utterance-level feature extraction from acoustic content and a multi-headed attention based feature fusion branch to blend features obtained from multiple modalities. Extensive testing on one of the benchmark video datasets, MUSTaRD, yielded an accuracy of 79.86% for speaker dependent and 76.94% for speaker independent configuration demonstrating that our approach is superior to the existing methods. We have also conducted a cross-dataset analysis to test the adaptability of VyAnG-Net with unseen samples of another dataset MUStARD++. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-05 |
# MetaEnzyme: タスク適応型再設計のためのメタパン酵素学習
MetaEnzyme: Meta Pan-Enzyme Learning for Task-Adaptive Redesign ( http://arxiv.org/abs/2408.10247v1 ) ライセンス: Link先を確認 | Jiangbin Zheng, Han Zhang, Qianqing Xu, An-Ping Zeng, Stan Z. Li, | (参考訳) 酵素設計は工業生産と生物学の両方において重要な役割を担っている。
しかし、この分野は、包括的なベンチマークの欠如と酵素設計タスクの複雑さのために課題に直面しており、体系的な研究の波及につながっている。
その結果、計算酵素の設計はより広いタンパク質ドメインの中で比較的見過ごされ、その初期段階に留まっている。
本稿では,酵素設計の段階的・統一的なフレームワークであるMetaEnzymeを導入することで,これらの課題に対処する。
まず、機能駆動型開始点として、クロスモーダル構造-シーケンス変換アーキテクチャを用いて、初期ロバストなタンパク質表現を得る。
その後、低リソース条件下での特定の酵素設計タスクを一般化するために、ドメイン適応技術を活用する。
MetaEnzymeは、機能設計(FuncDesign)、突然変異設計(MutDesign)、シーケンス生成設計(SeqDesign)の3つの基本的な低リソース酵素再設計タスクに焦点を当てている。
新たな統一パラダイムと拡張表現能力を通じて、MetaEnzymeは多様な酵素設計タスクへの適応性を実証し、優れた結果をもたらす。
Wet lab experiment further evidence these findings, further further the effective of the redesign process。
Enzyme design plays a crucial role in both industrial production and biology. However, this field faces challenges due to the lack of comprehensive benchmarks and the complexity of enzyme design tasks, leading to a dearth of systematic research. Consequently, computational enzyme design is relatively overlooked within the broader protein domain and remains in its early stages. In this work, we address these challenges by introducing MetaEnzyme, a staged and unified enzyme design framework. We begin by employing a cross-modal structure-to-sequence transformation architecture, as the feature-driven starting point to obtain initial robust protein representation. Subsequently, we leverage domain adaptive techniques to generalize specific enzyme design tasks under low-resource conditions. MetaEnzyme focuses on three fundamental low-resource enzyme redesign tasks: functional design (FuncDesign), mutation design (MutDesign), and sequence generation design (SeqDesign). Through novel unified paradigm and enhanced representation capabilities, MetaEnzyme demonstrates adaptability to diverse enzyme design tasks, yielding outstanding results. Wet lab experiments further validate these findings, reinforcing the efficacy of the redesign process. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-05 |
# Visual-to-Emotional-Caption Translation Network を用いたビジュアル・キャプション・ペアを用いたターゲット依存型マルチモーダル感性分析
Target-Dependent Multimodal Sentiment Analysis Via Employing Visual-to Emotional-Caption Translation Network using Visual-Caption Pairs ( http://arxiv.org/abs/2408.10248v1 ) ライセンス: Link先を確認 | Ananya Pandey, Dinesh Kumar Vishwakarma, | (参考訳) 自然言語処理とマルチメディア分野は、マルチモーダルな感情認識に対する顕著な関心が高まっている。
そこで本研究では,ターゲット依存型マルチモーダルセンチメント分析(TDMSA)を用いて,視覚的キャプションペアからなるマルチモーダルポスト内で表現されるすべてのターゲット(アスペクト)に関連付けられた感情のレベルを特定することを目的とする。
近年のマルチモーダル感情認識の進歩にもかかわらず、視覚的モダリティ、特に表情に関する感情的手がかりの明示的な取り込みは欠如している。
手持ちの課題は、視覚的および感情的な手がかりを巧みに取得し、その後、それらをテキストの内容と同期させることである。
そこで本研究では,視覚から感情へのキャプション・トランスフォーメーション・ネットワーク(VECTN)と呼ばれる新しい手法を提案する。
この戦略の主な目的は、表情を分析して視覚的感情の手がかりを効果的に獲得することである。
さらに、得られた感情的手がかりとキャプションモードの目標属性を効果的に調整し、ブレンドする。
実験の結果,Twitter-2015 と Twitter-2017 の2つの公開マルチモーダル Twitter データセットに適用した場合,我々の手法は画期的な結果が得られることがわかった。
実験結果は、提案されたモデルがTwitter-15データセットで81.23%、マクロF1が80.61%、Twitter-17データセットで77.42%、75.19%に達することを示している。
その結果,顔の表情を用いたマルチモーダルデータにおける目標レベルの感情の収集においては,我々のモデルの方が優れていることがわかった。
The natural language processing and multimedia field has seen a notable surge in interest in multimodal sentiment recognition. Hence, this study aims to employ Target-Dependent Multimodal Sentiment Analysis (TDMSA) to identify the level of sentiment associated with every target (aspect) stated within a multimodal post consisting of a visual-caption pair. Despite the recent advancements in multimodal sentiment recognition, there has been a lack of explicit incorporation of emotional clues from the visual modality, specifically those pertaining to facial expressions. The challenge at hand is to proficiently obtain visual and emotional clues and subsequently synchronise them with the textual content. In light of this fact, this study presents a novel approach called the Visual-to-Emotional-Caption Translation Network (VECTN) technique. The primary objective of this strategy is to effectively acquire visual sentiment clues by analysing facial expressions. Additionally, it effectively aligns and blends the obtained emotional clues with the target attribute of the caption mode. The experimental findings demonstrate that our methodology is capable of producing ground-breaking outcomes when applied to two publicly accessible multimodal Twitter datasets, namely, Twitter-2015 and Twitter-2017. The experimental results show that the suggested model achieves an accuracy of 81.23% and a macro-F1 of 80.61% on the Twitter-15 dataset, while 77.42% and 75.19% on the Twitter-17 dataset, respectively. The observed improvement in performance reveals that our model is better than others when it comes to collecting target-level sentiment in multimodal data using the expressions of the face. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-05 |
# LLMエージェントがセマンティックコード検索を改善した
LLM Agents Improve Semantic Code Search ( http://arxiv.org/abs/2408.11058v1 ) ライセンス: Link先を確認 | Sarthak Jain, Aditya Dora, Ka Seng Sam, Prabhat Singh, | (参考訳) コード検索は、多くのプログラマが問題に対するソリューションを開発しながら実行しなければならない重要なタスクです。
現在の方法論では、曖昧さを含むプロンプトや、コードベースに対して追加のコンテキストを必要とするプロンプトを正確に実行することができない。
本稿では、ユーザプロンプトに情報を注入し、埋め込みモデルへのより良い入力を可能にするために、RAG(Retrieval Augmented Generation)エージェントを使用する手法を提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
さらに,エージェントワークフローと組み合わせることで,検索精度の向上を実現し,repo-rift.comというアプリケーションにデプロイするマルチストリームアンサンブル手法を提案する。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回り、Success@10で78.2%、Success@1で34.6%の成功率を達成したことを示している。
本研究は, セマンティックコード検索の大幅な進歩を示し, エージェントLLMとRAGがコード検索システムを強化する可能性を強調した。
Code Search is a key task that many programmers often have to perform while developing solutions to problems. Current methodologies suffer from an inability to perform accurately on prompts that contain some ambiguity or ones that require additional context relative to a code-base. We introduce the approach of using Retrieval Augmented Generation (RAG) powered agents to inject information into user prompts allowing for better inputs into embedding models. By utilizing RAG, agents enhance user queries with relevant details from GitHub repositories, making them more informative and contextually aligned. Additionally, we introduce a multi-stream ensemble approach which when paired with agentic workflow can obtain improved retrieval accuracy, which we deploy on application called repo-rift.com. Experimental results on the CodeSearchNet dataset demonstrate that RepoRift significantly outperforms existing methods, achieving an 78.2% success rate at Success@10 and a 34.6% success rate at Success@1. This research presents a substantial advancement in semantic code search, highlighting the potential of agentic LLMs and RAG to enhance code retrieval systems. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-05 |
# AppAgent v2: 柔軟なモバイルインタラクションのための高度なエージェント
AppAgent v2: Advanced Agent for Flexible Mobile Interactions ( http://arxiv.org/abs/2408.11824v1 ) ライセンス: Link先を確認 | Yanda Li, Chi Zhang, Wanqi Yang, Bin Fu, Pei Cheng, Xin Chen, Ling Chen, Yunchao Wei, | (参考訳) MLLM(Multimodal Large Language Models)の進歩に伴い、LLM駆動の視覚エージェントはソフトウェアインターフェース、特にグラフィカルユーザインタフェースにますます影響を与えている。
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
モバイルデバイスをナビゲートできるこのフレームワークは、人間のようなインタラクションをエミュレートする。
エージェントはフレキシブルなアクション空間を構築し,パーサやテキスト,ビジョン記述など,さまざまなアプリケーションに適用性を高める。
エージェントは、探索と展開の2つの主要なフェーズを通して運用される。
探索段階において、ユーザインターフェイス要素の機能については、エージェント駆動または手動で、カスタマイズされた構造化された知識ベースへの探索を通じて文書化される。
展開段階において、RAG技術は、この知識ベースからの効率的な検索と更新を可能にし、エージェントが効率的にかつ正確にタスクを実行することを可能にする。
これには、さまざまなアプリケーションにわたる複雑なマルチステップ操作の実行が含まれており、カスタマイズされたタスクワークフローの処理におけるフレームワークの適応性と正確性を示す。
各種ベンチマークによる実験結果から,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
私たちのコードはまもなくオープンソースになります。
With the advancement of Multimodal Large Language Models (MLLM), LLM-driven visual agents are increasingly impacting software interfaces, particularly those with graphical user interfaces. This work introduces a novel LLM-based multimodal agent framework for mobile devices. This framework, capable of navigating mobile devices, emulates human-like interactions. Our agent constructs a flexible action space that enhances adaptability across various applications including parser, text and vision descriptions. The agent operates through two main phases: exploration and deployment. During the exploration phase, functionalities of user interface elements are documented either through agent-driven or manual explorations into a customized structured knowledge base. In the deployment phase, RAG technology enables efficient retrieval and update from this knowledge base, thereby empowering the agent to perform tasks effectively and accurately. This includes performing complex, multi-step operations across various applications, thereby demonstrating the framework's adaptability and precision in handling customized task workflows. Our experimental results across various benchmarks demonstrate the framework's superior performance, confirming its effectiveness in real-world scenarios. Our code will be open source soon. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-05 |
# 中小企業における戦略的AI導入 - 規範的フレームワーク
Strategic AI adoption in SMEs: A Prescriptive Framework ( http://arxiv.org/abs/2408.11825v1 ) ライセンス: Link先を確認 | Atif Hussain, Rana Rizwan, | (参考訳) 人工知能(AI)は、中小企業(中小企業)を含む現代組織の発展と競争に欠かせない要素として、ますます認識されている。
しかし、中小企業におけるAI技術の採用は、主にコスト、技術スキルの欠如、従業員の受け入れに関連する大きな障壁に直面している。
本研究では、これらの障壁を体系的に解決し、中小企業におけるAIの効果的な採用を促進するために設計された、包括的で段階的なフレームワークを提案する。
このフレームワークは、意識を高め、リーダーシップからコミットメントを確保することから始まり、続いて、技術的能力を構築し、AIに対する肯定的な態度を育むために、低コストで汎用的なAIツールを採用する。
AI技術に親しみが増すにつれ、このフレームワークは効率性と生産性を高めるためにタスク固有のAIツールの統合を提唱している。
その後、組織をジェネレーティブAIツールの社内開発に誘導し、より優れたカスタマイズと制御を提供する。
最後に、このフレームワークは、高度に具体的で精度の高いタスクを満たすための差別的AIモデルの開発に対処する。
構造化されたインクリメンタルなアプローチを提供することで、中小企業はAI統合の複雑さを効果的にナビゲートし、イノベーション、効率性、競争上の優位性を促進することができる。
この研究は、中小企業のユニークなニーズに合わせた実践的で規範的なフレームワークを提供し、AI技術の採用を成功させ、競争の激しい環境の中で持続的な成長のためにこれらの組織を位置づけることによって、この分野に寄与する。
Artificial Intelligence (AI) is increasingly acknowledged as a vital component for the advancement and competitiveness of modern organizations, including small and medium enterprises (SMEs). However, the adoption of AI technologies in SMEs faces significant barriers, primarily related to cost, lack of technical skills, and employee acceptance. This study proposes a comprehensive, phased framework designed to facilitate the effective adoption of AI in SMEs by systematically addressing these barriers. The framework begins with raising awareness and securing commitment from leadership, followed by the adoption of low-cost, general-purpose AI tools to build technical competence and foster a positive attitude towards AI. As familiarity with AI technologies increases, the framework advocates for the integration of task-specific AI tools to enhance efficiency and productivity. Subsequently, it guides organizations towards the in-house development of generative AI tools, providing greater customization and control. Finally, the framework addresses the development of discriminative AI models to meet highly specific and precision-oriented tasks. By providing a structured and incremental approach, this framework ensures that SMEs can navigate the complexities of AI integration effectively, driving innovation, efficiency, and competitive advantage. This study contributes to the field by offering a practical, prescriptive framework tailored to the unique needs of SMEs, facilitating the successful adoption of AI technologies and positioning these organizations for sustained growth in a competitive landscape. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-05 |
# 大規模言語モデルに基づく自律エージェントを用いた組織行動生成シミュレーション:ホラクラシーの視点から
Generative Organizational Behavior Simulation using Large Language Model based Autonomous Agents: A Holacracy Perspective ( http://arxiv.org/abs/2408.11826v1 ) ライセンス: Link先を確認 | Chen Zhu, Yihang Cheng, Jingshuai Zhang, Yusheng Qiu, Sitao Xia, Hengshu Zhu, | (参考訳) 本稿では,大規模言語モデルに基づく自律エージェントを用いたホラクラシー組織のための生成シミュレーションフレームワークの構築を目的とした,我々のプロジェクトであるCareerAgentの技術的詳細と周期的な発見について述べる。
特に、シミュレーションフレームワークは、構築、実行、評価の3つのフェーズを含み、個人、組織、タスク、ミーティングの基本的な特徴が組み込まれている。
シミュレーションの結果,いくつかの興味深い結果が得られた。
組織レベルでは、管理能力と機能能力の平均値の増加は、全体のストレスレベルを低下させるが、平均的なタスク完了などの組織的パフォーマンス指標に悪影響を及ぼす。
個々のレベルでは、両方の能力はメンバーの作業パフォーマンスを改善することができる。
ソーシャルネットワークの分析から,有能なメンバが特定のタスクに選択的に参加し,より多くの責任を負うことがわかった。
時間とともに、小さなサブコミュニティがホロクラシーの中でこれらの非常に有能なメンバーの周りに形成される。
これらの知見は、理論的に組織科学の研究に寄与し、管理者が組織力学を理解するための実践的な洞察を提供する。
In this paper, we present the technical details and periodic findings of our project, CareerAgent, which aims to build a generative simulation framework for a Holacracy organization using Large Language Model-based Autonomous Agents. Specifically, the simulation framework includes three phases: construction, execution, and evaluation, and it incorporates basic characteristics of individuals, organizations, tasks, and meetings. Through our simulation, we obtained several interesting findings. At the organizational level, an increase in the average values of management competence and functional competence can reduce overall members' stress levels, but it negatively impacts deeper organizational performance measures such as average task completion. At the individual level, both competences can improve members' work performance. From the analysis of social networks, we found that highly competent members selectively participate in certain tasks and take on more responsibilities. Over time, small sub-communities form around these highly competent members within the holacracy. These findings contribute theoretically to the study of organizational science and provide practical insights for managers to understand the organization dynamics. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-05 |
# GPTモデルにおける概念解釈の力学:解釈的考察
The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights ( http://arxiv.org/abs/2408.11827v1 ) ライセンス: Link先を確認 | Nura Aljaafari, Danilo S. Carvalho, André Freitas, | (参考訳) 大規模言語モデル(LLM)における知識の配置と編集は、その正確性、安全性、推論の合理性を高めるために不可欠である。
本稿では,これらのモデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである「概念編集」を紹介する。
逆辞書タスク、推論トレース、入力抽象化を用いて、トランスフォーマーモデルの多層パーセプトロン(MLP)、MHA(Multi-Head Attention)および隠れ状態成分を解析する。
MLP層にはキー値検索機構とコンテキスト依存処理が採用されており、相対的な入力トークンと密接に関連している。
MHA層は、高度な高度なアクティベーションを持つ分散特性を示し、洗練されたセマンティック統合を示唆している。
隠れた状態は、推論プロセスにおける最後のトークンとトップレイヤの重要性を強調します。
段階的な情報構築と分散表現の証拠を観察する。
これらの観察により、トランスフォーマーモデルが意味情報をどう処理するかが解明され、ターゲットとなる介入への道が開かれ、解釈可能性の向上が図られる。
我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
Locating and editing knowledge in large language models (LLMs) is crucial for enhancing their accuracy, safety, and inference rationale. We introduce ``concept editing'', an innovative variation of knowledge editing that uncovers conceptualisation mechanisms within these models. Using the reverse dictionary task, inference tracing, and input abstraction, we analyse the Multi-Layer Perceptron (MLP), Multi-Head Attention (MHA), and hidden state components of transformer models. Our results reveal distinct patterns: MLP layers employ key-value retrieval mechanism and context-dependent processing, which are highly associated with relative input tokens. MHA layers demonstrate a distributed nature with significant higher-level activations, suggesting sophisticated semantic integration. Hidden states emphasise the importance of the last token and top layers in the inference process. We observe evidence of gradual information building and distributed representation. These observations elucidate how transformer models process semantic information, paving the way for targeted interventions and improved interpretability techniques. Our work highlights the complex, layered nature of semantic processing in LLMs and the challenges of isolating and modifying specific concepts within these models. | 翻訳日:2024-08-25 14:01:15 公開日:2024-08-05 |
# 群体論における関係力学とページ・ウォッタース形式論
Relational dynamics and Page-Wootters formalism in group field theory ( http://arxiv.org/abs/2407.03432v2 ) ライセンス: Link先を確認 | Andrea Calcinari, Steffen Gielen, | (参考訳) 群体論は時空は創発的であり、従って空間や時間という背景概念なしで定義される、と仮定する; 動的質問は関係的な用語で定式化され、特に時間として(スカラー)自由度を用いている。
重力系の正準量子化とは異なり、座標変換や制約の明確な概念はなく、確立された量子化法を直接適用することはできない。
その結果、群体論の様々な正準形式論が文献で議論されている。
群場理論のパラメトリ版を用いてこれらの問題に対処し、すべての(幾何学と物質)自由度がフィデューシャルパラメータで進化する。
再パラメータ化の自由に関連する制約があり、ディラック量子化プログラムを実装できる。
関係力学のトリニティ」を用いて、結果として生じる「時計ニュートラル」理論は、ページ・ウォッタース形式論の観点から解釈された非対称な正準群場理論と完全に等価であることを示す。
我々の結果は、非パラメトリッド量子化が完全に共変であることを示し、結合量子物質の力学と幾何学的自由度を符号化していると見なすことができるだけでなく、非摂動量子重力に直接ペイジ・ウォッタース形式を適用した最初の例である。
量子重力における「多重フィンガー時間」の概念と結びつき、ペイジ・ウォッタース形式論の幾分斬新な拡張を提供する、多くの独立ゲージ対称性が導入された設定の拡張を示す。
Group field theory posits that spacetime is emergent and is hence defined without any background notion of space or time; dynamical questions are formulated in relational terms, in particular using (scalar) matter degrees of freedom as time. Unlike in canonical quantisation of gravitational systems, there is no obvious notion of coordinate transformations or constraints, and established quantisation methods cannot be directly applied. As a result, different canonical formalisms for group field theory have been discussed in the literature. We address these issues using a parametrised version of group field theory, in which all (geometry and matter) degrees of freedom evolve in a fiducial parameter. There is a constraint associated to the freedom of reparametrisation and the Dirac quantisation programme can be implemented. Using the "trinity of relational dynamics", we show that the resulting "clock-neutral" theory is entirely equivalent to a deparametrised canonical group field theory, interpreted in terms of the Page-Wootters formalism. Our results not only show that the deparametrised quantisation is fully covariant and can be seen as encoding the dynamics of joint quantum matter and geometry degrees of freedom, they also appear to be the first application of the Page-Wootters formalism directly to non-perturbative quantum gravity. We show extensions to a setting in which many independent gauge symmetries are introduced, which connects to the "multi-fingered time" idea in quantum gravity and provides a somewhat novel extension of the Page-Wootters formalism. | 翻訳日:2024-08-19 05:35:40 公開日:2024-08-05 |
# エネルギー効率の良いLLM推論のためのSLO対応GPU周波数スケーリング
SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving ( http://arxiv.org/abs/2408.05235v1 ) ライセンス: Link先を確認 | Andreas Kosmas Kakolyris, Dimosthenis Masouros, Petros Vavaroutsos, Sotirios Xydis, Dimitrios Soudris, | (参考訳) 大規模言語モデル(LLM)が勢いを増すにつれ、電力不足のGPUへの依存がエネルギー需要の増大を招き、環境や金融の懸念が高まる。
推論はLLMワークロードを支配し、プロバイダにとって重要な課題である: 最適なユーザエクスペリエンスを確保するためのサービスレベルオブジェクト(SLO)の下でのエネルギーコストの最小化。
本稿では、インスタンスとGPUの周波数スケーリングを用いて、SLOの整合中にエネルギー消費量を削減するフレームワークである「textit{throttLL'eM}」を提案する。
\textit{throttLL'eM}は将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
これらのプロジェクションを入力として受け取るMachine-Learning(ML)モデルを利用することで、 \textit{throttLL'eM} はイテレーションレベルでのパフォーマンスを管理し、周波数とインスタンスサイズを削減したSLOを満たす。
提案したMLモデルは0.97以上のR^2$スコアを達成し,平均毎秒1回未満のミス予測性能を実現する。
LLM推論による実験結果によると、NVIDIAのTritonサーバと比較すると、 \textit{throttLL'eM} は 43.8\% の低消費電力を実現し、SLO 下では少なくとも $1.71\times$ のエネルギー効率改善を実現している。
As Large Language Models (LLMs) gain traction, their reliance on power-hungry GPUs places ever-increasing energy demands, raising environmental and monetary concerns. Inference dominates LLM workloads, presenting a critical challenge for providers: minimizing energy costs under Service-Level Objectives (SLOs) that ensure optimal user experience. In this paper, we present \textit{throttLL'eM}, a framework that reduces energy consumption while meeting SLOs through the use of instance and GPU frequency scaling. \textit{throttLL'eM} features mechanisms that project future KV cache usage and batch size. Leveraging a Machine-Learning (ML) model that receives these projections as inputs, \textit{throttLL'eM} manages performance at the iteration level to satisfy SLOs with reduced frequencies and instance sizes. We show that the proposed ML model achieves $R^2$ scores greater than 0.97 and miss-predicts performance by less than 1 iteration per second on average. Experimental results on LLM inference traces show that \textit{throttLL'eM} achieves up to 43.8\% lower energy consumption and an energy efficiency improvement of at least $1.71\times$ under SLOs, when compared to NVIDIA's Triton server. | 翻訳日:2024-08-19 04:07:11 公開日:2024-08-05 |
# バイオミメティック機械学習による添加摩擦スチール蒸着アルミニウム合金壁構造の機械的性質の予測
Biomimetic Machine Learning approach for prediction of mechanical properties of Additive Friction Stir Deposited Aluminum alloys based walled structures ( http://arxiv.org/abs/2408.05237v1 ) ライセンス: Link先を確認 | Akshansh Mishra, | (参考訳) 本研究は, バイオミメティック・機械学習を用いてAFSD(Additive Friction Stir deposited)アルミニウム合金壁構造の機械的特性を予測する新しい手法を提案する。
この研究は、AFSDプロセスの数値モデリングと遺伝的アルゴリズム最適化機械学習モデルを組み合わせて、von Misesストレスと対数ひずみを予測する。
AA2024, AA5083, AA5086, AA7075, AA6061の5つのアルミニウム合金のAFSD過程をシミュレーションするために有限要素解析を行った。
これらのシミュレーションから200のサンプルのデータセットが生成された。
その後、遺伝的アルゴリズムを用いて最適化された決定木(DT)とランダムフォレスト(RF)回帰モデルを開発し、重要な力学特性を予測した。
GA-RFモデルはフォン・ミセス応力(R乗=0.9676)と対数ひずみ(R乗=0.7201)の両方を予測する上で優れた性能を示した。
この革新的なアプローチは、複数のアルミニウム合金にわたるAFSDプロセスを理解し最適化するための強力なツールを提供し、様々なプロセスパラメータの下での材料挙動に関する洞察を提供する。
This study presents a novel approach to predicting mechanical properties of Additive Friction Stir Deposited (AFSD) aluminum alloy walled structures using biomimetic machine learning. The research combines numerical modeling of the AFSD process with genetic algorithm-optimized machine learning models to predict von Mises stress and logarithmic strain. Finite element analysis was employed to simulate the AFSD process for five aluminum alloys: AA2024, AA5083, AA5086, AA7075, and AA6061, capturing complex thermal and mechanical interactions. A dataset of 200 samples was generated from these simulations. Subsequently, Decision Tree (DT) and Random Forest (RF) regression models, optimized using genetic algorithms, were developed to predict key mechanical properties. The GA-RF model demonstrated superior performance in predicting both von Mises stress (R square = 0.9676) and logarithmic strain (R square = 0.7201). This innovative approach provides a powerful tool for understanding and optimizing the AFSD process across multiple aluminum alloys, offering insights into material behavior under various process parameters. | 翻訳日:2024-08-19 04:07:11 公開日:2024-08-05 |
# The Literature Review Network: An Explainable Artificial Intelligence for Systematic Literature Reviews, Meta-analyses, and Method Development
The Literature Review Network: An Explainable Artificial Intelligence for Systematic Literature Reviews, Meta-analyses, and Method Development ( http://arxiv.org/abs/2408.05239v1 ) ライセンス: Link先を確認 | Joshua Morriss, Tod Brindle, Jessica Bah Rösman, Daniel Reibsamen, Andreas Enz, | (参考訳) 体系的な文献レビューは研究における最も質の高い証拠である。
しかし、レビュープロセスは、重要なリソースとデータ制約によって妨げられています。
文学レビューネットワーク(LRN)は、文学レビュープロセス全体を自動化するために設計された、PRISMA 2020標準に準拠した、この種のAIプラットフォームの最初のものだ。
LRNは,専門家がPubMedに問い合わせるために開発した3本の検索文字列を用いて,手術用手袋の領域で評価した。
非専門家は全てのLRNモデルを訓練した。
パフォーマンスは、専門家のマニュアルレビューと比較された。
説明可能性とパフォーマンスの指標は、専門家のレビューを再現するLRNの能力を評価した。
一致度をジャカード指数と混乱行列で測定した。
研究が完了するまで、研究者はお互いの結果に盲目だった。
重なり合う研究は、LRN生成の体系的レビューに統合された。
LRNモデルは、専門家の訓練を受けずに優れた分類精度を示し、84.78%と85.71%の精度を達成した。
最高性能モデルは高いインターレータ信頼性(k = 0.4953)と説明可能性のメトリクスを達成し、'reduce'、'accident'、'sharp'と'double-gloving'をリンクした。
他のLRNモデルは、非専門家の判断(k = 0.2174)から逸脱したにもかかわらず、関連文献の91.51%をカバーし、「latex」、「double(手袋)」、「indication(表示)」という用語で表現した。
LRNはマニュアルレビュー(11ヶ月で19,920分)を上回り、全プロセスは5日間で288.6分に短縮された。
この研究は、専門家のようなPRISMAに準拠した体系的な文献レビューを成功させるために、説明可能なAIが専門家の訓練を必要としないことを実証している。
LRNは手術用手袋研究の結果を要約し、臨床研究者の発見とほぼ同一のテーマを特定した。
説明可能なAIは、医療研究に革命をもたらす可能性がある、臨床実践に対する理解を正確に解き放つことができる。
Systematic literature reviews are the highest quality of evidence in research. However, the review process is hindered by significant resource and data constraints. The Literature Review Network (LRN) is the first of its kind explainable AI platform adhering to PRISMA 2020 standards, designed to automate the entire literature review process. LRN was evaluated in the domain of surgical glove practices using 3 search strings developed by experts to query PubMed. A non-expert trained all LRN models. Performance was benchmarked against an expert manual review. Explainability and performance metrics assessed LRN's ability to replicate the experts' review. Concordance was measured with the Jaccard index and confusion matrices. Researchers were blinded to the other's results until study completion. Overlapping studies were integrated into an LRN-generated systematic review. LRN models demonstrated superior classification accuracy without expert training, achieving 84.78% and 85.71% accuracy. The highest performance model achieved high interrater reliability (k = 0.4953) and explainability metrics, linking 'reduce', 'accident', and 'sharp' with 'double-gloving'. Another LRN model covered 91.51% of the relevant literature despite diverging from the non-expert's judgments (k = 0.2174), with the terms 'latex', 'double' (gloves), and 'indication'. LRN outperformed the manual review (19,920 minutes over 11 months), reducing the entire process to 288.6 minutes over 5 days. This study demonstrates that explainable AI does not require expert training to successfully conduct PRISMA-compliant systematic literature reviews like an expert. LRN summarized the results of surgical glove studies and identified themes that were nearly identical to the clinical researchers' findings. Explainable AI can accurately expedite our understanding of clinical practices, potentially revolutionizing healthcare research. | 翻訳日:2024-08-19 04:07:11 公開日:2024-08-05 |
# DisCoM-KD: 対角表現と対角学習によるクロスモーダル知識蒸留
DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning ( http://arxiv.org/abs/2408.07080v1 ) ライセンス: Link先を確認 | Dino Ienco, Cassio Fraga Dantas, | (参考訳) クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングデータとテストデータを扱う必要があるシナリオのことであり、より正確には、トレーニングデータとテストデータは、同じデータモダリティのセットをカバーしていない。
CMKDの伝統的なアプローチは、教師がマルチモーダルな教師からシングルモーダルな学生への知識を連続的に蒸留することを目的として、マルチモーダルなデータで訓練される教師/学生のパラダイムに基づいている。
このようなパラダイムが広く採用されているにもかかわらず、近年の研究では、クロスモーダルな知識伝達の文脈における固有の制限を強調しており、教師/学生のパラダイムを超えて、多モーダルなデータから単一モーダルな分類器への知識伝達を目的とした、さまざまなモーダルな情報の種類を明示的にモデル化する、DisCoM-KD(Disentanglement-learning based Cross-Modal Knowledge Distillation)と呼ばれる、クロスモーダルな知識蒸留のための新しい枠組みを導入する。
この目的のために、DisCoM-KDは、不整合表現学習と敵対的ドメイン適応を効果的に組み合わせて、特定の下流タスクに応じて、モダリティ、ドメイン不変性、ドメイン非表現性およびドメイン非関連特徴を同時に抽出する。
従来の教師/学生のパラダイムとは異なり、我々のフレームワークは、教師のクラス化だけでなく、各生徒のモデルを個別に学習する必要性を排除し、同時に全てのシングルモーダル分類器を学習する。
我々は,3つの標準マルチモーダルベンチマーク上でDisCoM-KDを評価し,その挙動を最近のSOTA知識蒸留フレームワークと比較した。
その結果,重複と非重複の両方を含むミスマッチシナリオを考慮した競合相手に対するDisCoM-KDの有効性が明らかとなった。
これらの結果は、マルチモーダルデータから単一モーダルニューラルネットワークへの情報を蒸留する従来のパラダイムを再考するための洞察を与える。
Cross-modal knowledge distillation (CMKD) refers to the scenario in which a learning framework must handle training and test data that exhibit a modality mismatch, more precisely, training and test data do not cover the same set of data modalities. Traditional approaches for CMKD are based on a teacher/student paradigm where a teacher is trained on multi-modal data with the aim to successively distill knowledge from a multi-modal teacher to a single-modal student. Despite the widespread adoption of such paradigm, recent research has highlighted its inherent limitations in the context of cross-modal knowledge transfer.Taking a step beyond the teacher/student paradigm, here we introduce a new framework for cross-modal knowledge distillation, named DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation), that explicitly models different types of per-modality information with the aim to transfer knowledge from multi-modal data to a single-modal classifier. To this end, DisCoM-KD effectively combines disentanglement representation learning with adversarial domain adaptation to simultaneously extract, foreach modality, domain-invariant, domain-informative and domain-irrelevant features according to a specific downstream task. Unlike the traditional teacher/student paradigm, our framework simultaneously learns all single-modal classifiers, eliminating the need to learn each student model separately as well as the teacher classifier. We evaluated DisCoM-KD on three standard multi-modal benchmarks and compared its behaviourwith recent SOTA knowledge distillation frameworks. The findings clearly demonstrate the effectiveness of DisCoM-KD over competitors considering mismatch scenarios involving both overlapping and non-overlapping modalities. These results offer insights to reconsider the traditional paradigm for distilling information from multi-modal data to single-modal neural networks. | 翻訳日:2024-08-19 03:47:26 公開日:2024-08-05 |
# コンテンツレコメンデーションによるデジタル対人感情制御のための共感応答
Empathic Responding for Digital Interpersonal Emotion Regulation via Content Recommendation ( http://arxiv.org/abs/2408.07704v1 ) ライセンス: Link先を確認 | Akriti Verma, Shama Islam, Valeh Moghaddam, Adnan Anwar, Sharon Horwood, | (参考訳) 対人コミュニケーションは人々の感情、特にデジタルプラットフォームにおいて重要な役割を担っている。
研究では、ソーシャルメディアを使ってオンラインコンテンツを消費し、感情を調節し、休息と回復を支援することが示されている。
しかし、これらのプラットフォームは感情制御のために設計されておらず、この点での有効性を制限している。
この問題に対処するために、コンテンツレコメンデーションを通じてオンラインプラットフォーム上での対人感情規制(IER)を強化するアプローチを提案する。
目的は、IER戦略、特に共感的な反応と整合したメディアコンテンツを制作することで、オンラインプラットフォームに積極的にあるいは受動的に関与しながら、ユーザーの感情を規制することである。
提案システムは,デジタルメディアプラットフォーム上でのリアルタイムIER実践への道を開くとともに,システム開始とユーザ開始の感情規制を融合させることが期待されている。
このアプローチの有効性を評価するために、テキストベースのソーシャルメディアデータの分析やユーザ調査を含む混合手法の研究設計を用いる。
デジタルアプリケーションはこのプロセスのファシリテーターとして機能し、デジタル感情規制(DER)のためのデジタルメディアアプリケーションとして広く認知されている。
この研究はRedditで1年間に37.5万件のユーザー投稿と対話を収集し、ユーザアクティビティと好みの機能を使ったコンテキスト多関節帯域(CMAB)ベースのレコメンデーションシステムの設計を行っている。
この実験により,提案システムによって生成される共感的レコメンデーションは,注意散らしや回避といった広く受け入れられているER戦略よりも,ユーザが好むことが示された。
Interpersonal communication plays a key role in managing people's emotions, especially on digital platforms. Studies have shown that people use social media and consume online content to regulate their emotions and find support for rest and recovery. However, these platforms are not designed for emotion regulation, which limits their effectiveness in this regard. To address this issue, we propose an approach to enhance Interpersonal Emotion Regulation (IER) on online platforms through content recommendation. The objective is to empower users to regulate their emotions while actively or passively engaging in online platforms by crafting media content that aligns with IER strategies, particularly empathic responding. The proposed recommendation system is expected to blend system-initiated and user-initiated emotion regulation, paving the way for real-time IER practices on digital media platforms. To assess the efficacy of this approach, a mixed-method research design is used, including the analysis of text-based social media data and a user survey. Digital applications has served as facilitators in this process, given the widespread recognition of digital media applications for Digital Emotion Regulation (DER). The study collects 37.5K instances of user posts and interactions on Reddit over a year to design a Contextual Multi-Armed Bandits (CMAB) based recommendation system using features from user activity and preferences. The experimentation shows that the empathic recommendations generated by the proposed recommendation system are preferred by users over widely accepted ER strategies such as distraction and avoidance. | 翻訳日:2024-08-19 03:35:49 公開日:2024-08-05 |
# 知識グラフと大規模言語モデルによるサプライチェーンの可視性向上
Enhancing Supply Chain Visibility with Knowledge Graphs and Large Language Models ( http://arxiv.org/abs/2408.07705v1 ) ライセンス: Link先を確認 | Sara AlMahri, Liming Xu, Alexandra Brintrup, | (参考訳) 今日のグローバル化経済では、包括的なサプライチェーンの可視性は効果的なリスク管理に不可欠である。
サプライチェーンのパートナー間での情報共有が限られているため、可視性を確保することは依然として大きな課題である。
本稿では,知識グラフ(KG)と大規模言語モデル(LLM)を活用して,直接利害関係者の情報共有に頼ることなく,サプライチェーンの可視性を高める手法を提案する。
我々のゼロショットLCM駆動型アプローチは、様々な公共ソースからのサプライチェーン情報の抽出を自動化し、サプライチェーンエンティティ間の複雑な相互依存を捉えるためにKGを構築する。
我々は、名前付きエンティティ認識(NER)と関係抽出(RE)タスクにゼロショットプロンプトを導入し、ドメイン固有の広範なトレーニングの必要性を排除した。
この枠組みを電気自動車のサプライチェーンのケーススタディで検証し、電池製造における重要なミネラルの追跡に焦点をあてる。
その結果、サプライチェーンマッピングが大幅に改善され、ティア2サプライヤを超えて視認性が向上した。
このフレームワークは、重要な依存関係と代替のソーシングオプション、リスク管理の強化、戦略的計画を明らかにしている。
NERとREタスクの精度が高く、複雑な多層供給ネットワークを理解する効果的なツールを提供する。
この研究は、ドメイン固有のサプライチェーンKGを構築するためのスケーラブルで柔軟な方法を提供する。
In today's globalized economy, comprehensive supply chain visibility is crucial for effective risk management. Achieving visibility remains a significant challenge due to limited information sharing among supply chain partners. This paper presents a novel framework leveraging Knowledge Graphs (KGs) and Large Language Models (LLMs) to enhance supply chain visibility without relying on direct stakeholder information sharing. Our zero-shot, LLM-driven approach automates the extraction of supply chain information from diverse public sources and constructs KGs to capture complex interdependencies between supply chain entities. We employ zero-shot prompting for Named Entity Recognition (NER) and Relation Extraction (RE) tasks, eliminating the need for extensive domain-specific training. We validate the framework with a case study on electric vehicle supply chains, focusing on tracking critical minerals for battery manufacturing. Results show significant improvements in supply chain mapping, extending visibility beyond tier-2 suppliers. The framework reveals critical dependencies and alternative sourcing options, enhancing risk management and strategic planning. With high accuracy in NER and RE tasks, it provides an effective tool for understanding complex, multi-tiered supply networks. This research offers a scalable, flexible method for constructing domain-specific supply chain KGs, addressing longstanding challenges in visibility and paving the way for advancements in digital supply chain surveillance. | 翻訳日:2024-08-19 03:35:49 公開日:2024-08-05 |
# 重力波のインフレーションに及ぼす量子デコヒーレンスの影響
The effect of quantum decoherence on inflationary gravitational waves ( http://arxiv.org/abs/2408.02563v1 ) ライセンス: Link先を確認 | Jessie de Kruijf, Nicola Bartolo, | (参考訳) インフレーションの理論は、量子力学的に生成されたゆらぎから始まり、現在宇宙で観測されている構造を説明するメカニズムを提供する。
しかし、これは、量子-古典遷移がどのように発生したのかという疑問を残している。
インフレーションの間、テンソル摂動は他の場と(少なくとも重力的に)相互作用する。
本稿では,システムの量子デコヒーレンスを記述するリンドブラッド方程式を用いて,システムの進化について述べる。
これは量子-古典遷移を説明するためのメカニズムである。
この量子デコヒーレンスにより, 重力波パワースペクトルのスケール依存的な増加が, システムと環境間の相互作用の強度と時間依存性に依存することを示す。
CMBおよびLIGO-Virgo-KAGRA制約から得られるインフレーションから得られる重力波パワースペクトルの現在の上限を用いて、相互作用強度の上限を求める。
さらに,デコヒーレンス基準を算出し,インフレーションの終了までにデコヒーレンスを脱コヒーレンスするために必要な最小の相互作用強度を示す。
CMBモードが完全にデコヒートされていると仮定すると、相互作用強度の低下を示す。
さらに、このデコヒーレンス基準は、どのスケールが完全にデコヒーレントしていないかを見極め、レリックな量子シグネチャも示せる。
最後に、感度予測を用いて、LISAやETのような将来の重力波検出器がデコヒーレンスパラメータ空間をいかに制限するかを研究する。
パワースペクトルのスケール依存性のため、LISAはわずかしか影響を受けなかった。
しかしETは、特定のデコヒーレンスシナリオに対する現在の制約を大幅に改善することができます。
The theory of inflation provides a mechanism to explain the structures we observe today in the Universe, starting from quantum-mechanically generated fluctuations. However, this leaves the question of: how did the quantum-to-classical transition, occur? During inflation, tensor perturbations interact (at least gravitationally) with other fields, meaning that we need to view these perturbations as an open system that interacts with an environment. In this paper, the evolution of the system is described using a Lindblad equation, which describes the quantum decoherence of the system. This is a possible mechanism for explaining the quantum-to-classical transition. We show that this quantum decoherence leads to a scale-dependent increase of the gravitational wave power spectrum, depending on the strength and time dependence of the interaction between the system and the environment. By using current upper bounds on the gravitational wave power spectrum from inflation, obtained from CMB and the LIGO-Virgo-KAGRA constraints, we find an upper bound on the interaction strength. Furthermore, we compute the decoherence criterion, which indicates the minimal interaction strength needed for a specific scale to have successfully decohered by the end of inflation. Assuming that the CMB modes have completely decohered, we indicate a lower bound on the interaction strength. In addition, this decoherence criterion allows us to look at which scales might not have fully decohered and could still show some relic quantum signatures. Lastly, we use sensitivity forecasts to study how future gravitational-wave detectors, such as LISA and ET, could constrain the decoherence parameter space. Due to the scale-dependence of the power spectrum, LISA could only have a very small impact. However, ET will be able to significantly improve our current constraints for specific decoherence scenarios. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-05 |
# バッチBPEトークン化マージ
Batching BPE Tokenization Merges ( http://arxiv.org/abs/2408.04653v1 ) ライセンス: Link先を確認 | Alexander P. Morgan, | (参考訳) Byte Pair Encodingアルゴリズムは、トークンの語彙を構築する際に、数百のトークンをマージするために安全にバッチ化することができる。
この技術は、語彙学習で使われるテキストのメモリフットプリントを減らすことで、基礎的なラップトップ上で高品質なトークンをトレーニングすることが可能になる。
本稿では,これらの概念をオープンソースで実装したBatchBPEについて述べる。
BatchBPEの有用性と適合性は、いくつかのトークン語彙のトレーニングを通じて、バッチマージプロセスを探索し、停止語リストを前処理し、データセット内の最も一般的なテキストチャンクを無視する実験によって実証される。
テキストの結果として符号化された長さは、基本的な評価指標として使用される。
The Byte Pair Encoding algorithm can be safely batched to merge hundreds of pairs of tokens at a time when building up a tokenizer's vocabulary. This technique combined with reducing the memory footprint of text used in vocabulary training make it feasible to train a high quality tokenizer on a basic laptop. This paper presents BatchBPE, an open-source pure Python implementation of these concepts, with the goal of making experimenting with new tokenization strategies more accessible especially in compute- and memory-constrained contexts. BatchBPE's usefulness and malleability are demonstrated through the training of several token vocabularies to explore the batch merging process and experiment with preprocessing a stop word list and ignoring the least common text chunks in a dataset. Resultant encoded lengths of texts are used as a basic evaluation metric. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-05 |
# 人的価値を持つ大言語モデルの強弱アライメント
Strong and weak alignment of large language models with human values ( http://arxiv.org/abs/2408.04655v1 ) ライセンス: Link先を確認 | Mehdi Khamassi, Marceau Nahon, Raja Chatila, | (参考訳) 人工知能(AI)システムの人間社会への悪影響を最小限に抑えるためには、人間の価値観に合わせる必要がある。
しかし、現在のほとんどの研究は、技術的観点からのみこの問題に対処している。例えば、人間のフィードバックからの強化学習に依存し、それが何を意味するのかを無視し、アライメントを行うために必要な現在の手法を改善する。
本稿では,強い値のアライメントと弱い値アライメントを区別することを提案する。
強いアライメントは、エージェントの意図を理解し、推論したり、望ましい効果を因果的に生み出す能力のような認知能力(人間と異なるもの)を必要とする。
これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。
この区別を説明するために、我々はChatGPT、Gemini、Copilotがこれらの状況を認識しなかったことを示す一連のプロンプトを提示する。
さらに, 単語埋め込みを解析することにより, LLMにおける人間の値に最も近い近傍が, 人間の意味表現と異なることを示す。
そこで我々は,ジョン・サールの有名な提案の延長として,「単語遷移辞書付き中国語室」と呼ばれる新しい思考実験を提案する。
我々は最終的に、いくつかの一般的な状況において統計的に満足できる答えを得られるような、弱いアライメントに向けた現在の有望な研究方向について言及した。
Minimizing negative impacts of Artificial Intelligent (AI) systems on human societies without human supervision requires them to be able to align with human values. However, most current work only addresses this issue from a technical point of view, e.g., improving current methods relying on reinforcement learning from human feedback, neglecting what it means and is required for alignment to occur. Here, we propose to distinguish strong and weak value alignment. Strong alignment requires cognitive abilities (either human-like or different from humans) such as understanding and reasoning about agents' intentions and their ability to causally produce desired effects. We argue that this is required for AI systems like large language models (LLMs) to be able to recognize situations presenting a risk that human values may be flouted. To illustrate this distinction, we present a series of prompts showing ChatGPT's, Gemini's and Copilot's failures to recognize some of these situations. We moreover analyze word embeddings to show that the nearest neighbors of some human values in LLMs differ from humans' semantic representations. We then propose a new thought experiment that we call "the Chinese room with a word transition dictionary", in extension of John Searle's famous proposal. We finally mention current promising research directions towards a weak alignment, which could produce statistically satisfying answers in a number of common situations, however so far without ensuring any truth value. | 翻訳日:2024-08-12 17:49:41 公開日:2024-08-05 |
# ユーザインタラクションによる数学的文書のセマンティック・マークアップに向けて
Towards Semantic Markup of Mathematical Documents via User Interaction ( http://arxiv.org/abs/2408.04656v1 ) ライセンス: Link先を確認 | Luka Vrečar, Joe Wells, Fairouz Kamareddine, | (参考訳) LaTeXで書かれた数学的文書には曖昧さがしばしば含まれている。
セマンティックマークアップ(例: sTeX)を使ってそれらのいくつかを解決できるが、これはコンピュータ代数システムとの相互運用性、証明システム、アクセシビリティの向上など、他の潜在的な利点もある。
しかし、セマンティックマークアップは「正規」な型付けよりも関与しており、数学的文書の作成者にとって課題となる。
著者のための半自動ツールを開発することにより,LaTeXからセマンティックマークアップへの移行を円滑にすることを目指している。
本稿では,既存のsTeXマクロ定義から文法を自動生成し,数学的公式を解析することで,式の意味的マークアップにアプローチする。
また、解析結果を曖昧にするためのGUIベースのツールを提案し、未入力の$\lambda$-termsを解析するための文法を用いて、その機能と可能性を示す。
Mathematical documents written in LaTeX often contain ambiguities. We can resolve some of them via semantic markup using, e.g., sTeX, which also has other potential benefits, such as interoperability with computer algebra systems, proof systems, and increased accessibility. However, semantic markup is more involved than "regular" typesetting and presents a challenge for authors of mathematical documents. We aim to smooth out the transition from plain LaTeX to semantic markup by developing semi-automatic tools for authors. In this paper we present an approach to semantic markup of formulas by (semi-)automatically generating grammars from existing sTeX macro definitions and parsing mathematical formulas with them. We also present a GUI-based tool for the disambiguation of parse results and showcase its functionality and potential using a grammar for parsing untyped $\lambda$-terms. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-05 |
# Amazon KDD Cup'24で優勝
Winning Amazon KDD Cup'24 ( http://arxiv.org/abs/2408.04658v1 ) ライセンス: Link先を確認 | Chris Deotte, Ivan Sorokin, Ahmet Erdem, Benedikt Schifferer, Gilberto Titericz Jr, Simon Jegou, | (参考訳) 本稿は, Amazon KDD Cup 2024 Multi Task Online Shopping Challenge for LLMs における5つのタスクの優勝ソリューションについて述べる。
課題は、オンラインショッピングの分野における質問に答える便利なアシスタントを作ることだった。
コンペティションには57の多様なタスクが含まれており、5つの異なるタスクタイプ(例えば、複数の選択)と4つの異なるトラック(例えば、多言語)をカバーする。
私たちのソリューションはトラック毎に1つのモデルです。
トレーニングデータセットにQwen2-72B-Instructを微調整します。
コンペティションが96のサンプル質問しかリリースしなかったため、複数の公開データセットを処理したり、データ拡張と合成データ生成にLarge Language Modelsを使用したりすることで、独自のトレーニングデータセットを開発しました。
分散シフトを考慮に入れ,複数のLoRAアダプタを1つのモデルでアンサンブルする。
私たちは、タスクに関連するトークンでモデル出力を制約するためにLogits Processorsを使用しました。
AWQ 4ビット量子化とvLLMは、トラックに応じて20分から140分の時間制約でテストデータセットを予測するために、推論中に使用される。
われわれのソリューションは各トラックで1位を獲得し、AmazonのKDDカップ2024で1位になった。
This paper describes the winning solution of all 5 tasks for the Amazon KDD Cup 2024 Multi Task Online Shopping Challenge for LLMs. The challenge was to build a useful assistant, answering questions in the domain of online shopping. The competition contained 57 diverse tasks, covering 5 different task types (e.g. multiple choice) and across 4 different tracks (e.g. multi-lingual). Our solution is a single model per track. We fine-tune Qwen2-72B-Instruct on our own training dataset. As the competition released only 96 example questions, we developed our own training dataset by processing multiple public datasets or using Large Language Models for data augmentation and synthetic data generation. We apply wise-ft to account for distribution shifts and ensemble multiple LoRA adapters in one model. We employed Logits Processors to constrain the model output on relevant tokens for the tasks. AWQ 4-bit Quantization and vLLM are used during inference to predict the test dataset in the time constraints of 20 to 140 minutes depending on the track. Our solution achieved the first place in each individual track and is the first place overall of Amazons KDD Cup 2024. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-05 |
# XMainframe: メインフレームの近代化のための大規模言語モデル
XMainframe: A Large Language Model for Mainframe Modernization ( http://arxiv.org/abs/2408.04660v1 ) ライセンス: Link先を確認 | Anh T. V. Dau, Hieu Trung Dao, Anh Tuan Nguyen, Hieu Trung Tran, Phong X. Nguyen, Nghi D. Q. Bui, | (参考訳) メインフレームオペレーティングシステムは1940年代に誕生したにもかかわらず、金融や政府といった重要な分野のサポートを続けている。
しかし、これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。
この課題に対処するには、レガシーコードベースを理解して操作できる革新的なツールが必要である。
この目的のために,メインフレームレガシシステムやCOBOLコードベースの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
私たちのソリューションは、高品質なトレーニングデータセットを生成するための広範なデータ収集パイプラインの作成と、この特殊なドメインにおけるXMainframeのパフォーマンスの向上です。
さらに、メインフレームの知識を総合的に評価するためのベンチマークであるMainframeBenchを紹介します。
XMainframeは、これらのタスクにおいて、既存の最先端のLCMよりも一貫して優れています。
具体的には、XMainframeは複数の質問に対してDeepSeek-Coderよりも30%高い精度を達成し、質問応答においてMixtral-Instruct 8x7BのBLEUスコアを倍増させ、COBOL要約においてGPT-3.5よりも6倍高いスコアを得る。
我々の研究は、XMainframeがレガシーシステムの管理と近代化において大きな進歩をもたらし、それによって生産性が向上し、ソフトウェア開発者の時間を節約できる可能性を強調しています。
Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe's performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-05 |
# MaterioMiner -- プロセス構造-プロパティエンティティの抽出のためのオントロジーベースのテキストマイニングデータセット
MaterioMiner -- An ontology-based text mining dataset for extraction of process-structure-property entities ( http://arxiv.org/abs/2408.04661v1 ) ライセンス: Link先を確認 | Ali Riza Durmaz, Akhil Thomas, Lokesh Mishra, Rachana Niranjan Murthy, Thomas Straub, | (参考訳) 大規模言語モデルは言語とその情報に対する統計的表現を学習するが、オントロジは前者を理想的に補完するシンボリックな知識表現である。
この重要な交差点の研究は、ニューロシンボリックモデルのトレーニングと包括的なベンチマークを可能にするために、オントロジーとテキストコーパスを介するデータセットに依存している。
本稿では,MaterioMinerデータセットと関連材料力学オントロジーについて述べる。
データセットのもう1つの特徴は、非常に細かい粒度のアノテーションである。
具体的には、179の異なるクラスが4つの出版物の中で3人のラッカーによって手動で注釈付けされ、合計2191のエンティティが注釈付けされ、キュレーションされた。
因果合成-プロセス-ミクロ構造-プロパティ関係のシンボリック表現に関する概念的研究が提示される。
本研究では,3つのレーダ間のアノテーションの整合性について検討し,事前学習モデルの微調整を行い,名前付き認識モデルトレーニングの実現可能性を示す。
データセットの再利用は、材料言語モデルのトレーニングとベンチマーク、オントロジーの自動構築、テキストデータからの知識グラフ生成を促進することができる。
While large language models learn sound statistical representations of the language and information therein, ontologies are symbolic knowledge representations that can complement the former ideally. Research at this critical intersection relies on datasets that intertwine ontologies and text corpora to enable training and comprehensive benchmarking of neurosymbolic models. We present the MaterioMiner dataset and the linked materials mechanics ontology where ontological concepts from the mechanics of materials domain are associated with textual entities within the literature corpus. Another distinctive feature of the dataset is its eminently fine-granular annotation. Specifically, 179 distinct classes are manually annotated by three raters within four publications, amounting to a total of 2191 entities that were annotated and curated. Conceptual work is presented for the symbolic representation of causal composition-process-microstructure-property relationships. We explore the annotation consistency between the three raters and perform fine-tuning of pre-trained models to showcase the feasibility of named-entity recognition model training. Reusing the dataset can foster training and benchmarking of materials language models, automated ontology construction, and knowledge graph generation from textual data. | 翻訳日:2024-08-12 17:39:53 公開日:2024-08-05 |
# 大域的形状記述子を用いた動物・植物群への物体の視覚的分類に関する研究 : カテゴリー別欠陥に着目して
A study on general visual categorization of objects into animal and plant groups using global shape descriptors with a focus on category-specific deficits ( http://arxiv.org/abs/1901.11398v3 ) ライセンス: Link先を確認 | Zahra Sadeghi, | (参考訳) 人間は対象の一般的な分類をどう区別しますか。
多くの意味カテゴリー障害では、患者は広範囲の分類に長けているが、細部や特定の詳細を記憶できない。
概念に関する一般的な情報は、セマンティックメモリに関連する損傷に対してより堅牢であることは、広く受け入れられている。
セマンティックメモリ障害の患者は、サブカテゴリ認識における能力の喪失を示す。
本稿では,分類特異的障害の行動証拠を概説し,動物と植物の一般的なカテゴリーが,テキスト情報を処理せずに視覚的に識別可能であることを示す。
この目的のために、我々は特徴学習の新たなフェーズを持つ形状記述子を利用する。
本手法が視覚領域における動物と植物を効果的に識別できることを確認するため,教師なし学習機構と教師なし学習機構を用いて評価を行った。
How do humans distinguish between general categories of objects? In a number of semantic category deficits, patients are good at making broad categorization but are unable to remember fine and specific details. It has been well accepted that general information about concepts is more robust to damages related to semantic memory. Results from patients with semantic memory disorders demonstrate the loss of ability in subcategory recognition. In this paper, we review the behavioral evidence for category specific disorder and show that general categories of animal and plant are visually distinguishable without processing textural information. To this aim, we utilize shape descriptors with an additional phase of feature learning. The results are evaluated with both supervised and unsupervised learning mechanisms and confirm that the proposed method can effectively discriminates between animal and plant object categories in visual domain. | 翻訳日:2024-08-09 21:34:30 公開日:2024-08-05 |
# タピスにおけるスマートスケジューリングに向けて
Toward Smart Scheduling in Tapis ( http://arxiv.org/abs/2408.03349v1 ) ライセンス: Link先を確認 | Joe Stubbs, Smruti Padhy, Richard Cardone, | (参考訳) Tapisフレームワークは,クラウド上で動作するHPCクラスタやサーバなど,リモートリソース上でのジョブ実行を自動化するAPIを提供する。
Tapisはリモートサイバーインフラストラクチャ(CI)とのインタラクションを単純化するが、現在のサービスでは、システム、キュー、ノードカウント、最大実行時間など、実行するジョブの正確な設定を指定する必要がある。
さらに、リモートリソースはジョブが送信される前にTapisで定義され、設定されなければならない。
本稿では,Tapisにおけるインテリジェントなジョブスケジューリング機能の開発に取り組み,ユーザに対してジョブ構成に関するさまざまな属性を自動的に決定し,特定のジョブに対してTapisによって動的に計算リソースをプロビジョニングする。
このような機能の全体的なアーキテクチャを開発しており、解決すべきコア課題の集合を示唆している。
そこで我々は,異なるHPCシステムとキュー上でジョブの待ち時間を予測することに着目し,機械学習手法に基づく2つの結果セットを示す。
私たちの最初の結果セットは、既存のオプションリストから最適なシステムを選択するのに使用できる回帰としてこの問題を提起しました。
第2の結果は,既存のシステムと動的にプロビジョニングされたリソースとを比較可能な分類として,この問題の枠組みを定式化したものである。
The Tapis framework provides APIs for automating job execution on remote resources, including HPC clusters and servers running in the cloud. Tapis can simplify the interaction with remote cyberinfrastructure (CI), but the current services require users to specify the exact configuration of a job to run, including the system, queue, node count, and maximum run time, among other attributes. Moreover, the remote resources must be defined and configured in Tapis before a job can be submitted. In this paper, we present our efforts to develop an intelligent job scheduling capability in Tapis, where various attributes about a job configuration can be automatically determined for the user, and computational resources can be dynamically provisioned by Tapis for specific jobs. We develop an overall architecture for such a feature, which suggests a set of core challenges to be solved. Then, we focus on one such specific challenge: predicting queue times for a job on different HPC systems and queues, and we present two sets of results based on machine learning methods. Our first set of results cast the problem as a regression, which can be used to select the best system from a list of existing options. Our second set of results frames the problem as a classification, allowing us to compare the use of an existing system with a dynamically provisioned resource. | 翻訳日:2024-08-08 17:40:15 公開日:2024-08-05 |
# miniCTX:(Long-)コンテキストによる神経理論の証明
miniCTX: Neural Theorem Proving with (Long-)Contexts ( http://arxiv.org/abs/2408.03350v1 ) ライセンス: Link先を確認 | Jiewen Hu, Thomas Zhu, Sean Welleck, | (参考訳) モデルが新しい定義や補題、あるいは訓練中に観測されなかった文脈情報に依存する形式的な数学的定理を証明する能力をテストするミニCTXを導入する。
miniCTXには、実際のリーンプロジェクトと教科書に由来する定理が含まれており、それぞれに数万のトークンにまたがるコンテキストが関連付けられています。
モデルは定理を証明し、定理のリポジトリからコードにアクセスできるようにする。
ミニCTXのベースラインとして,先行するファイルコンテンツに条件付き証明ステップを生成するためにモデルを訓練するシンプルなレシピであるファイルチューニングを導入する。
ファイルチューニングは、状態のみを微調整する従来のニューラル定理証明アプローチを大幅に上回る。
さらに、我々のファイルチューニングモデルは、標準の miniF2F ベンチマークの性能を改善し、1.3B パラメータモデルのための新しい最先端モデルである 33.61% のパスレートを達成する。
miniCTXとともに、定理証明データを自動抽出し注釈付けするためのntp-toolkitを提供し、miniCTXに新しいプロジェクトを追加して、トレーニング中にコンテキストが見えないようにする。
miniCTXは、ニューラル定理の証明者を評価する上で、挑戦的で現実的な視点を提供する。
We introduce miniCTX, which tests a model's ability to prove formal mathematical theorems that depend on new definitions, lemmas, or other contextual information that was not observed during training. miniCTX contains theorems sourced from real Lean projects and textbooks, each associated with a context that can span tens of thousands of tokens. Models are tasked with proving a theorem given access to code from the theorem's repository, which contains context that is helpful or needed for the proof. As a baseline for miniCTX, we introduce file-tuning, a simple recipe that trains a model to generate a proof step conditioned on the preceding file contents. File-tuning substantially outperforms the traditional neural theorem proving approach that fine-tunes on states alone. Additionally, our file-tuned model improves performance on the standard miniF2F benchmark, achieving a pass rate of 33.61%, which is a new state-of-the-art for 1.3B parameter models. Alongside miniCTX, we offer ntp-toolkit for automatically extracting and annotating theorem proving data, making it easy to add new projects into miniCTX to ensure that contexts are not seen during training. miniCTX offers a challenging and realistic perspective on evaluating neural theorem provers. | 翻訳日:2024-08-08 14:46:00 公開日:2024-08-05 |
# ハイブリッド量子古典的アプローチを用いたMNIST分類のための量子伝達学習
Quantum Transfer Learning for MNIST Classification Using a Hybrid Quantum-Classical Approach ( http://arxiv.org/abs/2408.03351v1 ) ライセンス: Link先を確認 | Soumyadip Sarkar, | (参考訳) 本研究では,MNISTデータセットに着目した画像分類タスクにおいて,量子コンピューティングと古典的機械学習の統合について検討する。
両パラダイムの強みを生かしたハイブリッド量子古典的アプローチを提案する。
このプロセスは、MNISTデータセットを前処理し、ピクセル値を正規化し、イメージをベクトルに変換することから始まる。
オートエンコーダは、これらの784次元ベクトルを64次元の潜在空間に圧縮し、本質的な特徴を保ちながらデータの次元を効果的に減少させる。
これらの圧縮された特徴は、5量子ビットシステムに実装された量子回路を用いて処理される。
量子回路は特徴値に基づいて回転ゲートを施し、続いてアダマールとCNOTゲートを施して量子ビットを絡ませ、量子結果を生成する。
これらの結果は、MNIST桁を分類するために設計された古典的ニューラルネットワークの入力として機能する。
古典的ニューラルネットワークは、一般化と性能を高めるために、バッチ正規化とドロップアウトを備えた複数の高密度層を含む。
我々は、このハイブリッドモデルの性能を評価し、純粋に古典的なアプローチと比較する。
実験結果から、ハイブリッドモデルが量子コンピューティングと古典的手法を統合する可能性を示す一方で、量子結果に基づいて訓練された最終モデルの精度は、圧縮された特徴に基づいて訓練された古典的モデルよりも低いことが示唆された。
この研究は、機械学習における量子コンピューティングの可能性を強調しているが、優れた性能を達成するためには、さらなる最適化と高度な量子アルゴリズムが必要である。
In this research, we explore the integration of quantum computing with classical machine learning for image classification tasks, specifically focusing on the MNIST dataset. We propose a hybrid quantum-classical approach that leverages the strengths of both paradigms. The process begins with preprocessing the MNIST dataset, normalizing the pixel values, and reshaping the images into vectors. An autoencoder compresses these 784-dimensional vectors into a 64-dimensional latent space, effectively reducing the data's dimensionality while preserving essential features. These compressed features are then processed using a quantum circuit implemented on a 5-qubit system. The quantum circuit applies rotation gates based on the feature values, followed by Hadamard and CNOT gates to entangle the qubits, and measurements are taken to generate quantum outcomes. These outcomes serve as input for a classical neural network designed to classify the MNIST digits. The classical neural network comprises multiple dense layers with batch normalization and dropout to enhance generalization and performance. We evaluate the performance of this hybrid model and compare it with a purely classical approach. The experimental results indicate that while the hybrid model demonstrates the feasibility of integrating quantum computing with classical techniques, the accuracy of the final model, trained on quantum outcomes, is currently lower than the classical model trained on compressed features. This research highlights the potential of quantum computing in machine learning, though further optimization and advanced quantum algorithms are necessary to achieve superior performance. | 翻訳日:2024-08-08 14:36:13 公開日:2024-08-05 |
# 動的疎結合を用いた個別適応量子ゲート相互作用
Individually-addressed quantum gate interactions using dynamical decoupling ( http://arxiv.org/abs/2309.02125v2 ) ライセンス: Link先を確認 | M. C. Smith, A. D. Leu, M. F. Gely, D. M. Lucas, | (参考訳) 小型量子コンピュータの実装における主要なアプローチは、マイクロンのスポットサイズに焦点をあてたレーザービームを使用して、線形結晶中の閉じ込められたイオンに対処し、絡み合わせることである。
本稿では,マイクロ波の波長10^{-5}の波長に対応する数ミクロンの空間分解能を持つマイクロ波場によって駆動される,個々に調整されたエンタングリングゲート相互作用を実装する手法を提案する。
本研究では, 単一イオンを用いた状態依存力の抑制効果を実験的に実証し, 所要の相互作用により, 単量子ベンチマークシーケンスにおけるエミュレートゲート当たりの誤差が3.7(4)\times 10^{-4}$となることを示した。
17キュービットのイオン結晶のスキームをモデル化し、平均のクロストーク誤差を$\sim 10^{-5}$とすることで、任意のイオン対に対処できることを見出した。
A leading approach to implementing small-scale quantum computers has been to use laser beams, focused to micron spot sizes, to address and entangle trapped ions in a linear crystal. Here we propose a method to implement individually-addressed entangling gate interactions, but driven by microwave fields, with a spatial-resolution of a few microns, corresponding to $10^{-5}$ microwave wavelengths. We experimentally demonstrate the ability to suppress the effect of the state-dependent force using a single ion, and find the required interaction introduces $3.7(4)\times 10^{-4}$ error per emulated gate in a single-qubit benchmarking sequence. We model the scheme for a 17-qubit ion crystal, and find that any pair of ions should be addressable with an average crosstalk error of $\sim 10^{-5}$. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-05 |
# 強化学習によるボルンルールの合成
Synthesizing the Born rule with reinforcement learning ( http://arxiv.org/abs/2404.19011v2 ) ライセンス: Link先を確認 | Rodrigo S. Piera, John B. DeBrota, Matthew B. Weiss, Gabriela B. Lemos, Jailson Sales Araújo, Gabriel H. Aguilar, Jacques L. Pienaar, | (参考訳) 量子論の主観的ベイズ解釈(英語版)(QBism)によれば、量子力学は自然現象に賭けるときに、エージェントが賢明に使えるツールである。
特に、ボルン・ルールは意思決定の規範であると理解されており、実際は不足しているとしても、その理想は満たすべきである。
エージェントが量子力学に適合する決定を下すためには、何が必要か?
ここでは、現実的な(非理想的な)エージェントが、その決定においてボルンルールから逸脱する可能性について検討する。
そこで我々は,対称情報完全測定(SIC)の出力に「ベット」を付加する強化学習アルゴリズムとして単純なエージェントをシミュレートし,期待したリターンを最大化するためにその決定を調整する。
我々は、アルゴリズムの意思決定行動がボルンルールの理想的な形式からどのくらい離れているかを定量化し、制限要因について検討する。
そこで本研究では,本手法を用いてシナリオを実験的に実装する。
According to the subjective Bayesian interpretation of quantum theory (QBism), quantum mechanics is a tool that an agent would be wise to use when making bets about natural phenomena. In particular, the Born rule is understood to be a decision-making norm, an ideal which one should strive to meet even if usually falling short in practice. What is required for an agent to make decisions that conform to quantum mechanics? Here we investigate how a realistic (hence non-ideal) agent might deviate from the Born rule in its decisions. To do so we simulate a simple agent as a reinforcement-learning algorithm that makes `bets' on the outputs of a symmetric informationally-complete measurement (SIC) and adjusts its decisions in order to maximize its expected return. We quantify how far the algorithm's decision-making behavior departs from the ideal form of the Born rule and investigate the limiting factors. We propose an experimental implementation of the scenario using heralded single photons. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-05 |
# 非局所符号における4つの論理量子ビットの破れ外へのエンタング
Entangling four logical qubits beyond break-even in a nonlocal code ( http://arxiv.org/abs/2406.02666v2 ) ライセンス: Link先を確認 | Yifan Hong, Elijah Durso-Sabina, David Hayes, Andrew Lucas, | (参考訳) 量子誤り訂正は、論理量子ビットを物理的量子ビットの絡み合った状態に符号化することで、論理量子情報を環境デコヒーレンスから保護する。
スケーラブルな量子コンピュータを構築する際の最も重要な短期的課題の1つは、誤り訂正量子ビット上の論理量子回路が、修正されていない物理量子ビット上の等価回路よりも高い忠実性を達成する破局点に達することである。
QuantinuumのH2トラップイオン量子プロセッサを用いて、4つの論理量子ビットのGHZ状態を99.5 \pm 0.15 \% \le F \le 99.7 \pm 0.1\%$でエンコードする(結果の98%をポストセレクトした後)。
同じ量子プロセッサを用いて、4つの物理量子ビット上に9,7.8 \pm 0.2 \% \le F\le 98.7\pm 0.2\%$で補正されていないGHZ状態を作成することができる。
論理キュービットは$[\!
25,4,3 ]\!
Taner-transformed long-range-enhanced surface code。
論理エンタングゲートは単純なスワップ操作で実装される。
我々の結果は、幾何学的に非局所的な量子低密度パリティチェック符号で符号化された論理量子ビットを用いたフォールトトレラント量子計算の実現に向けた第一歩である。
Quantum error correction protects logical quantum information against environmental decoherence by encoding logical qubits into entangled states of physical qubits. One of the most important near-term challenges in building a scalable quantum computer is to reach the break-even point, where logical quantum circuits on error-corrected qubits achieve higher fidelity than equivalent circuits on uncorrected physical qubits. Using Quantinuum's H2 trapped-ion quantum processor, we encode the GHZ state in four logical qubits with fidelity $ 99.5 \pm 0.15 \% \le F \le 99.7 \pm 0.1\% $ (after postselecting on over 98% of outcomes). Using the same quantum processor, we can prepare an uncorrected GHZ state on four physical qubits with fidelity $97.8 \pm 0.2 \% \le F\le 98.7\pm 0.2\%$. The logical qubits are encoded in a $[\![ 25,4,3 ]\!]$ Tanner-transformed long-range-enhanced surface code. Logical entangling gates are implemented using simple swap operations. Our results are a first step towards realizing fault-tolerant quantum computation with logical qubits encoded in geometrically nonlocal quantum low-density parity check codes. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-05 |
# ハイブリッドオシレータ-量子プロセッサ:命令セットアーキテクチャ、抽象機械モデル、応用
Hybrid Oscillator-Qubit Quantum Processors: Instruction Set Architectures, Abstract Machine Models, and Applications ( http://arxiv.org/abs/2407.10381v2 ) ライセンス: Link先を確認 | Yuan Liu, Shraddha Singh, Kevin C. Smith, Eleanor Crane, John M. Martyn, Alec Eickbusch, Alexander Schuckert, Richard D. Li, Jasmine Sinanan-Singh, Micheline B. Soley, Takahiro Tsunoda, Isaac L. Chuang, Nathan Wiebe, Steven M. Girvin, | (参考訳) 離散変数(DV, qubit)ハードウェアを用いた量子コンピューティングは、古典的コンピュータの範囲を超えて計算を行うのに必要な大規模化に近づいている。
しかし、ボソニックモードを含む物理モデルの量子シミュレーションや量子誤差補正といった重要なユースケースは、DVのみのシステムでは困難である。
別として、ネイティブ連続可変(CV、発振器)システムを含むハードウェアは代替手法として注目されているが、そのようなシステムの普遍的な制御は自明ではない。
本研究では,ハイブリッドCV-DVハードウェアが,DVプロセッサとCVプロセッサの両方の長所を継承する強力な計算パラダイムを提供することにより,これらの課題を満たす上で大きな優位性をもたらすことを示す。
本稿では,CV-DVシステムと,アプリケーションとハードウェアを接続する完全なソフトウェアスタックを生成するために必要な抽象化レイヤについて紹介する。
本稿では、CV-DVシステムへの量子信号処理の概念の拡張や、相互作用するスピン、フェルミオン、ボソンのシステムをシミュレートする戦略を含む、様々なハイブリッドCV-DVコンパイル技術、アルゴリズム、応用について述べる。
ハイブリッドCV-DVプロセッサシステムの開発を容易にするため,我々は,アプリケーションの構築,アルゴリズムのコンパイル,フォールトトレラント回路,モジュール,プロセッサの実現に向けた現在のハードウェアと将来のハードウェアの可能性を探るための,公式な抽象機械モデルと命令セットアーキテクチャを導入する。
ハイブリッドCV-DV量子計算は超伝導、閉じ込められたイオン、中性原子プラットフォームで実施され始めている。
我々は、量子計算への比較的未解明で有望なアプローチと、将来の発展を導くためのアーキテクチャのバックボーンを提供するための、タイムリーで包括的なガイドを提示する。
Quantum computing with discrete variable (DV, qubit) hardware is approaching the large scales necessary for computations beyond the reach of classical computers. However, important use cases such as quantum simulations of physical models containing bosonic modes, and quantum error correction are challenging for DV-only systems. Separately, hardware containing native continuous-variable (CV, oscillator) systems has received attention as an alternative approach, yet the universal control of such systems is non-trivial. In this work, we show that hybrid CV-DV hardware offers a great advantage in meeting these challenges, offering a powerful computational paradigm that inherits the strengths of both DV and CV processors. We provide a pedagogical introduction to CV-DV systems and the multiple abstraction layers needed to produce a full software stack connecting applications to hardware. We present a variety of new hybrid CV-DV compilation techniques, algorithms, and applications, including the extension of quantum signal processing concepts to CV-DV systems and strategies to simulate systems of interacting spins, fermions, and bosons. To facilitate the development of hybrid CV-DV processor systems, we introduce formal Abstract Machine Models and Instruction Set Architectures -- essential abstractions that enable developers to formulate applications, compile algorithms, and explore the potential of current and future hardware for realizing fault-tolerant circuits, modules, and processors. Hybrid CV-DV quantum computations are beginning to be performed in superconducting, trapped ion, and neutral atom platforms, and large-scale experiments are set to be demonstrated in the near future. We present a timely and comprehensive guide to this relatively unexplored yet promising approach to quantum computation and providing an architectural backbone to guide future development. | 翻訳日:2024-08-07 23:47:04 公開日:2024-08-05 |
# 英語とペルシア語における中核決議の見直し
Review of coreference resolution in English and Persian ( http://arxiv.org/abs/2211.04428v2 ) ライセンス: Link先を確認 | Hassan Haji Mohammadi, Alireza Talebpour, Ahmad Mahmoudi Aznaveh, Samaneh Yazdani, | (参考訳) 同じ現実世界の実体を参照する表現を識別する参照分解能(CR)は、自然言語処理(NLP)における根本的な課題である。
本稿では、コア参照とアナフォラ分解能にまたがるCRの最近の進歩について考察する。
我々はCR研究を加速させた多種多様なコーパスを批判的に分析し、その強み、限界、様々なタスクに対する適合性を強調した。
CRシステムを評価するために用いられる評価指標のスペクトルについて検討し、その利点、欠点、タスク固有の指標の必要性を強調した。
CRアルゴリズムの進化を辿り、ルールベースのアプローチから最先端のディープラーニングアーキテクチャまで、方法論の詳細な概要を提供する。
私たちは、参照ペア、エンティティベース、クラスタレベル、シーケンス・ツー・シーケンス、グラフニューラルネットワークモデルを調べ、彼らの理論的基盤とベンチマークデータセットのパフォーマンスを解明しました。
ペルシャのCRの独特な課題を認識し、このアンダーリソース言語に焦点をあてる。
既存のペルシャのCRシステムについて検討し、ParsBERTのような事前学習された言語モデルを利用したエンドツーエンドのニューラルモデルの出現を強調した。
このレビューは、研究者や実践者にとって不可欠なリソースであり、CRにおける現在の最先端の概観を提供し、重要な課題を特定し、この急速に発展する分野における将来の研究のコースをチャートアップする。
Coreference resolution (CR), identifying expressions referring to the same real-world entity, is a fundamental challenge in natural language processing (NLP). This paper explores the latest advancements in CR, spanning coreference and anaphora resolution. We critically analyze the diverse corpora that have fueled CR research, highlighting their strengths, limitations, and suitability for various tasks. We examine the spectrum of evaluation metrics used to assess CR systems, emphasizing their advantages, disadvantages, and the need for more nuanced, task-specific metrics. Tracing the evolution of CR algorithms, we provide a detailed overview of methodologies, from rule-based approaches to cutting-edge deep learning architectures. We delve into mention-pair, entity-based, cluster-ranking, sequence-to-sequence, and graph neural network models, elucidating their theoretical foundations and performance on benchmark datasets. Recognizing the unique challenges of Persian CR, we dedicate a focused analysis to this under-resourced language. We examine existing Persian CR systems and highlight the emergence of end-to-end neural models leveraging pre-trained language models like ParsBERT. This review is an essential resource for researchers and practitioners, offering a comprehensive overview of the current state-of-the-art in CR, identifying key challenges, and charting a course for future research in this rapidly evolving field. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-05 |
# コヒーレントアグリゲーションによる確率予測
Probabilistic Forecasting with Coherent Aggregation ( http://arxiv.org/abs/2307.09797v2 ) ライセンス: Link先を確認 | Kin G. Olivares, Geoffrey Négiar, Ruijun Ma, O. Nangba Meetei, Mengfei Cao, Michael W. Mahoney, | (参考訳) 正確な確率予測を得ることは、エネルギー管理、気候予測、サプライチェーン計画、資源配分など、多くのアプリケーションにおいて重要な運用上の課題である。
これらの応用の多くは、予測された量に対して自然な階層構造が存在し、この階層構造に従属する予測系はコヒーレントであると言われている。
さらに、オペレーショナルプランニングは、アグリゲーション階層のあらゆるレベルにおける精度から恩恵を受ける。
しかし、正確で一貫性のある予測システムを構築することは難しい。古典的な多変量時系列ツールとニューラルネットワークの手法は、この目的のためにいまだに適応している。
本稿では, MQForecaster ニューラルネットワークアーキテクチャを, 構築によるコヒーレンスを実現する新しい深いガウス因子予測モデルで拡張し, ディープコヒーレント因子モデルニューラルネットワーク(DeepCoFactor)モデルと呼ぶ手法を提案する。
DeepCoFactorは、モデルパラメータに関して区別できるサンプルを生成し、予測システムの目標に沿った様々なサンプルベースの学習目標を最適化する。
最先端のコヒーレント予測手法と比較して、DeepCoFactorは、利用可能な3つの階層的予測データセットで測定された4.16から54.40%の精度で、スケールしたCRPS予測精度を大幅に改善した。
Obtaining accurate probabilistic forecasts is an important operational challenge in many applications, perhaps most obviously in energy management, climate forecasting, supply chain planning, and resource allocation. In many of these applications, there is a natural hierarchical structure over the forecasted quantities; and forecasting systems that adhere to this hierarchical structure are said to be coherent. Furthermore, operational planning benefits from accuracy at all levels of the aggregation hierarchy. Building accurate and coherent forecasting systems, however, is challenging: classic multivariate time series tools and neural network methods are still being adapted for this purpose. In this paper, we augment an MQForecaster neural network architecture with a novel deep Gaussian factor forecasting model that achieves coherence by construction, yielding a method we call the Deep Coherent Factor Model Neural Network (DeepCoFactor) model. DeepCoFactor generates samples that can be differentiated with respect to model parameters, allowing optimization on various sample-based learning objectives that align with the forecasting system's goals, including quantile loss and the scaled Continuous Ranked Probability Score (CRPS). In a comparison to state-of-the-art coherent forecasting methods, DeepCoFactor achieves significant improvements in scaled CRPS forecast accuracy, with gains between 4.16 and 54.40%, as measured on three publicly available hierarchical forecasting datasets. | 翻訳日:2024-08-07 19:51:34 公開日:2024-08-05 |
# 航空画像に基づく問合せ点を用いたセマンティックセグメンテーションの学習
Learning Semantic Segmentation with Query Points Supervision on Aerial Images ( http://arxiv.org/abs/2309.05490v2 ) ライセンス: Link先を確認 | Santiago Rivier, Carlos Hinojosa, Silvio Giancola, Bernard Ghanem, | (参考訳) セマンティックセグメンテーションは、高解像度の衛星画像が意味のある領域に分割されるリモートセンシングにおいて重要である。
近年のディープラーニングは衛星画像のセグメンテーションを大幅に改善している。
しかし、これらの手法の多くは、高画質のピクセルレベルのアノテーションを必要とする完全に教師された設定で訓練されている。
本研究では,完全なマスクラベルの代わりにクエリポイントアノテーションのみに依存するセマンティックセグメンテーションアルゴリズムを訓練するための,弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
具体的にはスーパーピクセルを生成し、クエリポイントラベルを同様の意味的意味論をグループ化するスーパーピクセルに拡張する。
次に,スーパーピクセルの擬似ラベルを部分的にラベル付けした画像で教師付きセマンティックセマンティックセマンティクスモデルを訓練する。
航空画像データセットと異なるセマンティックセグメンテーションアーキテクチャを用いて、弱教師付きトレーニングアプローチをベンチマークし、アノテーションの労力を削減しつつ、完全に教師付きトレーニングと比較して、競争性能に到達できることを示す。
提案手法のコードは、https://github.com/santiago2205/LSSQPS.comで公開されている。
Semantic segmentation is crucial in remote sensing, where high-resolution satellite images are segmented into meaningful regions. Recent advancements in deep learning have significantly improved satellite image segmentation. However, most of these methods are typically trained in fully supervised settings that require high-quality pixel-level annotations, which are expensive and time-consuming to obtain. In this work, we present a weakly supervised learning algorithm to train semantic segmentation algorithms that only rely on query point annotations instead of full mask labels. Our proposed approach performs accurate semantic segmentation and improves efficiency by significantly reducing the cost and time required for manual annotation. Specifically, we generate superpixels and extend the query point labels into those superpixels that group similar meaningful semantics. Then, we train semantic segmentation models supervised with images partially labeled with the superpixel pseudo-labels. We benchmark our weakly supervised training approach on an aerial image dataset and different semantic segmentation architectures, showing that we can reach competitive performance compared to fully supervised training while reducing the annotation effort. The code of our proposed approach is publicly available at: https://github.com/santiago2205/LSSQPS. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-05 |
# グラフニューラルネットワークにおける局所微分プライバシー : 再構成アプローチ
Local Differential Privacy in Graph Neural Networks: a Reconstruction Approach ( http://arxiv.org/abs/2309.08569v2 ) ライセンス: Link先を確認 | Karuna Bhaila, Wen Huang, Yongkai Wu, Xintao Wu, | (参考訳) グラフニューラルネットワークは、様々なアプリケーションで複雑なグラフデータをモデリングすることに成功した。
しかし、GNNにおけるプライバシー保護の研究は限られている。
本研究では,ユーザレベルでノードのプライバシを提供するための学習フレームワークを提案する。
本研究では,分散化された微分プライバシの概念であるローカル微分プライバシ(Local Differential Privacy)に着目し,モデルトレーニングのために中央サーバが収集する前に,特徴データとラベルデータの両方をノードレベルで摂動させるランダム化機構を適用した。
具体的には,高次元特徴量設定におけるランダム化機構の適用について検討し,厳密なプライバシー保証を備えた LDP プロトコルを提案する。
乱数化データの統計的解析における周波数推定に基づいて,摂動データから特徴やラベルを近似する再構成手法を開発した。
また、この学習フレームワークを定式化し、グラフクラスタの周波数推定を利用して、サブグラフレベルでのトレーニング手順を監督する。
実世界および半合成データセットに関する大規模な実験により,提案モデルの有効性が示された。
Graph Neural Networks have achieved tremendous success in modeling complex graph data in a variety of applications. However, there are limited studies investigating privacy protection in GNNs. In this work, we propose a learning framework that can provide node privacy at the user level, while incurring low utility loss. We focus on a decentralized notion of Differential Privacy, namely Local Differential Privacy, and apply randomization mechanisms to perturb both feature and label data at the node level before the data is collected by a central server for model training. Specifically, we investigate the application of randomization mechanisms in high-dimensional feature settings and propose an LDP protocol with strict privacy guarantees. Based on frequency estimation in statistical analysis of randomized data, we develop reconstruction methods to approximate features and labels from perturbed data. We also formulate this learning framework to utilize frequency estimates of graph clusters to supervise the training procedure at a sub-graph level. Extensive experiments on real-world and semi-synthetic datasets demonstrate the validity of our proposed model. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-05 |
# 変形場を用いた視覚データの再ターゲティング
Retargeting Visual Data with Deformation Fields ( http://arxiv.org/abs/2311.13297v2 ) ライセンス: Link先を確認 | Tim Elsner, Julia Berger, Tong Wu, Victor Czech, Lin Gao, Leif Kobbelt, | (参考訳) Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識のリサイズを可能にする画像編集方法である。
しかし、動的プログラミングやグラフカットに基づくSeam-finding戦略は、より広範なビジュアルデータフォーマットや編集の自由度に制限される。
我々の観察では、画像のより一般的に変位場による編集と再ターゲティングを記述することは、コンテンツ認識変形の一般化をもたらす。
情報量が少ない場所でのみ変形を図りながら、出力を可塑性に保つニューラルネットワークを用いて変形を学習することを提案する。
この技術は、画像、神経放射場として与えられる3Dシーン、ポリゴンメッシュなど、さまざまな種類の視覚データに適用できる。
異なる視覚データを用いて実験を行った結果,本手法は従来の手法と比較して,コンテンツ認識再ターゲティングの精度が向上していることがわかった。
Seam carving is an image editing method that enable content-aware resizing, including operations like removing objects. However, the seam-finding strategy based on dynamic programming or graph-cut limits its applications to broader visual data formats and degrees of freedom for editing. Our observation is that describing the editing and retargeting of images more generally by a displacement field yields a generalisation of content-aware deformations. We propose to learn a deformation with a neural network that keeps the output plausible while trying to deform it only in places with low information content. This technique applies to different kinds of visual data, including images, 3D scenes given as neural radiance fields, or even polygon meshes. Experiments conducted on different visual data show that our method achieves better content-aware retargeting compared to previous methods. | 翻訳日:2024-08-07 19:41:33 公開日:2024-08-05 |
# ディープアンラーニング: クラスフォーミングに対する高速かつ効率的なグラディエントフリーアプローチ
Deep Unlearning: Fast and Efficient Gradient-free Approach to Class Forgetting ( http://arxiv.org/abs/2312.00761v4 ) ライセンス: Link先を確認 | Sangamesh Kodge, Gobinda Saha, Kaushik Roy, | (参考訳) 機械学習は、ユーザのデータ削除とプライバシー意識の高まりに対する規制上の要求によって、目立って困難な分野である。
既存のアプローチでは、各削除要求に対して、しばしば計算制限と制限されたデータアクセスによって制約されるモデルまたは複数の微調整ステップを再訓練する。
本研究では,学習モデルから特定のクラスを戦略的に除去する新しいクラスアンラーニングアルゴリズムを提案する。
提案アルゴリズムは,まず,保持クラスと未学習クラスからのサンプルの小さなサブセットに対して,階層的アクティベーションに対してSingular Value Decomposition(Singular Value Decomposition)を用いてRetainとForget Spacesを推定する。
次に、これらの空間間の共有情報を計算し、それを忘れ空間から取り除き、クラス識別的特徴空間を分離する。
最後に、活性化空間からのクラス識別特性を抑えるために重みを更新することにより、未学習モデルを得る。
このアルゴリズムの有効性を、未学習のクラスサンプルに対して1\%以下の精度を維持しながら、元のモデルと比較して精度を保ったまま、わずか$\sim 1.5\%の値のVision Transformerを用いて、ImageNet上で実証する。
さらに,本アルゴリズムは,メンバーシップ推論攻撃(MIA)に対する非学習性能とレジリエンスの競争力を示す。
ベースラインと比較すると、ImageNetデータセットの平均精度は1.38 %で改善され、未学習のサンプルは最大10 \times$少なくなる。
さらに、ResNet18アーキテクチャを使用したCIFAR-100データセットに対する強力なMIA攻撃の下で、我々のアプローチは、最高のベースラインを1.8\%$で上回ります。
私たちのコードはhttps://github.com/sangamesh-kodge/class_forgetting.comで利用可能です。
Machine unlearning is a prominent and challenging field, driven by regulatory demands for user data deletion and heightened privacy awareness. Existing approaches involve retraining model or multiple finetuning steps for each deletion request, often constrained by computational limits and restricted data access. In this work, we introduce a novel class unlearning algorithm designed to strategically eliminate specific classes from the learned model. Our algorithm first estimates the Retain and the Forget Spaces using Singular Value Decomposition on the layerwise activations for a small subset of samples from the retain and unlearn classes, respectively. We then compute the shared information between these spaces and remove it from the forget space to isolate class-discriminatory feature space. Finally, we obtain the unlearned model by updating the weights to suppress the class discriminatory features from the activation spaces. We demonstrate our algorithm's efficacy on ImageNet using a Vision Transformer with only $\sim 1.5\%$ drop in retain accuracy compared to the original model while maintaining under $1\%$ accuracy on the unlearned class samples. Furthermore, our algorithm exhibits competitive unlearning performance and resilience against Membership Inference Attacks (MIA). Compared to baselines, it achieves an average accuracy improvement of $1.38\%$ on the ImageNet dataset while requiring up to $10 \times$ fewer samples for unlearning. Additionally, under stronger MIA attacks on the CIFAR-100 dataset using a ResNet18 architecture, our approach outperforms the best baseline by $1.8\%$. Our code is available at https://github.com/sangamesh-kodge/class_forgetting. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-05 |
# PathoDuet:H&EおよびIHC染色の組織スライド解析の基礎モデル
PathoDuet: Foundation Models for Pathological Slide Analysis of H&E and IHC Stains ( http://arxiv.org/abs/2312.09894v2 ) ライセンス: Link先を確認 | Shengyi Hua, Fang Yan, Tianle Shen, Lei Ma, Xiaofan Zhang, | (参考訳) デジタル化された病理データの膨大な量は、自己教師付き学習手法による病理基盤モデルの開発に有望な未来を示す。
これらの手法で事前訓練された基礎モデルは、下流タスクのよい基盤となる。
しかし、自然像と病理像のギャップは、既存の方法の直接適用を妨げる。
本稿では,病理組織像の事前学習モデルであるPathoDuetと,病理組織学における新たな自己教師型学習フレームワークについて紹介する。
このフレームワークは、新しく導入されたプリテキストトークンと、後にタスクライザーによって特徴付けられ、複数の倍率や複数の染色など、画像間の特定の関係を明示的に活用する。
これに基づいて,ヘマトキシリンとエオシン(H&E)の画像上でモデルを事前訓練し,それぞれ免疫組織化学(IHC)画像にモデルを移すための2つのプレテキストタスクであるクロススケール位置決めとクロスステイン転送が設計された。
本モデルの有効性を検証するため,H&E分野におけるパッチレベル大腸癌サブタイプと全スライド画像(WSI)レベルの分類,IHC領域におけるIHCマーカーの発現レベル予測,腫瘍の同定,およびIHC領域におけるスライドレベルの定性解析など,さまざまな下流課題に対する性能評価を行った。
実験の結果,ほとんどのタスクよりもモデルの方が優れていること,提案したプリテキストタスクの有効性が示された。
コードとモデルはhttps://github.com/openmedlab/PathoDuet.comで公開されている。
Large amounts of digitized histopathological data display a promising future for developing pathological foundation models via self-supervised learning methods. Foundation models pretrained with these methods serve as a good basis for downstream tasks. However, the gap between natural and histopathological images hinders the direct application of existing methods. In this work, we present PathoDuet, a series of pretrained models on histopathological images, and a new self-supervised learning framework in histopathology. The framework is featured by a newly-introduced pretext token and later task raisers to explicitly utilize certain relations between images, like multiple magnifications and multiple stains. Based on this, two pretext tasks, cross-scale positioning and cross-stain transferring, are designed to pretrain the model on Hematoxylin and Eosin (H&E) images and transfer the model to immunohistochemistry (IHC) images, respectively. To validate the efficacy of our models, we evaluate the performance over a wide variety of downstream tasks, including patch-level colorectal cancer subtyping and whole slide image (WSI)-level classification in H&E field, together with expression level prediction of IHC marker, tumor identification and slide-level qualitative analysis in IHC field. The experimental results show the superiority of our models over most tasks and the efficacy of proposed pretext tasks. The codes and models are available at https://github.com/openmedlab/PathoDuet. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-05 |
# PBSCR:ピアノトランペットスコアコンストラクタ認識データセット
PBSCR: The Piano Bootleg Score Composer Recognition Dataset ( http://arxiv.org/abs/2401.16803v3 ) ライセンス: Link先を確認 | Arhan Jain, Alec Bunn, Austin Pham, TJ Tsai, | (参考訳) 本稿では、クラシックピアノ音楽の作曲家認識を研究するためのPBSCRデータセットを動機付け、記述し、提示する。
我々のゴールは、現代建築や訓練の実践に適した作曲家認識の大規模研究を支援するデータセットを設計することであった。
この目的を達成するために、IMSLP上のシート音楽画像とリッチメタデータを多用し、これまで提案されていたブートレッグスコアと呼ばれる特徴表現を用いて、スタッフラインに対するノートヘッドの位置を符号化し、非常に単純なフォーマット(2Dバイナリ画像)でデータを提示し、迅速な探索とイテレーションを促進する。
データセットには、9クラス認証タスク用の4万62x64ブートレグスコアイメージ、100クラス認証タスク用の10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。
ラベル付きデータはMNIST画像を映し出す形で表示され、モデルの視覚化、操作、訓練を極めて容易に行えるようにしている。
各ブートレッグスコア画像とベースとなる生の楽譜画像とを結びつけるための関連情報を含み、全てのピアノ作品においてIMSLPからのメタデータをスクラップし、整理し、コンパイルし、マルチモーダルな研究を容易にし、他のデータセットへの便利なリンクを可能にする。
本研究では, PBSCRデータに特に適しているというオープンな研究課題について考察する。
This article motivates, describes, and presents the PBSCR dataset for studying composer recognition of classical piano music. Our goal was to design a dataset that facilitates large-scale research on composer recognition that is suitable for modern architectures and training practices. To achieve this goal, we utilize the abundance of sheet music images and rich metadata on IMSLP, use a previously proposed feature representation called a bootleg score to encode the location of noteheads relative to staff lines, and present the data in an extremely simple format (2D binary images) to encourage rapid exploration and iteration. The dataset itself contains 40,000 62x64 bootleg score images for a 9-class recognition task, 100,000 62x64 bootleg score images for a 100-class recognition task, and 29,310 unlabeled variable-length bootleg score images for pretraining. The labeled data is presented in a form that mirrors MNIST images, in order to make it extremely easy to visualize, manipulate, and train models in an efficient manner. We include relevant information to connect each bootleg score image with its underlying raw sheet music image, and we scrape, organize, and compile metadata from IMSLP on all piano works to facilitate multimodal research and allow for convenient linking to other datasets. We release baseline results in a supervised and low-shot setting for future works to compare against, and we discuss open research questions that the PBSCR data is especially well suited to facilitate research on. | 翻訳日:2024-08-07 19:31:50 公開日:2024-08-05 |
# デリゲーションゲームにおける協調と制御
Cooperation and Control in Delegation Games ( http://arxiv.org/abs/2402.15821v2 ) ライセンス: Link先を確認 | Oliver Sourbut, Lewis Hammond, Harriet Wood, | (参考訳) 仮想パーソナルアシスタントから自動運転車まで、人間と機械に関わる多くの関心の設定は、自然にプリンシパル(人間)がエージェント(機械)に委譲し、プリンシパルに代わって相互作用するものとしてモデル化することができる。
これらのマルチプリンシパル・マルチエージェントシナリオをデリゲートゲームと呼ぶ。
このようなゲームでは、コントロールの問題(エージェントがプリンシパルの好みに沿って行動しない場合)と協力の問題(エージェントがうまく機能しない場合)の2つの重要な障害モードがある。
本稿では、これらの問題を形式化し分析し、さらにアライメントの問題(プレイヤーは同様の嗜好を持っているか?)と能力(プレイヤーはそれらの嗜好を満たす能力があるか?)に分解する。
理論上、実証的に、これらの措置がプリンシパルの福祉をどのように決定するか、限られた観測値を使ってどのように見積もるか、そして、より整合的で協調的なAIシステムの設計にどのように役立つかを示します。
Many settings of interest involving humans and machines -- from virtual personal assistants to autonomous vehicles -- can naturally be modelled as principals (humans) delegating to agents (machines), which then interact with each other on their principals' behalf. We refer to these multi-principal, multi-agent scenarios as delegation games. In such games, there are two important failure modes: problems of control (where an agent fails to act in line their principal's preferences) and problems of cooperation (where the agents fail to work well together). In this paper we formalise and analyse these problems, further breaking them down into issues of alignment (do the players have similar preferences?) and capabilities (how competent are the players at satisfying those preferences?). We show -- theoretically and empirically -- how these measures determine the principals' welfare, how they can be estimated using limited observations, and thus how they might be used to help us design more aligned and cooperative AI systems. | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-05 |
# 差分的私的オンライン学習における誤りの生長について--境界の低い視点から
On the Growth of Mistakes in Differentially Private Online Learning: A Lower Bound Perspective ( http://arxiv.org/abs/2402.16778v2 ) ライセンス: Link先を確認 | Daniil Dmitriev, Kristóf Szabó, Amartya Sanyal, | (参考訳) 本稿では,差分的プライベート(DP)オンライン学習アルゴリズムの低限界について述べる。
我々の結果は、幅広い種類の$(\varepsilon,\delta)$-DPオンラインアルゴリズムに対して、$\log T\leq O(1 / \delta)$が$\Omega(\log \frac{T}{\delta})$として増加することを示す。
これは Golowich と Livni (2021) が獲得した上限値と一致する。
我々の知識を最大限に活用するために、私たちの研究は、DP-Online学習の下位境界を確定する最初の結果であり、SanyalとRamponi(2022年)のオープンな問題に部分的に対処する。
In this paper, we provide lower bounds for Differentially Private (DP) Online Learning algorithms. Our result shows that, for a broad class of $(\varepsilon,\delta)$-DP online algorithms, for number of rounds $T$ such that $\log T\leq O(1 / \delta)$, the expected number of mistakes incurred by the algorithm grows as $\Omega(\log \frac{T}{\delta})$. This matches the upper bound obtained by Golowich and Livni (2021) and is in contrast to non-private online learning where the number of mistakes is independent of $T$. To the best of our knowledge, our work is the first result towards settling lower bounds for DP-Online learning and partially addresses the open question in Sanyal and Ramponi (2022). | 翻訳日:2024-08-07 19:22:06 公開日:2024-08-05 |
# EchoTrack: 自律運転のためのマルチオブジェクトトラッキングを聴覚的に参照する
EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving ( http://arxiv.org/abs/2402.18302v2 ) ライセンス: Link先を確認 | Jiacheng Lin, Jiajun Chen, Kunyu Peng, Xuan He, Zhiyong Li, Rainer Stiefelhagen, Kailun Yang, | (参考訳) 本稿では,音声表現に基づく映像系列中の特定の物体を動的に追跡するAR-MOT(Auditory Referring Multi-Object Tracking)の課題を紹介する。
音声やビデオのセマンティックモデリング能力の欠如により、既存の研究は主にテキストベースの多目的追跡に焦点を合わせており、品質、相互作用効率、さらには補助システムの安全性といったコストがかかる。
本稿では,音声・ビデオ融合と音声・ビデオ追跡の観点から,AR-MOTの問題点を掘り下げる。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
両ストリームは双方向周波数領域クロスアテンション・フュージョンモジュール (Bi-FCFM) と連動しており、これは周波数領域と時空間領域の両方からオーディオとビデオの機能を双方向に融合させる。
さらに,音声と映像オブジェクト間の同質な特徴を効果的に学習することにより,表現と視覚オブジェクト間の同質な意味的特徴を抽出するACTL方式を提案する。
アーキテクチャ設計とは別に、Echo-KITTI、Echo-KITTI+、Echo-BDDなど、大規模なAR-MOTベンチマークの最初のセットを確立します。
確立されたベンチマークに関する大規模な実験は、提案されたEchoTrackとそのコンポーネントの有効性を実証している。
ソースコードとデータセットはhttps://github.com/lab206/EchoTrack.comで入手できる。
This paper introduces the task of Auditory Referring Multi-Object Tracking (AR-MOT), which dynamically tracks specific objects in a video sequence based on audio expressions and appears as a challenging problem in autonomous driving. Due to the lack of semantic modeling capacity in audio and video, existing works have mainly focused on text-based multi-object tracking, which often comes at the cost of tracking quality, interaction efficiency, and even the safety of assistance systems, limiting the application of such methods in autonomous driving. In this paper, we delve into the problem of AR-MOT from the perspective of audio-video fusion and audio-video tracking. We put forward EchoTrack, an end-to-end AR-MOT framework with dual-stream vision transformers. The dual streams are intertwined with our Bidirectional Frequency-domain Cross-attention Fusion Module (Bi-FCFM), which bidirectionally fuses audio and video features from both frequency- and spatiotemporal domains. Moreover, we propose the Audio-visual Contrastive Tracking Learning (ACTL) regime to extract homogeneous semantic features between expressions and visual objects by learning homogeneous features between different audio and video objects effectively. Aside from the architectural design, we establish the first set of large-scale AR-MOT benchmarks, including Echo-KITTI, Echo-KITTI+, and Echo-BDD. Extensive experiments on the established benchmarks demonstrate the effectiveness of the proposed EchoTrack and its components. The source code and datasets are available at https://github.com/lab206/EchoTrack. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-05 |
# クロススペクトル画像マッチングのための関係表現学習ネットワーク
Relational Representation Learning Network for Cross-Spectral Image Patch Matching ( http://arxiv.org/abs/2403.11751v2 ) ライセンス: Link先を確認 | Chuang Yu, Yunpeng Liu, Jinmiao Zhao, Dou Quan, Zelin Shi, | (参考訳) 近年,クロススペクトル画像パッチマッチングにおいて特徴関係学習が注目されている。
しかし、既存の研究は、画像パッチの特徴間の多様な関係の抽出に重点を置いており、個々の画像パッチの本質的な特徴表現を十分に無視している。
そこで本稿では,個々の画像パッチの内在的特徴と画像パッチの特徴の関係を十分にマイニングすることに焦点を当てた,革新的なリレーショナル表現学習手法を提案する。
そこで我々は,関係表現学習ネットワーク(RRL-Net)を構築した。
具体的には、個人固有の特徴を完全に特徴付けるオートエンコーダを革新的に構築し、深い特徴関係を抽出するための機能相互作用学習(FIL)モジュールを導入する。
さらに個々の固有の特徴を深く掘り下げるために、個々の画像パッチのグローバルな特徴抽出を強化し、グローバルな特徴のローカル依存関係をキャプチャするために、軽量な多次元グローバル・ローカル・アテンション(MGLA)モジュールを構築した。
MGLAモジュールを組み合わせることで、特徴抽出ネットワークをさらに探求し、注目に基づく軽量特徴抽出(ALFE)ネットワークを構築する。
さらに、パラメータや推論時間の増加を回避しつつ、ネットワーク最適化を大幅に促進するマルチロス・ポストプルーニング(MLPP)最適化戦略を提案する。
大規模な実験により、RRL-Netは複数の公開データセット上での最先端(SOTA)性能を達成することが示された。
私たちのコードは後で公開されます。
Recently, feature relation learning has drawn widespread attention in cross-spectral image patch matching. However, existing related research focuses on extracting diverse relations between image patch features and ignores sufficient intrinsic feature representations of individual image patches. Therefore, we propose an innovative relational representation learning idea that simultaneously focuses on sufficiently mining the intrinsic features of individual image patches and the relations between image patch features. Based on this, we construct a Relational Representation Learning Network (RRL-Net). Specifically, we innovatively construct an autoencoder to fully characterize the individual intrinsic features, and introduce a feature interaction learning (FIL) module to extract deep-level feature relations. To further fully mine individual intrinsic features, a lightweight multi-dimensional global-to-local attention (MGLA) module is constructed to enhance the global feature extraction of individual image patches and capture local dependencies within global features. By combining the MGLA module, we further explore the feature extraction network and construct an attention-based lightweight feature extraction (ALFE) network. In addition, we propose a multi-loss post-pruning (MLPP) optimization strategy, which greatly promotes network optimization while avoiding increases in parameters and inference time. Extensive experiments demonstrate that our RRL-Net achieves state-of-the-art (SOTA) performance on multiple public datasets. Our code will be made public later. | 翻訳日:2024-08-07 19:12:22 公開日:2024-08-05 |
# バリアリングシェードのフェイク:LLMの幻覚に対する人間の知覚とエンゲージメントの警告がいかに影響するか
Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations ( http://arxiv.org/abs/2404.03745v2 ) ライセンス: Link先を確認 | Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee, | (参考訳) 大規模言語モデル(LLM)の普及と変革的効果は、不正確で架空のコンテンツを制作する能力に関する懸念を引き起こしている。
幻覚に関連する潜在的なリスクを考えると、人間はそれらを特定することができるはずだ。
本研究の目的は, 幻覚の程度(幻覚, 軽幻覚, 大幻覚)を体系的に変化させ, 警告との相互作用(すなわち, 潜在的な不正確さの警告: 現在と現在)を調べることで, LLM幻覚の人間の知覚を理解することである。
Prolificの参加者(N=419)は、知覚された正確さを評価し、Q/Aフォーマットでコンテンツ(例えば、好き嫌い、共有)に関わった。
参加者は、本質、軽微な幻覚、そして主要な幻覚の順に、コンテンツが真実であると分類し、ユーザエンゲージメントの行動がこのパターンを反映した。
さらに,真の内容の真偽に悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。
我々は、幻覚の人的検出を支援するための将来のツールに関する洞察を提供することで、結論付ける。
調査資料、人口統計、セッション後の質問はすべて、https://github.com/MahjabinNahar/fakes-of-shades-survey- Materialsで入手できる。
The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials | 翻訳日:2024-08-07 19:02:36 公開日:2024-08-05 |
# 概念ボトルネックモデルにおける概念認識による介入効率の改善
Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models ( http://arxiv.org/abs/2405.01531v2 ) ライセンス: Link先を確認 | Nishad Singhi, Jae Myung Kim, Karsten Roth, Zeynep Akata, | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
重要なことに、CBMの設計は本質的に人間の介入を可能にしており、専門家のユーザは、解釈可能な方法でモデルの決定行動に影響を与えるために、潜在的に不整合した概念の選択を変更することができる。
しかしながら、既存のアプローチでは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多く、人間のフィードバックを得るのが高価であるシナリオにおいて、実践的な課題を提起する。
本稿では,モデルの最終決定において,ある概念の変更が他の概念の使用に影響を与えない,介入中の概念の独立した処理によって,これが顕著に駆動されることを見出した。
この問題に対処するために,本研究では,概念関係を利用した学習可能な概念介入調整モジュールを導入する。
標準的な実世界のベンチマークでは、概念再編成は介入効果を著しく改善し、対象の分類性能や概念予測精度に到達するために必要な介入回数を大幅に削減できることがわかった。
さらに、モデル自体の変更を必要とせずに、既存のコンセプトベースのアーキテクチャに容易に統合できる。
この人-モデル協力のコスト削減は、資源制約環境におけるCBMの実現可能性を高めるために不可欠である。
私たちのコードは、https://github.com/ExplainableML/concept_realignment.comで利用可能です。
Concept Bottleneck Models (CBMs) ground image classification on human-understandable concepts to allow for interpretable model decisions. Crucially, the CBM design inherently allows for human interventions, in which expert users are given the ability to modify potentially misaligned concept choices to influence the decision behavior of the model in an interpretable fashion. However, existing approaches often require numerous human interventions per image to achieve strong performances, posing practical challenges in scenarios where obtaining human feedback is expensive. In this paper, we find that this is noticeably driven by an independent treatment of concepts during intervention, wherein a change of one concept does not influence the use of other ones in the model's final decision. To address this issue, we introduce a trainable concept intervention realignment module, which leverages concept relations to realign concept assignments post-intervention. Across standard, real-world benchmarks, we find that concept realignment can significantly improve intervention efficacy; significantly reducing the number of interventions needed to reach a target classification performance or concept prediction accuracy. In addition, it easily integrates into existing concept-based architectures without requiring changes to the models themselves. This reduced cost of human-model collaboration is crucial to enhancing the feasibility of CBMs in resource-constrained environments. Our code is available at: https://github.com/ExplainableML/concept_realignment. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-05 |
# 社会技術スタック:非合意的近親メディアにおけるソーシャル・コンピューティング研究の機会
The Sociotechnical Stack: Opportunities for Social Computing Research in Non-consensual Intimate Media ( http://arxiv.org/abs/2405.03585v3 ) ライセンス: Link先を確認 | Li Qiwei, Allison McDonald, Oliver L. Haimson, Sarita Schoenebeck, Eric Gilbert, | (参考訳) 非合意的親密なメディア(NCIM)は、人物の同意なしに親密なコンテンツを共有することであり、その中には「復讐ポルノ」や性的に露骨なディープフェイクが含まれる。
NCIMは過去10年間、法学、心理学、コミュニケーションの分野で注目を集めてきたが、コンピュータ奨学金では十分に扱われていない。
本稿では、NCIMがそれらを促進する特定の技術コンポーネントに害を及ぼすことによって、このギャップを解消する。
技術的スタックをそれに対応する社会的影響にマッピングするために設計された概念的フレームワークである社会技術的スタックを紹介する。
社会工学的なスタックは、NCIMのような社会工学的な問題を解析し、コンピューティング研究の機会へ向けることを可能にする。
本稿では,NCIMの潜伏を防止し,技術の構築と再構築を通じて被害者の生存を支援するための,コンピューティングと社会コンピューティングコミュニティのための研究ロードマップを提案する。
Non-consensual intimate media (NCIM) involves sharing intimate content without the depicted person's consent, including "revenge porn" and sexually explicit deepfakes. While NCIM has received attention in legal, psychological, and communication fields over the past decade, it is not sufficiently addressed in computing scholarship. This paper addresses this gap by linking NCIM harms to the specific technological components that facilitate them. We introduce the sociotechnical stack, a conceptual framework designed to map the technical stack to its corresponding social impacts. The sociotechnical stack allows us to analyze sociotechnical problems like NCIM, and points toward opportunities for computing research. We propose a research roadmap for computing and social computing communities to deter NCIM perpetration and support victim-survivors through building and rebuilding technologies. | 翻訳日:2024-08-07 18:52:52 公開日:2024-08-05 |
# SGDモデリングのためのヘシアン対応確率微分方程式
A Hessian-Aware Stochastic Differential Equation for Modelling SGD ( http://arxiv.org/abs/2405.18373v2 ) ライセンス: Link先を確認 | Xiang Li, Zebang Shen, Liang Zhang, Niao He, | (参考訳) SGD(Stochastic Gradient Descent)の連続時間近似は定常点からの脱出行動を研究する上で重要なツールである。
しかし、既存の確率微分方程式(SDE)モデルは、単純な二次目的に対しても、これらの挙動を完全に捉えることができない。
新たな確率的後方誤り解析フレームワークを基盤として,対象関数のヘッセン情報と拡散項を組み込んだSDEであるHessian-Aware Stochastic Modified Equation (HA-SME) を導出する。
解析の結果, HA-SMEは既存のSDEモデルと最良近似誤差の保証値に一致し, 目的の滑らか度パラメータに大きく依存することがわかった。
さらに、二次的な目的に対して、軽度条件下では、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。
その結果,定常点近傍の局所景観を2次的に近似できる場合,HA-SMEはSGDの局所避難挙動を正確に予測することが期待される。
Continuous-time approximation of Stochastic Gradient Descent (SGD) is a crucial tool to study its escaping behaviors from stationary points. However, existing stochastic differential equation (SDE) models fail to fully capture these behaviors, even for simple quadratic objectives. Built on a novel stochastic backward error analysis framework, we derive the Hessian-Aware Stochastic Modified Equation (HA-SME), an SDE that incorporates Hessian information of the objective function into both its drift and diffusion terms. Our analysis shows that HA-SME matches the order-best approximation error guarantee among existing SDE models in the literature, while achieving a significantly reduced dependence on the smoothness parameter of the objective. Further, for quadratic objectives, under mild conditions, HA-SME is proved to be the first SDE model that recovers exactly the SGD dynamics in the distributional sense. Consequently, when the local landscape near a stationary point can be approximated by quadratics, HA-SME is expected to accurately predict the local escaping behaviors of SGD. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-05 |
# 前処理グラフ摂動によるスケーラブルな表現性
Scalable Expressiveness through Preprocessed Graph Perturbations ( http://arxiv.org/abs/2406.11714v2 ) ライセンス: Link先を確認 | Danial Saber, Amirali Salehi-Abari, | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データを解析するための主要な手法である。
しかし、標準GNNは表現力と一般化能力に制限があるため、より表現力がありながら計算集約的な手法の開発が引き起こされる。
そのようなアプローチの1つは、入力グラフの一連の摂動バージョンを作成し、トレーニング中にすべてのバリエーションに対して複数のメッセージパッシング操作を繰り返すことである。
その表現力にもかかわらず、このアプローチはより大きなグラフ上ではうまくスケールしない。
このスケーラビリティ問題に対処するために、前処理グラフ摂動(SE2P)を通してスケーラブル表現性を導入する。
このモデルは4つの異なる設定クラスでスケーラビリティと一般化性の間の柔軟で構成可能なバランスを提供する。
一方の極端な設定では、最小限の学習可能な特徴抽出と広範な事前処理によってスケーラビリティを優先し、他方の極端な設定では、より学習可能な特徴抽出によって一般化性を高めるが、スケーラビリティのコストは増大する。
我々は,SE2P変異体の一般化可能性と拡張性を評価するために,実世界のデータセットに関する広範な実験を行った。
この結果から,SE2P構成の選択により,最大8倍の速度向上を達成しつつ,ベンチマークよりも一般化性を向上させることが可能であることが示唆された。
Graph Neural Networks (GNNs) have emerged as the predominant method for analyzing graph-structured data. However, canonical GNNs have limited expressive power and generalization capability, thus triggering the development of more expressive yet computationally intensive methods. One such approach is to create a series of perturbed versions of input graphs and then repeatedly conduct multiple message-passing operations on all variations during training. Despite their expressive power, this approach does not scale well on larger graphs. To address this scalability issue, we introduce Scalable Expressiveness through Preprocessed Graph Perturbation (SE2P). This model offers a flexible, configurable balance between scalability and generalizability with four distinct configuration classes. At one extreme, the configuration prioritizes scalability through minimal learnable feature extraction and extensive preprocessing; at the other extreme, it enhances generalizability with more learnable feature extractions, though this increases scalability costs. We conduct extensive experiments on real-world datasets to evaluate the generalizability and scalability of SE2P variants compared to various state-of-the-art benchmarks. Our results indicate that, depending on the chosen SE2P configuration, the model can enhance generalizability compared to benchmarks while achieving significant speed improvements of up to 8-fold. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-05 |
# 大規模言語モデルにおける未学習のためのソフトプロンプト
Soft Prompting for Unlearning in Large Language Models ( http://arxiv.org/abs/2406.12038v2 ) ライセンス: Link先を確認 | Karuna Bhaila, Minh-Hao Van, Xintao Wu, | (参考訳) LLM(Large Language Models)が広く普及しているのは、部分的には文脈内学習を行うユニークな能力のためであり、これらの事前訓練されたモデルをデプロイする際の倫理的・安全的配慮の重要性も明らかにされている。
本研究では,データ保護規制を動機としたLLMの機械学習に関する研究に焦点をあてる。
未学習を実現するための微調整手法に関する文献の増大とは対照的に、訓練データのサブセットの未学習を実現するためのソフトプロンプトと呼ばれる比較的軽量な代替手段に焦点を当てる。
我々のフレームワークである \textbf{S}oft \textbf{P}rompting for \textbf{U}n\textbf{l}earning (SPUL) では、任意のクエリに付加可能なプロンプトトークンを学習し、LLMパラメータを更新することなく、推論時に特定の例のアンラーニングを誘導する。
提案手法の厳密な評価を行い,その結果から,LLMを用いたテキスト分類や質問応答の文脈において,SPULは実用性と忘れとのトレードオフを大幅に改善できることを示す。
さらに,フレームワークのスケーラビリティを強調し,ハイパーパラメータの選択と未学習データのサイズの影響について詳細な知見を提供するために,複数のLSMを用いて手法を検証する。
実装は \url{https://github.com/karuna-bhaila/llm_unlearning} で公開しています。
The widespread popularity of Large Language Models (LLMs), partly due to their unique ability to perform in-context learning, has also brought to light the importance of ethical and safety considerations when deploying these pre-trained models. In this work, we focus on investigating machine unlearning for LLMs motivated by data protection regulations. In contrast to the growing literature on fine-tuning methods to achieve unlearning, we focus on a comparatively lightweight alternative called soft prompting to realize the unlearning of a subset of training data. With losses designed to enforce forgetting as well as utility preservation, our framework \textbf{S}oft \textbf{P}rompting for \textbf{U}n\textbf{l}earning (SPUL) learns prompt tokens that can be appended to an arbitrary query to induce unlearning of specific examples at inference time without updating LLM parameters. We conduct a rigorous evaluation of the proposed method and our results indicate that SPUL can significantly improve the trade-off between utility and forgetting in the context of text classification and question answering with LLMs. We further validate our method using multiple LLMs to highlight the scalability of our framework and provide detailed insights into the choice of hyperparameters and the influence of the size of unlearning data. Our implementation is available at \url{https://github.com/karuna-bhaila/llm_unlearning}. | 翻訳日:2024-08-07 18:42:52 公開日:2024-08-05 |
# AIR-Bench 2024: 規制と政策のリスクカテゴリに基づく安全ベンチマーク
AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies ( http://arxiv.org/abs/2407.17436v2 ) ライセンス: Link先を確認 | Yi Zeng, Yu Yang, Andy Zhou, Jeffrey Ziwei Tan, Yuheng Tu, Yifan Mai, Kevin Klyman, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li, | (参考訳) ファンデーションモデル(FM)は社会的利益を提供するが、リスクを増幅する。
政府、企業、研究者は、規制の枠組み、許容可能な使用ポリシー、そしてそれに対応する安全ベンチマークを提案している。
しかし、既存の公的なベンチマークでは、しばしば過去の文献、直観、常識に基づいて安全カテゴリーを定義しており、最近の規制や政策で特定されるリスクに対する不整合したカテゴリのセットとなり、これらのベンチマーク間でFMを評価し比較することは困難である。
このギャップを埋めるために、私たちはAIR-Bench 2024を紹介します。これは、AIリスクスタディであるAIR 2024に根ざした規制ベースの安全カテゴリに従って、新しい政府の規制と企業のポリシーに沿った、最初のAI安全ベンチマークです。
AIR 2024は8つの政府規制と16の企業政策を4階層の安全分類に分解し、314の粒度のリスクカテゴリーを最低階層に分類する。
AIR-Bench 2024には、これらのカテゴリにまたがる5,694の多様なプロンプトが含まれている。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
公的なベンチマークと実践的なAIリスクのギャップを埋めることによって、AIR-Bench 2024は、管轄区域間でモデルの安全性を評価し、より安全で責任のあるAIシステムの開発を促進する基盤を提供する。
Foundation models (FMs) provide societal benefits but also amplify risks. Governments, companies, and researchers have proposed regulatory frameworks, acceptable use policies, and safety benchmarks in response. However, existing public benchmarks often define safety categories based on previous literature, intuitions, or common sense, leading to disjointed sets of categories for risks specified in recent regulations and policies, which makes it challenging to evaluate and compare FMs across these benchmarks. To bridge this gap, we introduce AIR-Bench 2024, the first AI safety benchmark aligned with emerging government regulations and company policies, following the regulation-based safety categories grounded in our AI risks study, AIR 2024. AIR 2024 decomposes 8 government regulations and 16 company policies into a four-tiered safety taxonomy with 314 granular risk categories in the lowest tier. AIR-Bench 2024 contains 5,694 diverse prompts spanning these categories, with manual curation and human auditing to ensure quality. We evaluate leading language models on AIR-Bench 2024, uncovering insights into their alignment with specified safety concerns. By bridging the gap between public benchmarks and practical AI risks, AIR-Bench 2024 provides a foundation for assessing model safety across jurisdictions, fostering the development of safer and more responsible AI systems. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-05 |
# 誤り認識シーン表現ネットワークのための正規化マルチデコーダアンサンブル
Regularized Multi-Decoder Ensemble for an Error-Aware Scene Representation Network ( http://arxiv.org/abs/2407.19082v2 ) ライセンス: Link先を確認 | Tianyu Xiong, Skylar W. Wurster, Hanqi Guo, Tom Peterka, Han-Wei Shen, | (参考訳) SRN(Feature Grid Scene Representation Networks)は、分析と可視化のためのコンパクトな機能的サロゲートとして科学データに適用されている。
SRNはブラックボックスのロッキーなデータ表現であるため、科学的可視化アプリケーションにとって予測品質を評価することは、科学者が可視化されている情報を確実に信頼するために重要である。
現在、既存のアーキテクチャは、基底真理データがない場合には座標レベルの誤差を評価できないため、推論時間再構成品質評価をサポートしていない。
マルチ層パーセプトロンデコーダを用いた共有特徴格子で構成されるパラメータ効率のよいマルチデコーダSRN(MDSRN)アンサンブルアーキテクチャを提案する。
MDSRNは、与えられた入力座標に対する妥当な予測セットを生成し、その平均をマルチデコーダアンサンブルの予測および信頼性スコアとしての分散を計算する。
座標レベルの分散は、データとともにレンダリングして再構成品質を知らせたり、不確実性を認識したボリューム可視化アルゴリズムに統合することができる。
そこで本研究では,正規化マルチデコーダSRN(RMDSRN)を推進し,真のモデル誤差と密接に相関する信頼性の高い分散を求めるアンサンブル学習のための新しい分散正規化損失を提案する。
我々は,モンテカルロ・ドロップアウト,平均場変動推定,深部アンサンブル,予測変数の分散定量化とデータ再構成の質を,様々なスカラーフィールドデータセットで提案したMDSRNとRMDSRNと比較して総合的に評価した。
我々は、RMDSRNが、同一のニューラルネットワークパラメータ予算の下で、不確実なSRN間で最も正確なデータ再構成および競合分散エラー相関を実現することを実証した。
Feature grid Scene Representation Networks (SRNs) have been applied to scientific data as compact functional surrogates for analysis and visualization. As SRNs are black-box lossy data representations, assessing the prediction quality is critical for scientific visualization applications to ensure that scientists can trust the information being visualized. Currently, existing architectures do not support inference time reconstruction quality assessment, as coordinate-level errors cannot be evaluated in the absence of ground truth data. We propose a parameter-efficient multi-decoder SRN (MDSRN) ensemble architecture consisting of a shared feature grid with multiple lightweight multi-layer perceptron decoders. MDSRN can generate a set of plausible predictions for a given input coordinate to compute the mean as the prediction of the multi-decoder ensemble and the variance as a confidence score. The coordinate-level variance can be rendered along with the data to inform the reconstruction quality, or be integrated into uncertainty-aware volume visualization algorithms. To prevent the misalignment between the quantified variance and the prediction quality, we propose a novel variance regularization loss for ensemble learning that promotes the Regularized multi-decoder SRN (RMDSRN) to obtain a more reliable variance that correlates closely to the true model error. We comprehensively evaluate the quality of variance quantification and data reconstruction of Monte Carlo Dropout, Mean Field Variational Inference, Deep Ensemble, and Predicting Variance compared to the proposed MDSRN and RMDSRN across diverse scalar field datasets. We demonstrate that RMDSRN attains the most accurate data reconstruction and competitive variance-error correlation among uncertain SRNs under the same neural network parameter budgets. | 翻訳日:2024-08-07 18:22:38 公開日:2024-08-05 |
# ある非アーベル群に対する高効率量子フーリエ変換
Highly-efficient quantum Fourier transformations for some nonabelian groups ( http://arxiv.org/abs/2408.00075v2 ) ライセンス: Link先を確認 | Edison M. Murairi, M. Sohaib Alam, Henry Lamm, Stuart Hadfield, Erik Gustafson, | (参考訳) 量子フーリエ変換は素因数分解から量子シミュレーションまで、多くの量子アルゴリズムの重要な構成要素である。
標準アーベル QFT はよく研究されているが、興味のある 'emph{nonabelian} 群に対応する重要な変種はより少ない発展をみせている。
特に、高速非アーベルフーリエ変換は場の理論の量子シミュレーションや非アーベル隠れ部分群問題へのアプローチにおいて重要な要素である。
本研究では、高エネルギー物理学における多くの非アーベル群に対する高速量子フーリエ変換、$\mathbb{BT}$, $\mathbb{BO}$, $\Delta(27)$, $\Delta(54)$, $\Sigma(36\times3)$を示す。
各グループに対して、明示的な量子回路とフォールトトレラント実装のリソーススケーリングを導出する。
我々の研究は、高速フーリエ変換の開発が、我々が調査した有限群に対して、シミュレーションコストを最大で3桁削減できることを示している。
Quantum Fourier transformations are an essential component of many quantum algorithms, from prime factoring to quantum simulation. While the standard abelian QFT is well-studied, important variants corresponding to \emph{nonabelian} groups of interest have seen less development. In particular, fast nonabelian Fourier transformations are important components for both quantum simulations of field theories as well as approaches to the nonabelian hidden subgroup problem. In this work, we present fast quantum Fourier transformations for a number of nonabelian groups of interest for high energy physics, $\mathbb{BT}$, $\mathbb{BO}$, $\Delta(27)$, $\Delta(54)$, and $\Sigma(36\times3)$. For each group, we derive explicit quantum circuits and estimate resource scaling for fault-tolerant implementations. Our work shows that the development of a fast Fourier transformation can substantively reduce simulation costs by up to three orders of magnitude for the finite groups that we have investigated. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-05 |
# 動的グラフ表現学習のための多変量変換を用いた時空間グラフ畳み込みネットワーク
Spatial-temporal Graph Convolutional Networks with Diversified Transformation for Dynamic Graph Representation Learning ( http://arxiv.org/abs/2408.02704v1 ) ライセンス: Link先を確認 | Ling Wang, Yixiang Huang, Hao Wu, | (参考訳) 動的グラフ(DG)は、実世界のアプリケーションにおけるノード間の相互作用の進化を記述するためにしばしば用いられる。
時間パターンはDGの自然な特徴であり、表現学習の鍵でもある。
しかし、既存の動的GCNモデルは主に静的GCNとシーケンスモジュールで構成されており、これは時空間情報の分離をもたらし、DGの複雑な時空間パターンを効果的に捉えることができない。
この問題に対処するために,多角化変換(STGCNDT)を用いた時空間グラフ畳み込みネットワークを提案する。
a) 時空間情報を個別に表現することなく、テンソルM積を用いて統一グラフテンソル畳み込みネットワーク(GTCN)を構築すること。
b)GTCNに3つの変換スキームを導入して、複雑な時間的パターンをモデル化し、時間的情報を集約すること。
c) 高い表現能力を得るために、多様化された変換方式の集合を構築すること。
通信ネットワークに現れる4つのDGに関する実証研究により、STGCNDTは、多変量変換によるリンク重み推定タスクの解法において、最先端モデルよりも著しく優れていることが示された。
Dynamic graphs (DG) are often used to describe evolving interactions between nodes in real-world applications. Temporal patterns are a natural feature of DGs and are also key to representation learning. However, existing dynamic GCN models are mostly composed of static GCNs and sequence modules, which results in the separation of spatiotemporal information and cannot effectively capture complex temporal patterns in DGs. To address this problem, this study proposes a spatial-temporal graph convolutional networks with diversified transformation (STGCNDT), which includes three aspects: a) constructing a unified graph tensor convolutional network (GTCN) using tensor M-products without the need to represent spatiotemporal information separately; b) introducing three transformation schemes in GTCN to model complex temporal patterns to aggregate temporal information; and c) constructing an ensemble of diversified transformation schemes to obtain higher representation capabilities. Empirical studies on four DGs that appear in communication networks show that the proposed STGCNDT significantly outperforms state-of-the-art models in solving link weight estimation tasks due to the diversified transformations. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# PSNE: ネットワーク埋め込みのスケーリングのための効率的なスペクトルスカラー化アルゴリズム
PSNE: Efficient Spectral Sparsification Algorithms for Scaling Network Embedding ( http://arxiv.org/abs/2408.02705v1 ) ライセンス: Link先を確認 | Longlong Lin, Yunfeng Yu, Zihao Wang, Zeli Wang, Yuying Zhao, Jin Zhao, Tao Jia, | (参考訳) ネットワーク埋め込みは、多くの実用的な応用があり、グラフの構造的特性を保ちながら、頂点を低次元で連続的な高密度ベクトル空間にマッピングすることを目的として、グラフ学習において大きな注目を集めている。
多くのネットワーク埋め込み手法が提案され、その中ではPersonalized PageRank (PPR) 行列の分解が経験的、理論的に支持されている。
しかし、いくつかの根本的な問題は解決できない。
1) PPR行列の行や列を近似するために、既存のメソッドがセミナルなローカルプッシュサブルーチンを呼び出します。
したがって、彼らは証明可能なPPR行列を得るために$n$$$(n$はノード数)ローカルプッシュサブルーチンを実行しなければなりません。
2) PPRマトリックスは, 頂点間の構造的類似性を捉え, 性能劣化を招いた。
これらのジレンマを克服するために、効率的なスペクトル s\textbf{P}arsification method for \textbf{S}caling \textbf{N}etwork \textbf{E}mbedding を提案する。
具体的には、PSNE は最初に行列多項式スペーサーを設計し、フロベニウスノルムの理論的保証を持つ PPR 行列の計算を高速化する。
その後、PSNEは、得られた近似PPR行列の表現力をさらに高めるために、単純だが効果的な多重パースペクティブ戦略を提案する。
最後に、PSNEはターゲット埋め込みベクトルを得るためにスパースおよび多重パースペクティブPPR行列にランダム化特異値分解アルゴリズムを適用する。
実世界のデータセットと合成データセットの実験的評価は、我々のソリューションが10の競合相手と比較して、確かに効率的で効果的でスケーラブルであることを示している。
Network embedding has numerous practical applications and has received extensive attention in graph learning, which aims at mapping vertices into a low-dimensional and continuous dense vector space by preserving the underlying structural properties of the graph. Many network embedding methods have been proposed, among which factorization of the Personalized PageRank (PPR for short) matrix has been empirically and theoretically well supported recently. However, several fundamental issues cannot be addressed. (1) Existing methods invoke a seminal Local Push subroutine to approximate \textit{a single} row or column of the PPR matrix. Thus, they have to execute $n$ ($n$ is the number of nodes) Local Push subroutines to obtain a provable PPR matrix, resulting in prohibitively high computational costs for large $n$. (2) The PPR matrix has limited power in capturing the structural similarity between vertices, leading to performance degradation. To overcome these dilemmas, we propose PSNE, an efficient spectral s\textbf{P}arsification method for \textbf{S}caling \textbf{N}etwork \textbf{E}mbedding, which can fast obtain the embedding vectors that retain strong structural similarities. Specifically, PSNE first designs a matrix polynomial sparser to accelerate the calculation of the PPR matrix, which has a theoretical guarantee in terms of the Frobenius norm. Subsequently, PSNE proposes a simple but effective multiple-perspective strategy to enhance further the representation power of the obtained approximate PPR matrix. Finally, PSNE applies a randomized singular value decomposition algorithm on the sparse and multiple-perspective PPR matrix to get the target embedding vectors. Experimental evaluation of real-world and synthetic datasets shows that our solutions are indeed more efficient, effective, and scalable compared with ten competitors. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# Bayesian Kolmogorov Arnold Networks (Bayesian_KANs): 精度と解釈可能性の確率論的アプローチ
Bayesian Kolmogorov Arnold Networks (Bayesian_KANs): A Probabilistic Approach to Enhance Accuracy and Interpretability ( http://arxiv.org/abs/2408.02706v1 ) ライセンス: Link先を確認 | Masoud Muhammed Hassan, | (参考訳) その強力な予測スキルのため、ディープラーニングは医療を含む多くの産業において不可欠なツールとして現れてきた。
一方、従来のディープラーニングモデルは、臨床的意思決定の2つの重要な要素を考慮すると、予測の不確実性を考慮した解釈可能性や省略性を欠いていることが多い。
そこで本研究では,Bayesian Kolmogorov Arnold Networks (BKANs) と呼ばれる新しいフレームワークを提案する。
我々はBKANを2つの医学データセットに採用し、ピマ・インディアン・糖尿病データセットとクリーブランド心臓病データセットという2つの医学診断における機械学習モデルの評価に広く利用されている。
提案手法は,予測信頼度と決定境界に関する有用な知見を提供し,予測精度の観点から従来のディープラーニングモデルより優れている。
さらに、BKANが失読症およびてんかんの不確実性を表す能力は、医師がより堅固で信頼できる決定支援を受けることを保証している。
実験結果によると、ベイズ戦略はモデルの解釈可能性を改善し、小小かつ不均衡な医療データセットにとって重要なオーバーフィッティングを大幅に最小化する。
我々は、より複雑なマルチモーダルデータセットでBKANをさらに活用し、医療のための信頼できるAIシステムを構築するための将来の研究におけるこれらの発見の重要性に対処する可能性がある。
この作業は、透明性と信頼性が不可欠である重要な分野におけるディープラーニングモデルの展開において、新たなパラダイムの道を開くものだ。
Because of its strong predictive skills, deep learning has emerged as an essential tool in many industries, including healthcare. Traditional deep learning models, on the other hand, frequently lack interpretability and omit to take prediction uncertainty into account two crucial components of clinical decision making. In order to produce explainable and uncertainty aware predictions, this study presents a novel framework called Bayesian Kolmogorov Arnold Networks (BKANs), which combines the expressive capacity of Kolmogorov Arnold Networks with Bayesian inference. We employ BKANs on two medical datasets, which are widely used benchmarks for assessing machine learning models in medical diagnostics: the Pima Indians Diabetes dataset and the Cleveland Heart Disease dataset. Our method provides useful insights into prediction confidence and decision boundaries and outperforms traditional deep learning models in terms of prediction accuracy. Moreover, BKANs' capacity to represent aleatoric and epistemic uncertainty guarantees doctors receive more solid and trustworthy decision support. Our Bayesian strategy improves the interpretability of the model and considerably minimises overfitting, which is important for tiny and imbalanced medical datasets, according to experimental results. We present possible expansions to further use BKANs in more complicated multimodal datasets and address the significance of these discoveries for future research in building reliable AI systems for healthcare. This work paves the way for a new paradigm in deep learning model deployment in vital sectors where transparency and reliability are crucial. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# SnapE -- リンク予測モデルのスナップショットアンサンブルのトレーニング
SnapE -- Training Snapshot Ensembles of Link Prediction Models ( http://arxiv.org/abs/2408.02707v1 ) ライセンス: Link先を確認 | Ali Shaban, Heiko Paulheim, | (参考訳) スナップショットアンサンブルは様々な予測分野で広く使われている。
単一のモデルをトレーニングするコストで,予測モデルのアンサンブルをトレーニングすることが可能だ。
様々なベースモデルを作成することにより、より堅牢な予測が得られることが知られている。
本稿では,ナレッジグラフの予測モデルをリンクするために,スナップショットアンサンブルのアイデアを伝達する手法を提案する。
さらに,知識グラフのリンク予測は明示的なネガティブな例のない設定であるため,従来のスナップショットモデルを用いてネガティブな例を反復的に生成する新たなトレーニングループを提案する。
4つのデータセットにまたがる4つのベースモデルによる評価は、このアプローチがトレーニング時間を一定に保ちながら、単一のモデルアプローチを常に上回っていることを示している。
Snapshot ensembles have been widely used in various fields of prediction. They allow for training an ensemble of prediction models at the cost of training a single one. They are known to yield more robust predictions by creating a set of diverse base models. In this paper, we introduce an approach to transfer the idea of snapshot ensembles to link prediction models in knowledge graphs. Moreover, since link prediction in knowledge graphs is a setup without explicit negative examples, we propose a novel training loop that iteratively creates negative examples using previous snapshot models. An evaluation with four base models across four datasets shows that this approach constantly outperforms the single model approach, while keeping the training time constant. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# 医用ハイパースペクトル画像のスクリブルによるインタラクティブセグメンテーション
Scribble-Based Interactive Segmentation of Medical Hyperspectral Images ( http://arxiv.org/abs/2408.02708v1 ) ライセンス: Link先を確認 | Zhonghao Wang, Junwen Wang, Charlie Budd, Oscar MacCormac, Jonathan Shapey, Tom Vercauteren, | (参考訳) ハイパースペクトルイメージング(Hyperspectral Imaging、HSI)は、幅広いスペクトル範囲の光学データを捉え、組織の生化学的組成に関する新たな洞察を与える高度な医療画像モダリティである。
HSIは様々な組織型と病理組織を正確に区別することができ、特に腫瘍の検出、組織分類、疾患の診断に有用である。
ディープラーニングに基づくセグメンテーション手法は、自動化された正確な結果を提供するなど、かなりの進歩を見せている。
しかし、これらの手法は、限られた注釈付きデータとハードウェアと取得技術との相違により、HSIデータセットの課題に直面している。
臨床プロトコルにおける可変性は、構造境界の異なる定義をもたらす。
ユーザ知識と臨床知見を活用するインタラクティブセグメンテーション手法は,これらの問題を克服し,正確なセグメンテーション結果を得ることができる。
本研究は、医用ハイパースペクトル画像のためのスクリブルベースのインタラクティブセグメンテーションフレームワークを導入する。
提案手法は,特徴抽出のための深層学習と,ユーザが提供するスクリブルから生成された測地距離マップを用いて,セグメンテーション結果を得る。
実験結果から, 深層学習抽出特徴に基づく測地線距離マップの利用は, ハイパースペクトル画像, 再構成RGB画像, ユークリッド距離マップから直接発生する測地線距離マップよりも, セグメンテーション結果が優れていることがわかった。
Hyperspectral imaging (HSI) is an advanced medical imaging modality that captures optical data across a broad spectral range, providing novel insights into the biochemical composition of tissues. HSI may enable precise differentiation between various tissue types and pathologies, making it particularly valuable for tumour detection, tissue classification, and disease diagnosis. Deep learning-based segmentation methods have shown considerable advancements, offering automated and accurate results. However, these methods face challenges with HSI datasets due to limited annotated data and discrepancies from hardware and acquisition techniques~\cite{clancy2020surgical,studier2023heiporspectral}. Variability in clinical protocols also leads to different definitions of structure boundaries. Interactive segmentation methods, utilizing user knowledge and clinical insights, can overcome these issues and achieve precise segmentation results \cite{zhao2013overview}. This work introduces a scribble-based interactive segmentation framework for medical hyperspectral images. The proposed method utilizes deep learning for feature extraction and a geodesic distance map generated from user-provided scribbles to obtain the segmentation results. The experiment results show that utilising the geodesic distance maps based on deep learning-extracted features achieved better segmentation results than geodesic distance maps directly generated from hyperspectral images, reconstructed RGB images, or Euclidean distance maps. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# 医療学習と推論システムの強化:デザインパターンのボックスロジーに基づく比較分析
Enhancing Medical Learning and Reasoning Systems: A Boxology-Based Comparative Analysis of Design Patterns ( http://arxiv.org/abs/2408.02709v1 ) ライセンス: Link先を確認 | Chi Him Ng, | (参考訳) 本研究は,ハイブリッドAIシステムの設計パターンと,ボックスロジカルフレームワークを用いた臨床意思決定における有効性について分析する。
機械学習とルールベースの推論を組み合わせたさまざまなアーキテクチャを分類し、対処し、その構造基盤と医療アプリケーションに関する洞察を提供する。
この研究では、ソフトウェアエンジニアリングの設計パターンを用いて、医療AIシステムの理解と最適化を行う。
Boxologyは、共通性を識別し、再利用可能なソリューションを作成し、システムのスケーラビリティ、信頼性、パフォーマンスを向上させる。
主要なアーキテクチャは、REML、MLRB、RBML、RMLT、PERMLである。
それぞれに独自の長所と短所があり、臨床タスクにおける調整されたアプローチの必要性を強調している。
REMLは、限られたデータを持つデータセットの高精度予測、大規模なデータセットと複雑なデータ統合を扱うMLRB、説明可能性と信頼性のRBML、高次元データを管理するRMLT、分析に制限のあるPERMLは、緊急ケアシナリオにおいて有望であることを示している。
この研究は4つの新しいパターンを導入し、5つの抽象的な分類パターンを作成し、それら5つを特定のシステムに洗練する。
これらの貢献はBoxlogyの分類学的組織を強化し、専門家の知識と機械学習を統合する新しいアプローチを提供する。
Boxologyの構造化されたモジュール型アポラチは、ハイブリッドAIシステムの開発と分析、共通点の明確化、再利用可能なソリューションの促進において、大きなアドバンテージを提供する。
結論として、この研究は、医療の進歩におけるハイブリッドAIシステムの重要な役割と、AI統合におけるさらなるイノベーションを推進し、最終的に臨床決定支援と患者の成果を改善するBoxologyの可能性を強調した。
This study analyzes hybrid AI systems' design patterns and their effectiveness in clinical decision-making using the boxology framework. It categorizes and copares various architectures combining machine learning and rule-based reasoning to provide insights into their structural foundations and healthcare applications. Addressing two main questions, how to categorize these systems againts established design patterns and how to extract insights through comparative analysis, the study uses design patterns from software engineering to understand and optimize healthcare AI systems. Boxology helps identify commonalities and create reusable solutions, enhancing these systems' scalability, reliability, and performance. Five primary architectures are examined: REML, MLRB, RBML, RMLT, and PERML. Each has unique strengths and weaknesses, highlighting the need for tailored approaches in clinical tasks. REML excels in high-accuracy prediction for datasets with limited data; MLRB in handling large datasets and complex data integration; RBML in explainability and trustworthiness; RMLT in managing high-dimensional data; and PERML, though limited in analysis, shows promise in urgent care scenarios. The study introduces four new patterns, creates five abstract categorization patterns, and refines those five further to specific systems. These contributions enhance Boxlogy's taxonomical organization and offer novel approaches to integrating expert knowledge with machine learning. Boxology's structured, modular apporach offers significant advantages in developing and analyzing hybrid AI systems, revealing commonalities, and promoting reusable solutions. In conclusion, this study underscores hybrid AI systems' crucial role in advancing healthcare and Boxology's potential to drive further innovation in AI integration, ultimately improving clinical decision support and patient outcomes. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# RCDM:条件付き拡散モデルにおけるロバスト性の実現
RCDM: Enabling Robustness for Conditional Diffusion Model ( http://arxiv.org/abs/2408.02710v1 ) ライセンス: Link先を確認 | Weifeng Xu, Xiang Zhu, Xiaoyong Li, | (参考訳) 条件拡散モデル(CDM)は、より多くの制御を提供し、出力の品質と関連性を改善し、より広範な複雑なタスクに適応させることにより、標準拡散モデルを強化する。
しかし、CDMの逆過程における不正確な条件入力は、ニューラルネットワークの固定エラーを生じさせやすく、十分に訓練されたモデルの適応性を低下させる。
データ強化、逆行訓練、堅牢な最適化といった既存の手法は、堅牢性を改善する一方で、高い計算複雑性、未知の摂動への適用可能性の制限、トレーニングの困難化といった課題に直面していることが多い。
本稿では,制御理論に基づくロバスト条件拡散モデル (RCDM) を提案する。
RCDMは、2つのニューラルネットワーク間の協調的相互作用と制御理論から導かれた最適制御戦略を利用して、サンプリングプロセス中の2つのネットワークの重みを最適化する。
従来の手法とは異なり、RCDMは、追加の計算オーバーヘッドを発生させることなく、固定エラーと2つのニューラルネットワークの重みの間の数学的関係を確立する。
MNISTおよびCIFAR-10データセットを用いて大規模な実験を行い,本モデルの有効性と適応性を示した。
The conditional diffusion model (CDM) enhances the standard diffusion model by providing more control, improving the quality and relevance of the outputs, and making the model adaptable to a wider range of complex tasks. However, inaccurate conditional inputs in the inverse process of CDM can easily lead to generating fixed errors in the neural network, which diminishes the adaptability of a well-trained model. The existing methods like data augmentation, adversarial training, robust optimization can improve the robustness, while they often face challenges such as high computational complexity, limited applicability to unknown perturbations, and increased training difficulty. In this paper, we propose a lightweight solution, the Robust Conditional Diffusion Model (RCDM), based on control theory to dynamically reduce the impact of noise and significantly enhance the model's robustness. RCDM leverages the collaborative interaction between two neural networks, along with optimal control strategies derived from control theory, to optimize the weights of two networks during the sampling process. Unlike conventional techniques, RCDM establishes a mathematical relationship between fixed errors and the weights of the two neural networks without incurring additional computational overhead. Extensive experiments were conducted on MNIST and CIFAR-10 datasets, and the results demonstrate the effectiveness and adaptability of our proposed model. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# 潜在拡散モデルを用いたテキスト条件付きシンボリックドラムビート生成
Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models ( http://arxiv.org/abs/2408.02711v1 ) ライセンス: Link先を確認 | Pushkar Jajoria, James McDermott, | (参考訳) 本研究では,Latent Diffusion Models (LDMs) を用いたドラムビート生成のためのテキスト条件付き手法を提案する。
トレーニングデータファイル名から抽出した情報条件付きテキストを使用する。
テキストとドラムのエンコーダをマルチモーダルネットワーク内のコントラスト学習により事前学習することにより,テキストと音楽のモダリティを密に調整する。
さらに,マルチホットテキストエンコーディングに基づく代替テキストエンコーダについても検討する。
音楽のマルチレゾリューション特性に着想を得て,様々な解像度で独立に動作可能な新しいLSTM変種であるMultiResolutionLSTMを提案する。
画像空間における最近のLCDと共通して、事前訓練された非条件オートエンコーダによって提供される潜在空間で拡散を実行することにより、生成プロセスを高速化する。
生成したドラムビートとトレーニングデータセットと、生成したドラムビートとの距離(二段ピアノロールと潜時空間の両方)を計測することにより、生成したドラムビートの独創性と多様性を実証する。
また, 音質, 適応性, 新規性に焦点をあてた聴取テストにより, 生成したドラムビートの評価を行った。
生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
This study introduces a text-conditioned approach to generating drumbeats with Latent Diffusion Models (LDMs). It uses informative conditioning text extracted from training data filenames. By pretraining a text and drumbeat encoder through contrastive learning within a multimodal network, aligned following CLIP, we align the modalities of text and music closely. Additionally, we examine an alternative text encoder based on multihot text encodings. Inspired by musics multi-resolution nature, we propose a novel LSTM variant, MultiResolutionLSTM, designed to operate at various resolutions independently. In common with recent LDMs in the image space, it speeds up the generation process by running diffusion in a latent space provided by a pretrained unconditional autoencoder. We demonstrate the originality and variety of the generated drumbeats by measuring distance (both over binary pianorolls and in the latent space) versus the training dataset and among the generated drumbeats. We also assess the generated drumbeats through a listening test focused on questions of quality, aptness for the prompt text, and novelty. We show that the generated drumbeats are novel and apt to the prompt text, and comparable in quality to those created by human musicians. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# PPGを用いた音声合成後の音声の自動識別
Automatic Voice Identification after Speech Resynthesis using PPG ( http://arxiv.org/abs/2408.02712v1 ) ライセンス: Link先を確認 | Thibault Gaudier, Marie Tahon, Anthony Larcher, Yannick Estève, | (参考訳) 音声再生は,音声を入力として他の音声で合成したいという一般的なタスクであり,メディアモニタやジャーナリストの応用を見出したものである。音声再生では,話者のアイデンティティを変更しながら言語情報を保存し,音声版では話者のアイデンティティを保ちながら,一部の単語が修正されている。いずれの場合も,中間表現で話者と音声の内容をアンタングルする必要がある。音素のフレームレベルの確率的表現であり,通常は話者に依存しない。本論文では,PPGに基づく音声再生システムを提案する。
Speech resynthesis is a generic task for which we want to synthesize audio with another audio as input, which finds applications for media monitors and journalists.Among different tasks addressed by speech resynthesis, voice conversion preserves the linguistic information while modifying the identity of the speaker, and speech edition preserves the identity of the speaker but some words are modified.In both cases, we need to disentangle speaker and phonetic contents in intermediate representations.Phonetic PosteriorGrams (PPG) are a frame-level probabilistic representation of phonemes, and are usually considered speaker-independent.This paper presents a PPG-based speech resynthesis system.A perceptive evaluation assesses that it produces correct audio quality.Then, we demonstrate that an automatic speaker verification model is not able to recover the source speaker after re-synthesis with PPG, even when the model is trained on synthetic data. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# 拡張現実を用いた信頼性手術ナビゲーションのための臓器変形モデリング手法の検討
A Review on Organ Deformation Modeling Approaches for Reliable Surgical Navigation using Augmented Reality ( http://arxiv.org/abs/2408.02713v1 ) ライセンス: Link先を確認 | Zheng Han, Qi Dou, | (参考訳) Augmented Reality(AR)は、外科医が患者の体内で重要な構造を可視化できるようにすることで、外科手術に革命をもたらす可能性を秘めている。
これは、手術前の臓器モデルを実際の解剖学に重ね合わせることで達成される。
手術中の臓器の動的変形から生じる課題は、手術前モデルが術中解剖を忠実に表現するには不十分である。
外科手術における信頼性の高いナビゲーションを可能にするために、術前臓器モデルと術中解剖の正確なアライメントを得るためには、術中変形のモデル化が不可欠である。
術中臓器の変形をモデル化するための様々な手法が提案されているが、これらのアプローチを体系的に分類し要約する文献レビューは少ない。
本総説では, 手術時の臓器変形のモデル化手法を包括的かつ技術的に概観することにより, このギャップを埋めることを目的としている。
体系的な検索とスクリーニングのプロセスを通じて、このレビューには112の関連論文が含まれていた。
本稿では, 臓器変形モデリングの現状と臨床応用について述べることにより, ARガイド下手術における臓器変形モデリングの理解を深め, 今後の進歩の可能性について考察する。
Augmented Reality (AR) holds the potential to revolutionize surgical procedures by allowing surgeons to visualize critical structures within the patient's body. This is achieved through superimposing preoperative organ models onto the actual anatomy. Challenges arise from dynamic deformations of organs during surgery, making preoperative models inadequate for faithfully representing intraoperative anatomy. To enable reliable navigation in augmented surgery, modeling of intraoperative deformation to obtain an accurate alignment of the preoperative organ model with the intraoperative anatomy is indispensable. Despite the existence of various methods proposed to model intraoperative organ deformation, there are still few literature reviews that systematically categorize and summarize these approaches. This review aims to fill this gap by providing a comprehensive and technical-oriented overview of modeling methods for intraoperative organ deformation in augmented reality in surgery. Through a systematic search and screening process, 112 closely relevant papers were included in this review. By presenting the current status of organ deformation modeling methods and their clinical applications, this review seeks to enhance the understanding of organ deformation modeling in AR-guided surgery, and discuss the potential topics for future advancements. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-05 |
# MDM:自動変調認識データセット合成のためのマルチドメイン分布マッチングの改善
MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis ( http://arxiv.org/abs/2408.02714v1 ) ライセンス: Link先を確認 | Dongwei Xu, Jiajun Chen, Yao Lu, Tianhao Xia, Qi Xuan, Wei Wang, Yun Lin, Xiaoniu Yang, | (参考訳) 近年,AMR(Automatic Modulation Recognition)タスクにディープラーニング技術を導入している。
しかし、ディープラーニングの成功はすべて、大規模データセットのトレーニングによるものである。
このような大量のデータは、ストレージ、トランスミッション、モデルトレーニングに大きなプレッシャーをもたらします。
大量のデータの問題を解決するため、一部の研究者は、大規模なトレーニングデータを小さな合成データセットに圧縮し、その性能を維持することを目的としたデータ蒸留法を提唱した。
画像処理の領域で多くのデータ蒸留技術が開発されているが、信号のユニークな特性はそれらを分離した。
信号は様々な領域で異なる特徴を示し、分析と処理に特別なアプローチを必要とする。
この目的のために、新しいデータセット蒸留法--Multi-domain Distribution Matching (MDM)を提案する。
MDMは離散フーリエ変換(DFT)を用いて、時間領域信号を周波数領域に変換し、時間領域と周波数領域の両方を考慮して合成データセットと実データセットの損失に対応する分布を計算するモデルを使用する。
最終的に、これらの2つの損失は、合成データセットを更新するために統合される。
3つのAMRデータセットについて広範な実験を行った。
実験の結果,提案手法はベースライン法と比較して,同じ圧縮比で優れた性能が得られることがわかった。
さらに,いくつかのモデル上でクロスアーキテクチャの一般化実験を行い,実験結果から,我々の合成データセットが他の未知のモデルに対してうまく一般化可能であることが示された。
Recently, deep learning technology has been successfully introduced into Automatic Modulation Recognition (AMR) tasks. However, the success of deep learning is all attributed to the training on large-scale datasets. Such a large amount of data brings huge pressure on storage, transmission and model training. In order to solve the problem of large amount of data, some researchers put forward the method of data distillation, which aims to compress large training data into smaller synthetic datasets to maintain its performance. While numerous data distillation techniques have been developed within the realm of image processing, the unique characteristics of signals set them apart. Signals exhibit distinct features across various domains, necessitating specialized approaches for their analysis and processing. To this end, a novel dataset distillation method--Multi-domain Distribution Matching (MDM) is proposed. MDM employs the Discrete Fourier Transform (DFT) to translate timedomain signals into the frequency domain, and then uses a model to compute distribution matching losses between the synthetic and real datasets, considering both the time and frequency domains. Ultimately, these two losses are integrated to update the synthetic dataset. We conduct extensive experiments on three AMR datasets. Experimental results show that, compared with baseline methods, our method achieves better performance under the same compression ratio. Furthermore, we conduct crossarchitecture generalization experiments on several models, and the experimental results show that our synthetic datasets can generalize well on other unseen models. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# MMIU:大規模視覚言語モデル評価のためのマルチモーダルマルチイメージ理解
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models ( http://arxiv.org/abs/2408.02718v1 ) ライセンス: Link先を確認 | Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao, | (参考訳) 複数の画像を処理する能力は、LVLM(Large Vision-Language Models)にとって、より徹底的でニュアンスなシーン理解を開発する上で不可欠である。
最近のマルチイメージLVLMはこのニーズに対処し始めている。
しかし、彼らの評価は開発に遅れを取っていない。
このギャップを埋めるために,マルチモーダルマルチイメージ理解(MMIU)ベンチマークを導入する。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kの画像、1Kの細心の注意を払ってキュレートされた複数の質問が含まれており、この種のベンチマークとしては最も広範なものとなっている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,特に空間的理解に関わるタスクにおいて,マルチイメージ理解において重要な課題が明らかとなった。
GPT-4oのような最も先進的なモデルでさえ、MMIUでは55.7%の精度しか達成していない。
多面的な分析実験を通じて、重要な性能ギャップと限界を特定し、将来のモデルとデータ改善のための貴重な洞察を提供する。
我々はMMIUがLVLM研究開発のフロンティアを前進させ、洗練されたマルチモーダル・マルチモーダル・ユーザインタラクションの実現を目指しています。
The capability to process multiple images is crucial for Large Vision-Language Models (LVLMs) to develop a more thorough and nuanced understanding of a scene. Recent multi-image LVLMs have begun to address this need. However, their evaluation has not kept pace with their development. To fill this gap, we introduce the Multimodal Multi-image Understanding (MMIU) benchmark, a comprehensive evaluation suite designed to assess LVLMs across a wide range of multi-image tasks. MMIU encompasses 7 types of multi-image relationships, 52 tasks, 77K images, and 11K meticulously curated multiple-choice questions, making it the most extensive benchmark of its kind. Our evaluation of 24 popular LVLMs, including both open-source and proprietary models, reveals significant challenges in multi-image comprehension, particularly in tasks involving spatial understanding. Even the most advanced models, such as GPT-4o, achieve only 55.7% accuracy on MMIU. Through multi-faceted analytical experiments, we identify key performance gaps and limitations, providing valuable insights for future model and data improvements. We aim for MMIU to advance the frontier of LVLM research and development, moving us toward achieving sophisticated multimodal multi-image user interactions. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 一般化量子スタインの補題と量子資源理論の第二法則
Generalized Quantum Stein's Lemma and Second Law of Quantum Resource Theories ( http://arxiv.org/abs/2408.02722v1 ) ライセンス: Link先を確認 | Masahito Hayashi, Hayata Yamasaki, | (参考訳) 熱力学の第二の法則は物理学の基礎であり、単一の関数であるエントロピーを通した熱力学状態間の可換性を特徴づける。
熱力学の普遍的な適用性を考えると、量子情報理論における基本的な疑問は、量子情報処理のリソースの変換性をそのような単一関数によって特徴づけるために、類似の第2法則を定式化できるかどうかである。
2008年、有望な定式化が提案され、仮説テストの量子バージョンの変種における最適性能とリソース変換可能性のリンクが提案された。
この定式化の中心は一般化された量子シュタインの補題であり、これは資源の正則化された相対エントロピーである量子資源の測度によってこの最適性能を特徴づけることを目的としていた。
もし有効であると証明された場合、一般化された量子シュタインの補題は、熱力学におけるエントロピーの役割を果たすリソースの正則化された相対エントロピーを持つ量子資源の第二法則に繋がる。
しかし2023年、この補題の元々の証明に論理的なギャップが見つかり、そのような第二法則の定式化の可能性に疑問が投げかけられた。
本研究では、この問題を、代替手法を開発し、一般化された量子シュタイン補題の証明に成功することによって解決する。
本証明に基づき, 量子資源理論の定式化を第2法則で再確立し, 拡張し, 静的および動的資源の両方に適用する。
これらの結果は、熱力学と量子情報理論の類似をブリッジする根本的な問題を解決している。
The second law of thermodynamics is the cornerstone of physics, characterizing the convertibility between thermodynamic states through a single function, entropy. Given the universal applicability of thermodynamics, a fundamental question in quantum information theory is whether an analogous second law can be formulated to characterize the convertibility of resources for quantum information processing by such a single function. In 2008, a promising formulation was proposed, linking resource convertibility to the optimal performance of a variant of the quantum version of hypothesis testing. Central to this formulation was the generalized quantum Stein's lemma, which aimed to characterize this optimal performance by a measure of quantum resources, the regularized relative entropy of resource. If proven valid, the generalized quantum Stein's lemma would lead to the second law for quantum resources, with the regularized relative entropy of resource taking the role of entropy in thermodynamics. However, in 2023, a logical gap was found in the original proof of this lemma, casting doubt on the possibility of such a formulation of the second law. In this work, we address this problem by developing alternative techniques and successfully proving the generalized quantum Stein's lemma. Based on our proof, we reestablish and extend the formulation of quantum resource theories with the second law, applicable to both static and dynamical resources. These results resolve the fundamental problem of bridging the analogy between thermodynamics and quantum information theory. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 双対単位力学からのフォック空間の非局在化とポーター・トーマス分布の出現
Fock-space delocalization and the emergence of the Porter-Thomas distribution from dual-unitary dynamics ( http://arxiv.org/abs/2408.02732v1 ) ライセンス: Link先を確認 | Pieter W. Claeys, Giuseppe De Tomasi, | (参考訳) 量子多体系のカオス力学は、任意の構造化初期状態の素早いランダム化を期待され、フォック空間で非局在化する。
本研究では,双対単位力学の下でのヒルベルト空間における初期積状態の拡散を,逆参加比と重なりの分布(ビット弦確率)によって捉えた。
我々は、多体量子カオスの最小モデルである自己双対蹴りイジングモデルを、周期的に駆動されるフロッケモデルまたは二重単位量子回路と見なすことができる。
解析的にも数値的にも,逆参加比はハールランダム状態に対応するエルゴード値に急速に近づき,重なり合う分布に対するポーター・トーマス分布の出現を確立する。
重要なことに、この収束は、システムサイズに依存しない時間スケールで、時間内で指数関数的に速く起こる。
二重ユニタリティを損なう局所摂動の影響を検証し、フォック空間の拡散の減速を示し、二重ユニタリー回路がランダムな状態を作るのに最適であることを示す。
The chaotic dynamics of quantum many-body systems are expected to quickly randomize any structured initial state, delocalizing it in Fock space. In this work, we study the spreading of an initial product state in Hilbert space under dual-unitary dynamics, captured by the inverse participation ratios and the distribution of overlaps (bit-string probabilities). We consider the self-dual kicked Ising model, a minimal model of many-body quantum chaos which can be seen as either a periodically driven Floquet model or a dual-unitary quantum circuit. Both analytically and numerically, we show that the inverse participation ratios rapidly approach their ergodic values, corresponding to those of Haar random states, and establish the emergence of the Porter-Thomas distribution for the overlap distribution. Importantly, this convergence happens exponentially fast in time, with a time scale that is independent of system size. We inspect the effect of local perturbations that break dual-unitarity and show a slowdown of the spreading in Fock space, indicating that dual-unitary circuits are maximally efficient at preparing random states. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 周期駆動Rydberg原子アレイにおける動的ゲージ理論の量子シミュレーション
Quantum simulation of dynamical gauge theories in periodically driven Rydberg atom arrays ( http://arxiv.org/abs/2408.02733v1 ) ライセンス: Link先を確認 | Johannes Feldmeier, Nishad Maskara, Nazlı Uğur Köylüoğlu, Mikhail D. Lukin, | (参考訳) 格子ゲージ理論(LGT)の量子力学をシミュレーションすることは、量子科学におけるエキサイティングなフロンティアである。
中立原子配列に基づくプログラム可能な量子シミュレータはこの目標を達成するための有望なアプローチである。
しかし、物質とゲージ場の両方が大きなダイナミクスを示すLGTのレギュレーションを実現するには、リング交換に関連するような調整可能な多体相互作用の存在が必要である。
そこで本研究では,時間周期駆動に基づくインタラクションを生成する手法を開発した。
提案手法は,周波数変調大域パルスを用いた制約付きPXPモデルで利用できる時間反転軌道の制御偏差を利用する。
このような駆動は、それぞれの演算子重みにおいて強度が摂動的でない多体相互作用を持つ実効ハミルトニアンの族を生じさせることを示す。
このアプローチを加護目格子上の2次元U(1) LGTに適用し、物質励起の運動エネルギーに対して調整可能な強い6体磁気プラケット項を設計し、これまで探索されていなかった力学系へのアクセスを実証する。
実験的実装の潜在的な一般化と展望について論じる。
Simulating quantum dynamics of lattice gauge theories (LGTs) is an exciting frontier in quantum science. Programmable quantum simulators based on neutral atom arrays are a promising approach to achieve this goal, since strong Rydberg blockade interactions can be used to naturally create low energy subspaces that can encode local gauge constraints. However, realizing regimes of LGTs where both matter and gauge fields exhibit significant dynamics requires the presence of tunable multi-body interactions such as those associated with ring exchange, which are challenging to realize directly. Here, we develop a method for generating such interactions based on time-periodic driving. Our approach utilizes controlled deviations from time-reversed trajectories, which are accessible in constrained PXP-type models via the application of frequency modulated global pulses. We show that such driving gives rise to a family of effective Hamiltonians with multi-body interactions whose strength is non-perturbative in their respective operator weight. We apply this approach to a two-dimensional U(1) LGT on the Kagome lattice, where we engineer strong six-body magnetic plaquette terms that are tunable relative to the kinetic energy of matter excitations, demonstrating access to previously unexplored dynamical regimes. Potential generalizations and prospects for experimental implementations are discussed. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 断熱駆動臨界系における量子情報の揺らぎ
Quantum information scrambling in adiabatically-driven critical systems ( http://arxiv.org/abs/2408.02735v1 ) ライセンス: Link先を確認 | Ricardo Puebla, Fernando J. Gómez-Ruiz, | (参考訳) 量子情報スクランブル(quantum information scrambling)とは、量子多体系の多くの自由度に初期記憶された情報の拡散を指す。
情報スクランブルは孤立した量子多体系の熱化と密接に関連しており、典型的には急激なクエンチのシナリオで研究されている。
ここでは、量子情報スクランブルの概念を、断熱進化中の臨界量子多体系に拡張する。
特に、リプキン-メシュコフ-グリックモデルや量子ラビモデルのような、漸近的に駆動される可積分系において、初期状態の対称性を破る情報がどのようにスクランブルされるかを分析する。
対称性の破れから正常な位相へとシステムを駆動する時間依存プロトコルに従えば、適切な観測値の期待値で示されるような完全な断熱的進化においても、初期情報をスクランブルする方法が示される。
量子情報スクランブルの基礎メカニズム、基底状態および励起状態の量子相転移との関係について詳述し、初期対称性を破る情報の符号化に関与する固有状態の数の観点からスクランブルの度合いを定量化する。
最終状態のエネルギーは、断熱的プロトコルでは変化しないが、固有状態間の相対位相はスクランブルされ、対称性を破る情報である。
時間反転プロトコルに従えば、潜在的な情報検索はロシミットエコーと時間外相関器によって示される小さな摂動によって妨げられることを示す。
報告された現象は実験的な検証に有効であり、臨界量子多体系における情報の衝突を理解するのに役立つ可能性がある。
Quantum information scrambling refers to the spread of the initially stored information over many degrees of freedom of a quantum many-body system. Information scrambling is intimately linked to the thermalization of isolated quantum many-body systems and has been typically studied in a sudden quench scenario. Here we extend the notion of quantum information scrambling to critical quantum many-body systems undergoing an adiabatic evolution. In particular, we analyze how the symmetry-breaking information of an initial state is scrambled in adiabatically-driven integrable systems, such as the Lipkin-Meshkov-Glick and quantum Rabi model. Following a time-dependent protocol that drives the system from a symmetry-breaking to a normal phase, we show how the initial information is scrambled even for perfect adiabatic evolutions as indicated by the expectation value of a suitable observable. We detail the underlying mechanism for quantum information scrambling, its relation to ground- and excited-state quantum phase transitions and quantify the degree of scrambling in terms of the number of eigenstates that participate in the encoding of the initial symmetry-breaking information. While the energy of the final state remains unaltered in an adiabatic protocol, the relative phases among eigenstates are scrambled and so is the symmetry-breaking information. We show that a potential information retrieval, following a time-reversed protocol, is hindered by small perturbations as indicated by a vanishingly small Loschmidt echo and out-of-time-ordered correlators. The reported phenomenon is amenable for its experimental verification and may help in the understanding of information scrambling in critical quantum many-body systems. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# スケーリング誘起異常臨界による非エルミートエンタングルメントディップ
Non-Hermitian entanglement dip from scaling-induced exceptional criticality ( http://arxiv.org/abs/2408.02736v1 ) ライセンス: Link先を確認 | Sirui Liu, Hui Jiang, Wen-Tan Xue, Qingya Li, Jiangbin Gong, Xiaogang Liu, Ching Hua Lee, | (参考訳) 臨界系の絡み合いエントロピーは一般にシステムサイズと対数的にスケールすることがよく確立されている。
しかし,本研究では,従来の対数行動に強く違反するエントロピースケーリングにおいて,劇的なばらつきを示す非エルミート臨界遷移のクラスを報告した。
スケーリング誘起例外臨界(SIEC)は、例外的境界状態や非エルミート皮膚効果(NHSE)誘発ギャップ閉鎖といった既存の非エルミート的メカニズムを超越するが、それでも対数的絡み合いスケーリングによって制御されている。
SIECの鍵となるのは、強いスケール依存スペクトルであり、固有バンドは特定のシステムサイズでのみ例外的な交差を示す。
したがって、臨界挙動は、一般のブリルアンゾーン (GBZ) がシステムサイズを増大させるような異常な交差を網羅する方法に支配される。
ヘテロジニアス NHSE ポンピング方向の非局所的競合に基づくSIEC システム構築のための一般的な手法を提案し、スケール依存型 GBZ を解析的に優れた精度で導出する方法を示す。
1次元自由フェルミオンを超えると、SIECは高次元または相互作用するシステムでより多く起こることが期待されており、反抗的なNHSEチャネルは一般的に増殖する。
SIECによって引き起こされる絡み合いのディップは、レニイエントロピーのような他の絡み合いの尺度におけるキンクに直感的に一般化し、複素バンド構造における代数的および幾何学的特異点が量子情報にどのように現れるかの見事なデモンストレーションとして機能する。
It is well established that the entanglement entropy of a critical system generally scales logarithmically with system size. Yet, in this work, we report a new class of non-Hermitian critical transitions that exhibit dramatic divergent dips in their entanglement entropy scaling, strongly violating conventional logarithmic behavior. Dubbed scaling-induced exceptional criticality (SIEC), it transcends existing non-Hermitian mechanisms such as exceptional bound states and non-Hermitian skin effect (NHSE)-induced gap closures, which are nevertheless still governed by logarithmic entanglement scaling. Key to SIEC is its strongly scale-dependent spectrum, where eigenbands exhibit an exceptional crossing only at a particular system size. As such, the critical behavior is dominated by how the generalized Brillouin zone (GBZ) sweeps through the exceptional crossing with increasing system size, and not just by the gap closure per se. We provide a general approach for constructing SIEC systems based on the non-local competition between heterogeneous NHSE pumping directions, and show how a scale-dependent GBZ can be analytically derived to excellent accuracy. Beyond 1D free fermions, SIEC is expected to occur more prevalently in higher-dimensional or even interacting systems, where antagonistic NHSE channels generically proliferate. SIEC-induced entanglement dips generalize straightforwardly to kinks in other entanglement measures such as Renyi entropy, and serve as spectacular demonstrations of how algebraic and geometric singularities in complex band structures manifest in quantum information. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 非対称GHZ状態、重み付きハイパーグラフと制御単位グラフ表現
Non-symmetric GHZ states; weighted hypergraph and controlled-unitary graph representations ( http://arxiv.org/abs/2408.02740v1 ) ライセンス: Link先を確認 | Hrachya Zakaryan, Konstantinos-Rafail Revis, Zahra Raissi, | (参考訳) 非対称なGHZ状態(n$-GHZ$_\alpha$)は、不等な重ね合わせが$|00で特徴づけられる。
0>$および|11。
.1>$は、量子情報に潜在的な応用が期待できる、有意だが未発見の多粒子交絡状態のクラスを表す。
その重要性にもかかわらず、明確に定義された安定化形式とそれに対応するグラフ表現の欠如は、彼らの包括的な研究を妨げている。
本稿では,非対称GHZ状態に対する2つの新しいグラフ形式と安定化器を導入することで,このギャップに対処する。
まず、重み付きハイパーグラフ表現を提供し、非対称なGHZ状態が完全連結な重み付きハイパーグラフと同値な局所ユニタリ(LU)であることを実証する。
これらの重み付きハイパーグラフは安定化状態ではないが,局所演算とアンシラを用いて安定化可能であることを示す。
我々はさらにこのフレームワークをクォーディットに拡張し、非対称qudit GHZ状態とそのLU等価重み付きquditハイパーグラフに対して特定の形式を提供する。
第2に、制御単位(CU)演算を用いたグラフ定式化を提案し、星型CUグラフを用いて非対称のqudit GHZ状態を記述することができることを示す。
本研究は,非対称GHZ状態の理解を深め,量子情報科学への応用の可能性を示した。
Non-symmetric GHZ states ($n$-GHZ$_\alpha$), characterized by unequal superpositions of $|00...0>$ and $|11...1>$, represent a significant yet underexplored class of multipartite entangled states with potential applications in quantum information. Despite their importance, the lack of a well-defined stabilizer formalism and corresponding graph representation has hindered their comprehensive study. In this paper, we address this gap by introducing two novel graph formalisms and stabilizers for non-symmetric GHZ states. First, we provide a weighted hypergraph representation and demonstrate that non-symmetric GHZ states are local unitary (LU) equivalent to fully connected weighted hypergraphs. Although these weighted hypergraphs are not stabilizer states, we show that they can be stabilized using local operations, and an ancilla. We further extend this framework to qudits, offering a specific form for non-symmetric qudit GHZ states and their LU equivalent weighted qudit hypergraphs. Second, we propose a graph formalism using controlled-unitary (CU) operations, showing that non-symmetric qudit GHZ states can be described using star-shaped CU graphs. Our findings enhance the understanding of non-symmetric GHZ states and their potential applications in quantum information science. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 周期的に駆動されるRydberg鎖における相互作用と絡み合いのフロケット工学
Floquet engineering of interactions and entanglement in periodically driven Rydberg chains ( http://arxiv.org/abs/2408.02741v1 ) ライセンス: Link先を確認 | Nazlı Uğur Köylüoğlu, Nishad Maskara, Johannes Feldmeier, Mikhail D. Lukin, | (参考訳) Rydberg状態に駆動される中性原子配列は、プログラマブル量子システムを実現するための有望なアプローチである。
Rydberg のブロックに関連する強い相互作用によって実現され、複雑なスピンモデルと量子力学のシミュレーションが可能である。
本稿では, ブロックドシステムにおける新しいFloquetエンジニアリング技術を導入し, このようなシステムにおいて, 相互作用の新たな形態と絡み合いのダイナミクスを制御できるようにする。
我々のアプローチは、Rydbergレーザーデチューニングの時間依存制御に基づいており、周期的な多体軌道の摂動を演算子拡散の資源として利用している。
これらの時間進化作用素は、ストロボスコピック進化を記述する効果的なハミルトニアンにおける工学的相互作用の基礎として利用される。
例として, 強スピン交換法を用いて, 閉塞と整合した1次元鎖を設計し, ギャップレスルッティンガー液相の探索を可能にする方法を示す。
さらに, ギャップレス励振とライドバーグ封鎖を組み合わせることで, 大規模多粒子絡みの動的生成が可能であることを示す。
実験的実現可能性と一般化の可能性について論じる。
Neutral atom arrays driven into Rydberg states constitute a promising approach for realizing programmable quantum systems. Enabled by strong interactions associated with Rydberg blockade, they allow for simulation of complex spin models and quantum dynamics. We introduce a new Floquet engineering technique for systems in the blockade regime that provides control over novel forms of interactions and entanglement dynamics in such systems. Our approach is based on time-dependent control of Rydberg laser detuning and leverages perturbations around periodic many-body trajectories as resources for operator spreading. These time-evolved operators are utilized as a basis for engineering interactions in the effective Hamiltonian describing the stroboscopic evolution. As an example, we show how our method can be used to engineer strong spin exchange, consistent with the blockade, in a one-dimensional chain, enabling the exploration of gapless Luttinger liquid phases. In addition, we demonstrate that combining gapless excitations with Rydberg blockade can lead to dynamic generation of large-scale multi-partite entanglement. Experimental feasibility and possible generalizations are discussed. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 半導体Si-SiGeスピンビットにおけるフォノン誘起交換ゲート不均一性
Phonon-Induced Exchange Gate Infidelities in Semiconducting Si-SiGe Spin Qubits ( http://arxiv.org/abs/2408.02742v1 ) ライセンス: Link先を確認 | Matthew Brooks, Rex Lundgren, Charles Tahan, | (参考訳) 半導体スピン量子ビット間のスピン-スピン交換相互作用は、高速な単一および2量子ゲートを可能にする。
交換の間、クォービットと周囲のフォノン浴のカップリングは、結果として生じるゲートに誤りを引き起こす可能性がある。
ここでは、有限温度フォノン浴に結合したSi-SiGeヘテロ構造における半導体二重量子ドットスピン量子ビットとの交換操作の忠実さを考察する。
マスター方程式を用いて、各スピンフォノン結合項の孤立効果と符号化量子ビット演算の漏れ誤差を解くことができる。
温度が上昇するにつれて、2つの電子スピン状態のフォノン誘起摂動に起因する一次誤差の源となる部分と、励起軌道状態へのフォノン誘起結合が支配的誤差となる部分との交差が観察される。
さらに, パルス形状と長さの単純なトレードオフにより, ゲート操作時のスピンフォノン誘起誤差に対して, 最大で1桁の堅牢性を向上できることが示されている。
以上の結果から,200-300mK以内の高温では,交換ゲートの動作はバルクフォノンで制限されていないことが示唆された。
これは最近の実験と一致している。
Spin-spin exchange interactions between semiconductor spin qubits allow for fast single and two-qubit gates. During exchange, coupling of the qubits to a surrounding phonon bath may cause errors in the resulting gate. Here, the fidelities of exchange operations with semiconductor double quantum dot spin qubits in a Si-SiGe heterostructure coupled to a finite temperature phonon bath are considered. By employing a master equation approach, the isolated effect of each spin-phonon coupling term may be resolved, as well as leakage errors of encoded qubit operations. As the temperature is increased, a crossover is observed from where the primary source of error is due to a phonon induced perturbation of the two electron spin states, to one where the phonon induced coupling to an excited orbital state becomes the dominant error. Additionally, it is shown that a simple trade-off in pulse shape and length can improve robustness to spin-phonon induced errors during gate operations by up to an order of magnitude. Our results suggest that for elevated temperatures within 200-300 mK, exchange gate operations are not currently limited by bulk phonons. This is consistent with recent experiments. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# HEP分類タスクの改善に向けて : LHC物理の例に応用したKolmogorov-Arnold Networks
KAN we improve on HEP classification tasks? Kolmogorov-Arnold Networks applied to an LHC physics example ( http://arxiv.org/abs/2408.02743v1 ) ライセンス: Link先を確認 | Johannes Erdmann, Florian Mausolf, Jan Lukas Späh, | (参考訳) 近年,多層パーセプトロンの代替としてコルモゴロフ・アルノルドネットワーク (KAN) が提案されている。
高次特徴を含む高エネルギー物理学における典型的な二項イベント分類タスクについて検討し、この文脈におけるカンの性能と解釈可能性についてコメントする。
1層カンの学習活性化関数は入力特徴の対数類似度に類似していることが判明した。
より深い観では、第1の観層における活性化は、より深い観層がデータのより複雑な表現を学ぶことを示す一層の観層と異なる。
本研究では,異なる深さと幅のカンについて検討し,多層パーセプトロンとの比較を行った。
選択された分類タスクに対して、kansがよりパラメータ効率が高いとは見つからない。
しかし、小さなKAは、性能がやや低下するだけというコストで、解釈可能性という点で利点があるかもしれない。
Recently, Kolmogorov-Arnold Networks (KANs) have been proposed as an alternative to multilayer perceptrons, suggesting advantages in performance and interpretability. We study a typical binary event classification task in high-energy physics including high-level features and comment on the performance and interpretability of KANs in this context. We find that the learned activation functions of a one-layer KAN resemble the log-likelihood ratio of the input features. In deeper KANs, the activations in the first KAN layer differ from those in the one-layer KAN, which indicates that the deeper KANs learn more complex representations of the data. We study KANs with different depths and widths and we compare them to multilayer perceptrons in terms of performance and number of trainable parameters. For the chosen classification task, we do not find that KANs are more parameter efficient. However, small KANs may offer advantages in terms of interpretability that come at the cost of only a moderate loss in performance. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# プライバシセーフアイリス提示攻撃検出
Privacy-Safe Iris Presentation Attack Detection ( http://arxiv.org/abs/2408.02750v1 ) ライセンス: Link先を確認 | Mahsa Mitcheff, Patrick Tinsley, Adam Czajka, | (参考訳) 本稿では,プライバシセーフなアイリス提示攻撃検出(PAD)手法を提案する。
トレーニングが完了すると、この手法は最先端のアイリスPADベンチマークを用いて古典的な方法で評価される。
我々はISO/IEC 19794-6準拠アイリス画像の合成のための2つの生成モデルを設計した。
最初のモデルは、ボナフィドのようなサンプルを合成する。
「同一性漏洩」を避けるため、モデルトレーニングで誤って使用されたものと一致した生成されたサンプルは除外された。
第2モデルは、アイライズ像をテクスチャ化されたコンタクトレンズで合成し、所定のコンタクトレンズブランドによって条件付けされ、トレーニングセットを形成する際のテクスチャ化されたコンタクトレンズ外観をよりよく制御できる。
実験の結果, 合成データのみを学習したモデルは, 人体から収集した虹彩画像を用いて学習した手法と比較して, 低いが妥当な性能が得られることがわかった。
本研究は, 完全機能アイリスPADソリューションのトレーニングに人工データのみを用いた最初の試みであり, 正規性と提案手法のパフォーマンス差にもかかわらず, 生成モデルの忠実度が増大するにつれて, このようなプライバシセーフなアイリスPAD手法が実現可能であることを実証する。
この作業のために訓練されたソースコードと生成モデルは、論文とともに提供されている。
This paper proposes a framework for a privacy-safe iris presentation attack detection (PAD) method, designed solely with synthetically-generated, identity-leakage-free iris images. Once trained, the method is evaluated in a classical way using state-of-the-art iris PAD benchmarks. We designed two generative models for the synthesis of ISO/IEC 19794-6-compliant iris images. The first model synthesizes bona fide-looking samples. To avoid ``identity leakage,'' the generated samples that accidentally matched those used in the model's training were excluded. The second model synthesizes images of irises with textured contact lenses and is conditioned by a given contact lens brand to have better control over textured contact lens appearance when forming the training set. Our experiments demonstrate that models trained solely on synthetic data achieve a lower but still reasonable performance when compared to solutions trained with iris images collected from human subjects. This is the first-of-its-kind attempt to use solely synthetic data to train a fully-functional iris PAD solution, and despite the performance gap between regular and the proposed methods, this study demonstrates that with the increasing fidelity of generative models, creating such privacy-safe iris PAD methods may be possible. The source codes and generative models trained for this work are offered along with the paper. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 米国における竜巻予測の新しいハイブリッドアプローチ:マルチヘッド注意Kalman-Convolutional BiLSTM
A Novel Hybrid Approach for Tornado Prediction in the United States: Kalman-Convolutional BiLSTM with Multi-Head Attention ( http://arxiv.org/abs/2408.02751v1 ) ライセンス: Link先を確認 | Jiawei Zhou, | (参考訳) 竜巻は最も激しい大気渦現象の1つであり、検出と予測に重大な課題を提起している。
地上観測やレーダーデータに大きく依存する従来の手法は、遠距離での精度の低下や偽陽性率の上昇といった問題によって制限されている。
これらの課題に対処するために、マルチレーダーマルチセンサー(MRMS)システムからシームレスハイブリッドスキャン反射率(SHSR)データセットを用いて、複数のレーダからのデータを統合して精度を高める。
Kalman-Convolutional BiLSTMとMulti-Head Attentionというハイブリッドモデルを導入し、動的状態推定を改善し、データ内の空間的および時間的依存関係をキャプチャする。
このモデルは、K-Nearest Neighbors (KNN) や LightGBM などの手法と比較して、精度、リコール、F1スコア、精度において優れた性能を示す。
この結果は、竜巻予測を改善し、誤警報率を減らすための高度な機械学習技術の可能性を強調している。
今後の研究は、データセットの拡大、革新的なモデルアーキテクチャの探求、そしてより深い洞察を提供するために大規模な言語モデル(LLM)の導入に焦点を当てる。
本研究は竜巻予測の新しいモデルを導入し,予測精度と公衆安全を向上するための堅牢な枠組みを提供する。
Tornadoes are among the most intense atmospheric vortex phenomena and pose significant challenges for detection and forecasting. Conventional methods, which heavily depend on ground-based observations and radar data, are limited by issues such as decreased accuracy over greater distances and a high rate of false positives. To address these challenges, this study utilizes the Seamless Hybrid Scan Reflectivity (SHSR) dataset from the Multi-Radar Multi-Sensor (MRMS) system, which integrates data from multiple radar sources to enhance accuracy. A novel hybrid model, the Kalman-Convolutional BiLSTM with Multi-Head Attention, is introduced to improve dynamic state estimation and capture both spatial and temporal dependencies within the data. This model demonstrates superior performance in precision, recall, F1-Score, and accuracy compared to methods such as K-Nearest Neighbors (KNN) and LightGBM. The results highlight the considerable potential of advanced machine learning techniques to improve tornado prediction and reduce false alarm rates. Future research will focus on expanding datasets, exploring innovative model architectures, and incorporating large language models (LLMs) to provide deeper insights. This research introduces a novel model for tornado prediction, offering a robust framework for enhancing forecasting accuracy and public safety. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# Detach-Rocket アンサンブルを用いた生MEG/EEGデータの分類:多変量時系列解析のための改良ROCKETアルゴリズム
Classification of Raw MEG/EEG Data with Detach-Rocket Ensemble: An Improved ROCKET Algorithm for Multivariate Time Series Analysis ( http://arxiv.org/abs/2408.02760v1 ) ライセンス: Link先を確認 | Adrià Solana, Erik Fransén, Gonzalo Uribarri, | (参考訳) 多変量時系列分類(MTSC、Multivarate Time Series Classification)は、特に神経科学において、複数の脳領域における脳活動の同時記録を含むほとんどのデータ取得モダリティに関するユビキタスな問題である。
近年、ROCKETやMiniRocketのようなランダム畳み込みカーネルモデルは、高い効率の時系列分類アルゴリズムとして登場し、計算負荷の少ない最先端の精度を達成している。
これらのモデルの成功にもかかわらず、神経科学の分野では2つの大きな課題に直面している。
1)脳波やMEGなどの高次元データを扱うのに苦労し、
2)解釈が難しい。
本稿では,この2つの問題をMTSCで解くために考案された新しいROCKETアルゴリズムであるDetach-Rocket Ensembleを提案する。
我々のアルゴリズムはプルーニングを利用してチャネルの重要度を総合的に推定し、より正確な精度とラベルの確率を与える。
本稿では,各チャネルが持つ情報量を制御する合成多変量時系列分類データセットを用いて,まず,分類におけるチャネルの重要性を正確に回復できることを示す。
次に、MEGデータセットとEEGデータセットの2つの実世界のデータセットを用いて、Detach-Rocket Ensembleは、機能工学を必要とせずに、生の脳データに直接適用しても、解釈可能なチャネル関連性と競合する分類精度の両方を提供することができることを示した。
Multivariate Time Series Classification (MTSC) is a ubiquitous problem in science and engineering, particularly in neuroscience, where most data acquisition modalities involve the simultaneous time-dependent recording of brain activity in multiple brain regions. In recent years, Random Convolutional Kernel models such as ROCKET and MiniRocket have emerged as highly effective time series classification algorithms, capable of achieving state-of-the-art accuracy results with low computational load. Despite their success, these types of models face two major challenges when employed in neuroscience: 1) they struggle to deal with high-dimensional data such as EEG and MEG, and 2) they are difficult to interpret. In this work, we present a novel ROCKET-based algorithm, named Detach-Rocket Ensemble, that is specifically designed to address these two problems in MTSC. Our algorithm leverages pruning to provide an integrated estimation of channel importance, and ensembles to achieve better accuracy and provide a label probability. Using a synthetic multivariate time series classification dataset in which we control the amount of information carried by each of the channels, we first show that our algorithm is able to correctly recover the channel importance for classification. Then, using two real-world datasets, a MEG dataset and an EEG dataset, we show that Detach-Rocket Ensemble is able to provide both interpretable channel relevance and competitive classification accuracy, even when applied directly to the raw brain data, without the need for feature engineering. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 医用画像セグメンテーションにおけるアウト・オブ・ディストリビューション検出のための次元低減と最近近傍
Dimensionality Reduction and Nearest Neighbors for Improving Out-of-Distribution Detection in Medical Image Segmentation ( http://arxiv.org/abs/2408.02761v1 ) ライセンス: Link先を確認 | McKell Woodland, Nihil Patel, Austin Castelo, Mais Al Taie, Mohamed Eltaher, Joshua P. Yung, Tucker J. Netherton, Tiffany L. Calderone, Jessica I. Sanchez, Darrel W. Cleere, Ahmed Elsaiey, Nakul Gupta, David Victor, Laura Beretta, Ankit B. Patel Kristy K. Brock, | (参考訳) 臨床的にデプロイされたディープラーニングベースのセグメンテーションモデルは、トレーニングディストリビューション外のデータで失敗することが知られている。
臨床医はセグメンテーションをレビューするが、ほとんどの場合、これらのモデルはうまく機能する傾向にあり、自動化バイアスが悪化する可能性がある。
したがって、推測による分布外画像の検出は、このモデルが失敗する可能性があると臨床医に警告することが重要である。
この研究は、T1強調MRIとCTで肝臓を分画した4つのSwin UNETRとnnU-netモデルのボトルネック特性にMahalanobis(MD)ポストホックを適用した。
主成分分析または一様多様体近似および投影によりボトルネック特性の次元を小さくすることで、モデルが失敗した画像は高い性能と最小の計算負荷で検出された。
さらに、この研究は、近距離KNN(K-th Nears distance)であるMDの非パラメトリックな代替品を探索した。
KNNは、生のボトルネック機能と平均的なボトルネック機能の両方に適用されたとき、MDよりもスケーラビリティとパフォーマンスを大幅に改善した。
Clinically deployed deep learning-based segmentation models are known to fail on data outside of their training distributions. While clinicians review the segmentations, these models tend to perform well in most instances, which could exacerbate automation bias. Therefore, detecting out-of-distribution images at inference is critical to warn the clinicians that the model likely failed. This work applied the Mahalanobis distance (MD) post hoc to the bottleneck features of four Swin UNETR and nnU-net models that segmented the liver on T1-weighted magnetic resonance imaging and computed tomography. By reducing the dimensions of the bottleneck features with either principal component analysis or uniform manifold approximation and projection, images the models failed on were detected with high performance and minimal computational load. In addition, this work explored a non-parametric alternative to the MD, a k-th nearest neighbors distance (KNN). KNN drastically improved scalability and performance over MD when both were applied to raw and average-pooled bottleneck features. | 翻訳日:2024-08-07 15:58:20 公開日:2024-08-05 |
# 量子アルゴリズムにおけるレジリエンス-ランタイムトレードオフ関係
Resilience-Runtime Tradeoff Relations for Quantum Algorithms ( http://arxiv.org/abs/2408.02764v1 ) ライセンス: Link先を確認 | Luis Pedro García-Pintos, Tom O'Leary, Tanmoy Biswas, Jacob Bringewatt, Lukasz Cincio, Lucas T. Brady, Yi-Kai Liu, | (参考訳) アルゴリズム設計における主要なアプローチは、アルゴリズムのコンパイルにおける操作数を最小化することである。
直感的には、操作数の削減はエラーの可能性を減少させる可能性があると期待している。
このパラダイムは量子コンピューティングにおいて特に一般的であり、ゲートの実装が困難であり、ノイズは量子コンピュータの古典的コンピュータよりも急速に性能を低下させる。
ここでは、量子アルゴリズムにおける演算数を最小化することは、非理想的条件下でアルゴリズムを実行する際の誤差を誘発するノイズ感度をもたらす。
これを示すために,アルゴリズムの摂動雑音に対する弾力性(コヒーレントエラー,デフォーカス,デポーラ化ノイズを含む)を特徴付ける枠組みを開発する。
アルゴリズムのいくつかのコンパイルは、あるノイズ源に対して耐性を持ち、他のノイズに対して不安定である。
我々はこれらの結果を,アルゴリズムの演算数と雑音耐性との間のトレードオフ関係に凝縮する。
また、このフレームワークがどのようにして特定のノイズに耐えられるアルゴリズムのコンパイルを識別できるかを示す。
A leading approach to algorithm design aims to minimize the number of operations in an algorithm's compilation. One intuitively expects that reducing the number of operations may decrease the chance of errors. This paradigm is particularly prevalent in quantum computing, where gates are hard to implement and noise rapidly decreases a quantum computer's potential to outperform classical computers. Here, we find that minimizing the number of operations in a quantum algorithm can be counterproductive, leading to a noise sensitivity that induces errors when running the algorithm in non-ideal conditions. To show this, we develop a framework to characterize the resilience of an algorithm to perturbative noises (including coherent errors, dephasing, and depolarizing noise). Some compilations of an algorithm can be resilient against certain noise sources while being unstable against other noises. We condense these results into a tradeoff relation between an algorithm's number of operations and its noise resilience. We also show how this framework can be leveraged to identify compilations of an algorithm that are better suited to withstand certain noises. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# ConDL: ディテクターなしの高密度画像マッチング
ConDL: Detector-Free Dense Image Matching ( http://arxiv.org/abs/2408.02766v1 ) ライセンス: Link先を確認 | Monika Kwiatkowski, Simon Matern, Olaf Hellwich, | (参考訳) 本研究では,高密度画像の対応性を推定するためのディープラーニングフレームワークを提案する。
我々の完全畳み込みモデルは画像の高密度な特徴マップを生成し、各ピクセルは複数の画像にマッチするディスクリプタに関連付けられている。
従来の手法とは異なり、我々のモデルは、視点の変化、照明のバリエーション、影、特異なハイライトなどの大きな歪みを含む合成データに基づいて訓練されている。
対照的な学習を利用することで、特徴写像はこれらの歪みに対する大きな不変性を達成し、ロバストなマッチングを可能にします。
特に,本手法ではキーポイント検出器の必要性を排除し,既存の画像マッチング技術と区別する。
In this work, we introduce a deep-learning framework designed for estimating dense image correspondences. Our fully convolutional model generates dense feature maps for images, where each pixel is associated with a descriptor that can be matched across multiple images. Unlike previous methods, our model is trained on synthetic data that includes significant distortions, such as perspective changes, illumination variations, shadows, and specular highlights. Utilizing contrastive learning, our feature maps achieve greater invariance to these distortions, enabling robust matching. Notably, our method eliminates the need for a keypoint detector, setting it apart from many existing image-matching techniques. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# ヘッセン近似とバックプロパゲーションを用いた4D-Varの自動微分可能な数値モデルと機械学習モデルへの応用
4D-Var using Hessian approximation and backpropagation applied to automatically-differentiable numerical and machine learning models ( http://arxiv.org/abs/2408.02767v1 ) ライセンス: Link先を確認 | Kylen Solvik, Stephen G. Penny, Stephan Hoyer, | (参考訳) 数値天気予知(NWP)モデルと4次元変動(4D-Var)データ同化による観測の制約は,ソフトウェアベースの接線モデルと随伴モデルの開発・保守の必要性から,実際に実施することがしばしば困難である。
最も一般的な4D-Varアルゴリズムの1つはインクリメンタルな更新手順を使用しており、ガウス・ニュートン法の近似であることが示されている。
ここでは, 自動微分をサポートする予測モデルを用いることで, より正確なガウス・ニュートン法の代替近似をヘッセン近似と組み合わせることで適用できることを実証する。
このアプローチは、自動微分をサポートするソフトウェアフレームワーク内で実装された従来の数値モデルや、機械学習(ML)ベースのサロゲートモデルで使用することができる。
我々は,ローレンツ96と準地球栄養モデルに対する新しいアプローチを検証した。
この結果から, 自動微分を支援するために設計された気象モデルを活用する次世代の運用予測システムにおいて, モデリング, データ同化, および新しい技術がより深く統合される可能性が示唆された。
Constraining a numerical weather prediction (NWP) model with observations via 4D variational (4D-Var) data assimilation is often difficult to implement in practice due to the need to develop and maintain a software-based tangent linear model and adjoint model. One of the most common 4D-Var algorithms uses an incremental update procedure, which has been shown to be an approximation of the Gauss-Newton method. Here we demonstrate that when using a forecast model that supports automatic differentiation, an efficient and in some cases more accurate alternative approximation of the Gauss-Newton method can be applied by combining backpropagation of errors with Hessian approximation. This approach can be used with either a conventional numerical model implemented within a software framework that supports automatic differentiation, or a machine learning (ML) based surrogate model. We test the new approach on a variety of Lorenz-96 and quasi-geostrophic models. The results indicate potential for a deeper integration of modeling, data assimilation, and new technologies in a next-generation of operational forecast systems that leverage weather models designed to support automatic differentiation. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# コンテナハンドリング戦略が軽量スループット向上に及ぼす影響の評価
Assessing the Effects of Container Handling Strategies on Enhancing Freight Throughput ( http://arxiv.org/abs/2408.02768v1 ) ライセンス: Link先を確認 | Sarita Rattanakunuprakarn, Mingzhou Jin, Mustafa Can Camur, Xueping Li, | (参考訳) 世界的サプライチェーンと貨物量の増加に伴い、米国は輸送需要の増大に直面している。
道路交通への依存は、鉄道網の未利用と相まって、渋滞した高速道路、輸送時間の延長、コストの上昇、二酸化炭素排出量の増加につながった。
カリフォルニア州のサンペドロ港複合施設(SPPC、San Pedro Port Complex)は、これらの課題のかなりの部分を占めている。
エージェント・ベース・シミュレーションを用いて実世界のシナリオを再現し,SPPC用改良型インターモーダル・インバウンド貨物システムにおける相互作用の複雑さに着目した。
コンテナの分類は、ポートエリアのみではなく、カリフォルニア、ユタ、アリゾナ、ネバダの潜在的な倉庫に移される。
我々の主な目的は、コストと貨物のスループットを考慮して提案システムの効率を評価するとともに、労働力不足の影響についても検討することである。
計算分析は、特定の倉庫に戦略的にインターモーダル機能をインストールすることで、輸送コストを削減し、スループットを向上し、再販を促進することを示唆している。
As global supply chains and freight volumes grow, the U.S. faces escalating transportation demands. The heavy reliance on road transport, coupled with the underutilization of the railway system, results in congested highways, prolonged transportation times, higher costs, and increased carbon emissions. California's San Pedro Port Complex (SPPC), the nation's busiest, incurs a significant share of these challenges. We utilize an agent-based simulation to replicate real-world scenarios, focusing on the intricacies of interactions in a modified intermodal inbound freight system for the SPPC. This involves relocating container classification to potential warehouses in California, Utah, Arizona, and Nevada, rather than exclusively at port areas. Our primary aim is to evaluate the proposed system's efficiency, considering cost and freight throughput, while also examining the effects of workforce shortages. Computational analysis suggests that strategically installing intermodal capabilities in select warehouses can reduce transportation costs, boost throughput, and foster resour | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# 認識から予測へ:行動予測のためのシーケンス推論を活用する
From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation ( http://arxiv.org/abs/2408.02769v1 ) ライセンス: Link先を確認 | Xin Liu, Chao Hao, Zitong Yu, Huanjing Yue, Jingyu Yang, | (参考訳) アクション予測タスクは、観察されたビデオに基づいてどんなアクションが起こるかを予測することであり、モデルが現在を要約し、将来について推論する強力な能力を必要とする。
経験と常識は、異なる行動の間に有意な相関関係があることを示唆し、行動予測タスクに価値のある事前知識を提供する。
しかし、従来の手法は、この基礎となる統計的関係を効果的にモデル化していない。
この問題に対処するために,認識・推論(ARR)による予測(precipation)と呼ばれる注意機構を利用する,新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRはアクション予測タスクをアクション認識とシーケンス推論タスクに分解し、次のアクション予測(NAP)によってアクション間の統計的関係を効果的に学習する。
既存の時間的アグリゲーション戦略と比較して、ARRは観測可能なビデオからより効果的な特徴を抽出し、より合理的な予測を行うことができる。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、ビデオの時間的ダイナミクスを活用してネットワークの推論能力を高める、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
Epic-kitchen-100, EGTEA Gaze+, 50saladsデータセットの大規模な実験により, 提案手法の有効性が示された。
コードはhttps://github.com/linuxsino/ARR.comで公開されている。
The action anticipation task refers to predicting what action will happen based on observed videos, which requires the model to have a strong ability to summarize the present and then reason about the future. Experience and common sense suggest that there is a significant correlation between different actions, which provides valuable prior knowledge for the action anticipation task. However, previous methods have not effectively modeled this underlying statistical relationship. To address this issue, we propose a novel end-to-end video modeling architecture that utilizes attention mechanisms, named Anticipation via Recognition and Reasoning (ARR). ARR decomposes the action anticipation task into action recognition and sequence reasoning tasks, and effectively learns the statistical relationship between actions by next action prediction (NAP). In comparison to existing temporal aggregation strategies, ARR is able to extract more effective features from observable videos to make more reasonable predictions. In addition, to address the challenge of relationship modeling that requires extensive training data, we propose an innovative approach for the unsupervised pre-training of the decoder, which leverages the inherent temporal dynamics of video to enhance the reasoning capabilities of the network. Extensive experiments on the Epic-kitchen-100, EGTEA Gaze+, and 50salads datasets demonstrate the efficacy of the proposed methods. The code is available at https://github.com/linuxsino/ARR. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# 単一点スーパービジョンによる赤外小ターゲット検出方式の精細化
Refined Infrared Small Target Detection Scheme with Single-Point Supervision ( http://arxiv.org/abs/2408.02773v1 ) ライセンス: Link先を確認 | Jinmiao Zhao, Zelin Shi, Chuang Yu, Yunpeng Liu, | (参考訳) 近年,単一点監視による赤外小目標検出が注目されている。
しかし,既存手法の検出精度は,実際のニーズを満たすのが困難である。
そこで本研究では,単一点監視機能を備えた改良型赤外線小目標検出方式を提案する。
具体的には、単一点監視(LESPS)フレームワークを用いたラベルの進化を導入し、このフレームワークに基づく様々な優れた赤外線小ターゲット検出ネットワークの性能について検討する。
一方、包括的性能を改善するため、我々は完全な後処理戦略を構築している。
一方、セグメント化精度を向上させるために、テスト時間拡張(TTA)と条件付きランダムフィールド(CRF)を組み合わせて後処理を行う。
一方, 検出率を向上させるために, 複数の検出結果の利点を十分に考慮し, セグメンテーション画像に精度の低い領域をセントロイド点の形で有意に付加する, 後処理のための調整可能な感度(AS)戦略を導入する。
さらに,このタスクの性能をさらに向上させ,その特性を探求するために,多段損失がきめ細かな検出に有効であることを示す。
一方,テストサンプルに対する合理的なスライディングウィンドウトリミング戦略は,実際のマルチサイズサンプルに対してより優れた性能を有することがわかった。
実験結果から,提案手法がSOTA(State-of-the-art)の性能を実現することを示す。
提案された計画は「ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 1: Weakly Supervised Infrared Small Target Detection」で3位を獲得した。
Recently, infrared small target detection with single-point supervision has attracted extensive attention. However, the detection accuracy of existing methods has difficulty meeting actual needs. Therefore, we propose an innovative refined infrared small target detection scheme with single-point supervision, which has excellent segmentation accuracy and detection rate. Specifically, we introduce label evolution with single point supervision (LESPS) framework and explore the performance of various excellent infrared small target detection networks based on this framework. Meanwhile, to improve the comprehensive performance, we construct a complete post-processing strategy. On the one hand, to improve the segmentation accuracy, we use a combination of test-time augmentation (TTA) and conditional random field (CRF) for post-processing. On the other hand, to improve the detection rate, we introduce an adjustable sensitivity (AS) strategy for post-processing, which fully considers the advantages of multiple detection results and reasonably adds some areas with low confidence to the fine segmentation image in the form of centroid points. In addition, to further improve the performance and explore the characteristics of this task, on the one hand, we construct and find that a multi-stage loss is helpful for fine-grained detection. On the other hand, we find that a reasonable sliding window cropping strategy for test samples has better performance for actual multi-size samples. Extensive experimental results show that the proposed scheme achieves state-of-the-art (SOTA) performance. Notably, the proposed scheme won the third place in the "ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 1: Weakly Supervised Infrared Small Target Detection". | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# シンボリックサムの畳み込み書き換えによる隠れシフト回路の多項式時間古典シミュレーション
Polynomial-Time Classical Simulation of Hidden Shift Circuits via Confluent Rewriting of Symbolic Sums ( http://arxiv.org/abs/2408.02778v1 ) ライセンス: Link先を確認 | Matthew Amy, Lucas Shigeru Stinchcombe, | (参考訳) ロートラーのシフトベント関数アルゴリズムの実装は、近年、古典的なシミュレーションアルゴリズムと量子ハードウェアの両方をテストし、ベンチマークするために使われてきた。
これらの回路は、調整可能な量の非クリフォード資源と決定論的出力を含む多くの好ましい性質を持ち、さらに、効率的にシミュレートできることが知られている量子回路のどのクラスにも属さない。
この回路の族は実際には記号経路積分によって多項式時間でシミュレートできることを示す。
我々は、記号和を畳み込み書き換えシステムに付与し、この書き換えシステムは、多項式時間における隠れシフトに対する回路の経路積分を減少させるのに十分であることを示す。
したがって、このクラスの回路の効率的なシミュラビリティに関する開予想を解く。
Implementations of Roetteler's shifted bent function algorithm have in recent years been used to test and benchmark both classical simulation algorithms and quantum hardware. These circuits have many favorable properties, including a tunable amount of non-Clifford resources and a deterministic output, and moreover do not belong to any class of quantum circuits which is known to be efficiently simulable. We show that this family of circuits can in fact be simulated in polynomial time via symbolic path integrals. We do so by endowing symbolic sums with a confluent rewriting system and show that this rewriting system suffices to reduce the circuit's path integral to the hidden shift in polynomial-time. We hence resolve an open conjecture about the efficient simulability of this class of circuits. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# LR-Net:赤外線小ターゲット検出のための軽量ロバストネットワーク
LR-Net: A Lightweight and Robust Network for Infrared Small Target Detection ( http://arxiv.org/abs/2408.02780v1 ) ライセンス: Link先を確認 | Chuang Yu, Yunpeng Liu, Jinmiao Zhao, Zelin Shi, | (参考訳) 装置の制限と目標固有の特徴の欠如により、既存の赤外線小目標検出法は、実際の総合的な性能要件を満たすのが困難である。
そこで本稿では,複雑な構造を放棄し,検出精度と資源消費の効果的なバランスをとる,革新的な軽量で堅牢なネットワーク(LR-Net)を提案する。
具体的には,軽量かつロバスト性を確保するために,通信路間の情報相互作用を十分に引き出す軽量特徴抽出アテンション(LFEA)モジュールを構築した。
一方,我々は簡易改良機能転送(RFT)モジュールを構築した。
直接クロス層接続と比較すると、RTTモジュールはリソース消費の少ないネットワークの機能改善能力を向上させることができる。
一方,低レベル特徴分布(LFD)戦略では,高レベル特徴の情報を補うために,低レベル特徴分布(LFD)戦略を提案する。
一方,高次特徴に対する低次特徴のガイダンス制約と2つの融合を促進するために,効率的な単純化された双線形補間アテンションモジュール(SBAM)を導入する。
さらに、従来のリサイズ手法を廃止し、マルチスケールサンプルを用いたデータセットに対してより堅牢な、新しいトレーニングと推論のトリミング戦略を採用する。
その結果,我々のLR-NetはSOTA(State-of-the-art)の性能を達成できた。
特に、提案したLR-Netに基づいて、「ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 2: Lightweight Infrared Small Target Detection」で3位を獲得した。
Limited by equipment limitations and the lack of target intrinsic features, existing infrared small target detection methods have difficulty meeting actual comprehensive performance requirements. Therefore, we propose an innovative lightweight and robust network (LR-Net), which abandons the complex structure and achieves an effective balance between detection accuracy and resource consumption. Specifically, to ensure the lightweight and robustness, on the one hand, we construct a lightweight feature extraction attention (LFEA) module, which can fully extract target features and strengthen information interaction across channels. On the other hand, we construct a simple refined feature transfer (RFT) module. Compared with direct cross-layer connections, the RFT module can improve the network's feature refinement extraction capability with little resource consumption. Meanwhile, to solve the problem of small target loss in high-level feature maps, on the one hand, we propose a low-level feature distribution (LFD) strategy to use low-level features to supplement the information of high-level features. On the other hand, we introduce an efficient simplified bilinear interpolation attention module (SBAM) to promote the guidance constraints of low-level features on high-level features and the fusion of the two. In addition, We abandon the traditional resizing method and adopt a new training and inference cropping strategy, which is more robust to datasets with multi-scale samples. Extensive experimental results show that our LR-Net achieves state-of-the-art (SOTA) performance. Notably, on the basis of the proposed LR-Net, we achieve 3rd place in the "ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 2: Lightweight Infrared Small Target Detection". | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# LLM経済論 : 実用性理論によるLCMの行動バイアスのマッピング
LLM economicus? Mapping the Behavioral Biases of LLMs via Utility Theory ( http://arxiv.org/abs/2408.02784v1 ) ライセンス: Link先を確認 | Jillian Ross, Yoon Kim, Andrew W. Lo, | (参考訳) 人間はホモ・エコノミクス(すなわち合理的な経済的な存在)ではない。
人間として、損失回避、アンカー化、フレーミング等、系統的な行動バイアスを示し、最適以下の経済決定を下す。
そのようなバイアスは、大きな言語モデル(LLM)が訓練されているテキストデータに埋め込まれる可能性がある。
LLMにおけるこれらのバイアスを理解することは、人間の意思決定を支援するためにLLMをデプロイするために不可欠である。
本稿では, LLM の経済バイアスを評価するためのアプローチとして, 現代経済理論の核となる実用理論のパラダイムを提案する。
実用性理論は、完全な合理性や人間の行動のようなベンチマークに対する経済行動の定量化と比較を可能にする。
提案手法を実証するために,様々なオープンソース LLM およびクローズドソース LLM の経済挙動を定量化し,比較する。
現在のLLMの経済行動は、完全に人間的でも、完全に経済的なものでもない。
また、現在のLLMは、設定全体にわたって一貫した経済行動を維持するのに苦労している。
最後に、我々のアプローチが経済バイアスの促進などの介入の効果を測る方法について述べる。
Humans are not homo economicus (i.e., rational economic beings). As humans, we exhibit systematic behavioral biases such as loss aversion, anchoring, framing, etc., which lead us to make suboptimal economic decisions. Insofar as such biases may be embedded in text data on which large language models (LLMs) are trained, to what extent are LLMs prone to the same behavioral biases? Understanding these biases in LLMs is crucial for deploying LLMs to support human decision-making. We propose utility theory-a paradigm at the core of modern economic theory-as an approach to evaluate the economic biases of LLMs. Utility theory enables the quantification and comparison of economic behavior against benchmarks such as perfect rationality or human behavior. To demonstrate our approach, we quantify and compare the economic behavior of a variety of open- and closed-source LLMs. We find that the economic behavior of current LLMs is neither entirely human-like nor entirely economicus-like. We also find that most current LLMs struggle to maintain consistent economic behavior across settings. Finally, we illustrate how our approach can measure the effect of interventions such as prompting on economic biases. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# セグメンテーションスタイル発見:皮膚病変画像への応用
Segmentation Style Discovery: Application to Skin Lesion Images ( http://arxiv.org/abs/2408.02787v1 ) ライセンス: Link先を確認 | Kumar Abhishek, Jeremy Kawahara, Ghassan Hamarneh, | (参考訳) 医用画像のセグメンテーションの多様性は、注釈の好みや専門知識、ツールの選択から生じるものであり、十分に文書化されている。
マルチアノテータセグメンテーションのアプローチの大半は、アノテータ固有の嗜好をモデル化することに焦点を当てているが、アノテータセグメンテーション対応が必要である。
本研究では,セグメンテーションスタイル発見の問題を紹介し,アノテータ対応の知識のないイメージマスク対のコーパスから,可塑性,多様性,意味的に一貫性のあるセグメンテーションスタイルを学習するセグメンテーション手法であるStyleSegを提案する。
StyleSegは、4つの公開スキン病変セグメンテーション(SLS)データセットの競合メソッドを一貫して上回っている。
また,アノテータ対応を持つ最大マルチアノテータSLSデータセットであるISIC-MultiAnnotをキュレートした。
コードとデータセットはhttps://github.com/sfu-mial/StyleSegで公開されている。
Variability in medical image segmentation, arising from annotator preferences, expertise, and their choice of tools, has been well documented. While the majority of multi-annotator segmentation approaches focus on modeling annotator-specific preferences, they require annotator-segmentation correspondence. In this work, we introduce the problem of segmentation style discovery, and propose StyleSeg, a segmentation method that learns plausible, diverse, and semantically consistent segmentation styles from a corpus of image-mask pairs without any knowledge of annotator correspondence. StyleSeg consistently outperforms competing methods on four publicly available skin lesion segmentation (SLS) datasets. We also curate ISIC-MultiAnnot, the largest multi-annotator SLS dataset with annotator correspondence, and our results show a strong alignment, using our newly proposed measure AS2, between the predicted styles and annotator preferences. The code and the dataset are available at https://github.com/sfu-mial/StyleSeg. | 翻訳日:2024-08-07 15:48:37 公開日:2024-08-05 |
# GazeXplain: ビジュアルスキャンパスの自然言語説明を予測する学習
GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths ( http://arxiv.org/abs/2408.02788v1 ) ライセンス: Link先を確認 | Xianyu Chen, Ming Jiang, Qi Zhao, | (参考訳) 視覚的なシーンを探索している間、人間のスキャンパスは、その基盤となる注意プロセスによって駆動される。
視覚スキャンパスを理解することは、様々なアプリケーションに不可欠である。
従来のスキャンパスモデルは、説明を与えずに視線の変化の場所とタイミングを予測し、固定の背景にある理論的根拠を理解するギャップを生じさせる。
このギャップを埋めるために、視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。
これには、視線追跡データセット全体にわたる修正のための自然言語説明の注釈付けと、スキャンパスを共同で予測し、説明を生成する注目言語デコーダによる一般的なモデルの提案が含まれる。
ユニークなセマンティックアライメント機構を統合して、一般化のためのクロスデータセットコトレーニングアプローチとともに、固定と説明の整合性を高める。
これらの新規性は、説明可能なヒト視覚スキャンパス予測のための包括的で適応可能なソリューションを提供する。
多様な視線追跡データセットに関する大規模な実験は、スキャンパス予測と説明の両方において、GazeXplainの有効性を示し、人間の視覚的注意と認知プロセスに関する貴重な洞察を提供する。
While exploring visual scenes, humans' scanpaths are driven by their underlying attention processes. Understanding visual scanpaths is essential for various applications. Traditional scanpath models predict the where and when of gaze shifts without providing explanations, creating a gap in understanding the rationale behind fixations. To bridge this gap, we introduce GazeXplain, a novel study of visual scanpath prediction and explanation. This involves annotating natural-language explanations for fixations across eye-tracking datasets and proposing a general model with an attention-language decoder that jointly predicts scanpaths and generates explanations. It integrates a unique semantic alignment mechanism to enhance the consistency between fixations and explanations, alongside a cross-dataset co-training approach for generalization. These novelties present a comprehensive and adaptable solution for explainable human visual scanpath prediction. Extensive experiments on diverse eye-tracking datasets demonstrate the effectiveness of GazeXplain in both scanpath prediction and explanation, offering valuable insights into human visual attention and cognitive processes. | 翻訳日:2024-08-07 15:48:36 公開日:2024-08-05 |
# 皮膚画像からの病変上昇予測は診断を改善する
Lesion Elevation Prediction from Skin Images Improves Diagnosis ( http://arxiv.org/abs/2408.02792v1 ) ライセンス: Link先を確認 | Kumar Abhishek, Ghassan Hamarneh, | (参考訳) 深層学習による皮膚病変画像解析のためのコンピュータ支援診断が皮膚科医のパフォーマンスレベルに近づいている一方で, 形状, テクスチャ, 色濃度, 照明などの付加的な特徴を取り入れることで, 病変診断性能がさらに向上することを示す研究がいくつかある。
本研究は, 皮膚病変の上昇を予測し, 有効性について検討し, 皮膚病変の上昇ラベルの予測と活用の可能性について検討する。
具体的には、深層学習モデルを用いて、2次元皮膚病変画像から画像レベルの病変標高ラベルを予測する。
我々は,Derm7ptデータセットの標高予測精度を検証し,標高予測モデルを用いて,ISIC 2016, 2017, 2018 Challengeデータセット, MSK, DermoFitの5つのデータセットの標高ラベルを推定する。
診断モデルに対する補助的な入力として, これらの評価値を用いたクロスドメイン一般化の評価を行い, AUROC が6.29%, 2.69%まで改善し, 分類性能が向上したことを示す。
コードはhttps://github.com/sfu-mial/LesionElevation.comで公開されている。
While deep learning-based computer-aided diagnosis for skin lesion image analysis is approaching dermatologists' performance levels, there are several works showing that incorporating additional features such as shape priors, texture, color constancy, and illumination further improves the lesion diagnosis performance. In this work, we look at another clinically useful feature, skin lesion elevation, and investigate the feasibility of predicting and leveraging skin lesion elevation labels. Specifically, we use a deep learning model to predict image-level lesion elevation labels from 2D skin lesion images. We test the elevation prediction accuracy on the derm7pt dataset, and use the elevation prediction model to estimate elevation labels for images from five other datasets: ISIC 2016, 2017, and 2018 Challenge datasets, MSK, and DermoFit. We evaluate cross-domain generalization by using these estimated elevation labels as auxiliary inputs to diagnosis models, and show that these improve the classification performance, with AUROC improvements of up to 6.29% and 2.69% for dermoscopic and clinical images, respectively. The code is publicly available at https://github.com/sfu-mial/LesionElevation. | 翻訳日:2024-08-07 15:48:36 公開日:2024-08-05 |
# エンティティ中心の質問に答えるエンティティ検索
Entity Retrieval for Answering Entity-Centric Questions ( http://arxiv.org/abs/2408.02795v1 ) ライセンス: Link先を確認 | Hassan S. Shavarani, Anoop Sarkar, | (参考訳) 質問と索引付けされた文書の類似性は、検索強化された質問応答のための文書検索において重要な要素である。
これは典型的には関連文書を取得する唯一の方法であるが、エンティティ中心の質問を扱う場合の唯一のアプローチではない。
本研究では,質問文書の類似性に頼らず,検索文書を識別するために,質問内の健全なエンティティに依存する新しい検索手法であるEntity Retrievalを提案する。
本稿では,エンティティ検索と比較して,高密度かつスパースな検索手法の性能を詳細に分析する。
以上の結果から,本手法はエンティティ中心の質問に対してより正確な回答をもたらすだけでなく,より効率的に操作できることが判明した。
The similarity between the question and indexed documents is a crucial factor in document retrieval for retrieval-augmented question answering. Although this is typically the only method for obtaining the relevant documents, it is not the sole approach when dealing with entity-centric questions. In this study, we propose Entity Retrieval, a novel retrieval method which rather than relying on question-document similarity, depends on the salient entities within the question to identify the retrieval documents. We conduct an in-depth analysis of the performance of both dense and sparse retrieval methods in comparison to Entity Retrieval. Our findings reveal that our method not only leads to more accurate answers to entity-centric questions but also operates more efficiently. | 翻訳日:2024-08-07 15:48:36 公開日:2024-08-05 |
# ガウス混合に基づくステレオマッチングのための証拠学習
Gaussian Mixture based Evidential Learning for Stereo Matching ( http://arxiv.org/abs/2408.02796v1 ) ライセンス: Link先を確認 | Weide Liu, Xingxing Wang, Lu Wang, Jun Cheng, Fayao Liu, Xulei Yang, | (参考訳) 本稿では,ロバストなステレオマッチングのための新しいガウス混合法を提案する。
従来の1つのガウス分布に依存する明らかな深層学習アプローチとは違い,我々のフレームワークは,個々の画像データがステレオマッチングにおける混合ガウス分布に固執していることを示唆している。
この仮定はより正確なピクセルレベルの予測をもたらし、より正確に現実世界の画像分布を反映する。
各混合成分の中間体として逆ガンマ分布を更に活用することにより、確率的モデルは、単一のガウスモデルと比較して、より優れた深さ推定を実現し、モデルの不確実性を効果的に捕捉し、強力なクロスドメイン生成能力を実現する。
我々は、Scene Flowデータセットを用いてモデルをトレーニングし、KITTI 2015とMiddlebury 2014でテストすることでステレオマッチングの手法を評価した。
実験結果から,本手法は信頼性の高い方法でベースライン手法に改良をもたらすことが明らかとなった。
特に、本手法は、ドメイン内検証データとドメイン間データセットの両方に対して、その有効性とステレオマッチングタスクの堅牢性を示す、最先端の新たな結果を得た。
In this paper, we introduce a novel Gaussian mixture based evidential learning solution for robust stereo matching. Diverging from previous evidential deep learning approaches that rely on a single Gaussian distribution, our framework posits that individual image data adheres to a mixture-of-Gaussian distribution in stereo matching. This assumption yields more precise pixel-level predictions and more accurately mirrors the real-world image distribution. By further employing the inverse-Gamma distribution as an intermediary prior for each mixture component, our probabilistic model achieves improved depth estimation compared to its counterpart with the single Gaussian and effectively captures the model uncertainty, which enables a strong cross-domain generation ability. We evaluated our method for stereo matching by training the model using the Scene Flow dataset and testing it on KITTI 2015 and Middlebury 2014. The experiment results consistently show that our method brings improvements over the baseline methods in a trustworthy manner. Notably, our approach achieved new state-of-the-art results on both the in-domain validated data and the cross-domain datasets, demonstrating its effectiveness and robustness in stereo matching tasks. | 翻訳日:2024-08-07 15:48:36 公開日:2024-08-05 |
# 配水網における漏れ検出と局所化のためのアルゴリズムインフォームドグラフニューラルネットワーク
Algorithm-Informed Graph Neural Networks for Leakage Detection and Localization in Water Distribution Networks ( http://arxiv.org/abs/2408.02797v1 ) ライセンス: Link先を確認 | Zepeng Zhang, Olga Fink, | (参考訳) 水分散ネットワーク(WDN)の効率的かつ持続可能な管理には,漏れの検出と位置決めが重要な課題である。
WDNの固有のグラフ構造を利用して、近年のアプローチではグラフベースのデータ駆動方式が採用されている。
しかし、これらの手法は、分配データとうまく機能するショートカットを学習するが、分配データの一般化に失敗することが多い。
この制限に対処し、古典的アルゴリズムの完全一般化能力に着想を得たアルゴリズムインフォームドグラフニューラルネットワーク(AIGNN)を提案する。
WDNがフローネットワークとして機能していることを認識し、最大フロー情報を組み込むことは、圧力を推測するのに有益である。
提案フレームワークでは、まずAIGNNをトレーニングし、最大フロー問題を解決するためにFord-Fulkersonアルゴリズムをエミュレートする。
このアルゴリズム知識は、WDNの圧力推定問題に対処するために転送される。
2つのAIGNNが展開され、1つは現在の測定値に基づいて圧力を再構築し、もう1つは以前の測定値に基づいて圧力を予測する。
再構成器と予測器の出力を比較して漏洩を検出する。
アルゴリズムのような推論のためにAIGNNを事前訓練することにより、よりタスク関連で一般化可能な特徴を抽出することが期待されている。
実験により,提案手法はアルゴリズム知識を組み込まないGNNと比較して,より優れた一般化能力で優れた結果が得られることが示された。
Detecting and localizing leakages is a significant challenge for the efficient and sustainable management of water distribution networks (WDN). Leveraging the inherent graph structure of WDNs, recent approaches have used graph-based data-driven methods. However, these methods often learn shortcuts that work well with in-distribution data but fail to generalize to out-of-distribution data. To address this limitation and inspired by the perfect generalization ability of classical algorithms, we propose an algorithm-informed graph neural network (AIGNN). Recognizing that WDNs function as flow networks, incorporating max-flow information can be beneficial for inferring pressures. In the proposed framework, we first train AIGNN to emulate the Ford-Fulkerson algorithm for solving max-flow problems. This algorithmic knowledge is then transferred to address the pressure estimation problem in WDNs. Two AIGNNs are deployed, one to reconstruct pressure based on the current measurements, and another to predict pressure based on previous measurements. Leakages are detected and localized by comparing the outputs of the reconstructor and the predictor. By pretraining AIGNNs to reason like algorithms, they are expected to extract more task-relevant and generalizable features. Experimental results demonstrate that the proposed algorithm-informed approach achieves superior results with better generalization ability compared to GNNs that do not incorporate algorithmic knowledge. | 翻訳日:2024-08-07 15:48:36 公開日:2024-08-05 |
# 顔とポリテネスによるウィキペディアのジェンダーとパワーの検討
Examining Gender and Power on Wikipedia Through Face and Politeness ( http://arxiv.org/abs/2408.02798v1 ) ライセンス: Link先を確認 | Adil Soubki, Shyne Choi, Owen Rambow, | (参考訳) 社会言語学理論の2つの相互依存概念(顔の振る舞いと丁寧さ)を組み合わせることで談話を分析する枠組みを提案する。
礼儀正しくは既存のツールやデータも頑丈だが、顔の動作にはリソースが不足している。
我々は、ウィキペディアのトークページに顔のアクトをアノテートして作成した新しいコーパスを導入し、これを使って顔のアクトタグを訓練する。
次に、ウィキペディアの編集者間の議論において、顔と礼儀正しさがジェンダーとパワーとどのように相互作用するかを研究するために、我々のフレームワークを使用します。
また, 女性のウィキペディア語は, 従来の研究と矛盾しないほど丁寧であるだけでなく, 顔のハミングに向ける言語がはるかに多いことが示唆された。
興味深いことに、この区別はかつては行政権力を持つ編集者に限られていた。
We propose a framework for analyzing discourse by combining two interdependent concepts from sociolinguistic theory: face acts and politeness. While politeness has robust existing tools and data, face acts are less resourced. We introduce a new corpus created by annotating Wikipedia talk pages with face acts and we use this to train a face act tagger. We then employ our framework to study how face and politeness interact with gender and power in discussions between Wikipedia editors. Among other findings, we observe that female Wikipedians are not only more polite, which is consistent with prior studies, but that this difference corresponds with significantly more language directed at humbling aspects of their own face. Interestingly, the distinction nearly vanishes once limiting to editors with administrative power. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# $\ell_1$正規化によるスパースディープラーニングモデル
Sparse Deep Learning Models with the $\ell_1$ Regularization ( http://arxiv.org/abs/2408.02801v1 ) ライセンス: Link先を確認 | Lixin Shen, Rui Wang, Yuesheng Xu, Mingsong Yan, | (参考訳) スパースニューラルネットワークは、複雑さを減らすためにディープラーニングに非常に望ましい。
本研究の目的は,正規化パラメータの選択が学習ニューラルネットワークのスパーシリティレベルにどのように影響するかを検討することである。
まず、統計学的観点から、単値と複数値の正規化パラメータを含む深層学習モデルである$\ell_1$-normスペーサリティを導出する。
次に、正規化パラメータの選択の観点から、正規化ニューラルネットワークのスパーシリティレベルを特徴付ける。
特徴量に基づいて、正規化パラメータを選択するための反復アルゴリズムを開発し、結果の深部ニューラルネットワークの重みパラメータが所定の間隔レベルを享受できるようにした。
数値実験により,提案アルゴリズムが望ましい正規化パラメータを選択し,所定間隔レベルと良好な近似精度の両方を有する対応するニューラルネットワークを得る場合の有効性を実証した。
Sparse neural networks are highly desirable in deep learning in reducing its complexity. The goal of this paper is to study how choices of regularization parameters influence the sparsity level of learned neural networks. We first derive the $\ell_1$-norm sparsity-promoting deep learning models including single and multiple regularization parameters models, from a statistical viewpoint. We then characterize the sparsity level of a regularized neural network in terms of the choice of the regularization parameters. Based on the characterizations, we develop iterative algorithms for selecting regularization parameters so that the weight parameters of the resulting deep neural network enjoy prescribed sparsity levels. Numerical experiments are presented to demonstrate the effectiveness of the proposed algorithms in choosing desirable regularization parameters and obtaining corresponding neural networks having both of predetermined sparsity levels and satisfactory approximation accuracy. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# エアトラベルの破壊を解読する - 機械学習アプローチ
Deciphering Air Travel Disruptions: A Machine Learning Approach ( http://arxiv.org/abs/2408.02802v1 ) ライセンス: Link先を確認 | Aravinda Jatavallabha, Jacob Gerlach, Aadithya Naresh, | (参考訳) 本研究は、出発時間、航空会社、空港などの要因を調べることにより、飛行遅延傾向を調査する。
遅延に対する様々なソースのコントリビューションを予測するために、回帰機械学習手法を採用している。
LSTM、ハイブリッドLSTM、Bi-LSTMなどの時系列モデルは、多重回帰、決定木回帰、ランダムフォレスト回帰、ニューラルネットワークといったベースライン回帰モデルと比較される。
ベースラインモデルにかなりの誤差があるにもかかわらず、この研究は遅延予測における影響のある特徴を特定し、潜在的に飛行計画戦略を伝えることを目的としている。
従来の研究とは異なり、この研究は回帰作業に重点を置いており、飛行遅延を予測するための時系列モデルの利用を探求している。
各遅延成分(セキュリティ、天候など)を独立して分析することで、航空業務に関する洞察を提供する。
This research investigates flight delay trends by examining factors such as departure time, airline, and airport. It employs regression machine learning methods to predict the contributions of various sources to delays. Time-series models, including LSTM, Hybrid LSTM, and Bi-LSTM, are compared with baseline regression models such as Multiple Regression, Decision Tree Regression, Random Forest Regression, and Neural Network. Despite considerable errors in the baseline models, the study aims to identify influential features in delay prediction, potentially informing flight planning strategies. Unlike previous work, this research focuses on regression tasks and explores the use of time-series models for predicting flight delays. It offers insights into aviation operations by independently analyzing each delay component (e.g., security, weather). | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# SiCo:Informed Decision-Makingのためのサイズ調整可能な仮想トライオンアプローチ
SiCo: A Size-Controllable Virtual Try-On Approach for Informed Decision-Making ( http://arxiv.org/abs/2408.02803v1 ) ライセンス: Link先を確認 | Sherry X. Chen, Alex Christopher Lim, Yimeng Liu, Pradeep Sen, Misha Sra, | (参考訳) VTO(Virtual try-on)アプリケーションは、購入決定を行う前に、ユーザが衣服をプレビューできるようにすることで、オンラインショッピング体験を改善することを目的としている。
しかしながら、多くのVTOツールは、衣服のサイズと使用者の体の大きさの重大な関係を考慮せず、衣類を視覚化する際には、一様のアプローチを採用することが多い。
その結果、低いサイズのレコメンデーションと購入決定が、リターン率の上昇につながります。
この制限に対処するため、オンラインのVTOシステムであるSiCoを導入し、ユーザーは自分の画像をアップロードし、さまざまなサイズの服が自分の体にどのように見えるかを視覚化して、よりインフォームドな購入決定を下すことができる。
ユーザスタディでは、ベースラインVTOよりもSiCoの方が優れています。
以上の結果から,本手法は,身体に着用する衣服の外観を計測するユーザ能力を著しく向上させ,目的に合致する衣服のサイズを選択することへの自信を高めることが示唆された。
評価の結果,VTOデザインはリターン率を低減し,オンライン衣料品ショッピング体験を向上する可能性が示唆された。
私たちのコードはhttps://github.com/SherryXTChen/SiCo.comで公開されています。
Virtual try-on (VTO) applications aim to improve the online shopping experience by allowing users to preview garments, before making purchase decisions. However, many VTO tools fail to consider the crucial relationship between a garment's size and the user's body size, often employing a one-size-fits-all approach when visualizing a clothing item. This results in poor size recommendations and purchase decisions leading to increased return rates. To address this limitation, we introduce SiCo, an online VTO system, where users can upload images of themselves and visualize how different sizes of clothing would look on their body to help make better-informed purchase decisions. Our user study shows SiCo's superiority over baseline VTO. The results indicate that our approach significantly enhances user ability to gauge the appearance of outfits on their bodies and boosts their confidence in selecting clothing sizes that match desired goals. Based on our evaluation, we believe our VTO design has the potential to reduce return rates and enhance the online clothes shopping experience. Our code is available at https://github.com/SherryXTChen/SiCo. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 雑音量子回路におけるスクランブル誘起絡み抑制
Scrambling-induced entanglement suppression in noisy quantum circuits ( http://arxiv.org/abs/2408.02810v1 ) ライセンス: Link先を確認 | Lea Haas, Christian Carisch, Oded Zilberberg, | (参考訳) 量子情報スクランブル(quantum information scrambling)は、量子系の熱化中に発生し、量子情報の非局在化を記述する過程である。
これは、量子技術の鍵となるリソースである絡み合いと、量子多体現象の秩序パラメータと密接に結びついている。
量子情報のスクランブルを実験的に検証したマルチキュービットテレポーテーションプロトコルにおける劣化雑音の影響について検討する。
我々は、スクランブルは情報分布を向上させるが、ノイズに敏感であり、テレポーテーションの忠実度が低下し、量子状態の古典的な混合が増加することを発見した。
混合状態の絡み合いの指標として負性度を用いると、弱い縮退雑音下での効率的な絡み合い生成と強い縮退雑音下での絡み合い抑制という、2つの基本的に異なる絡み合い機構を同定する。
後者では、テレポーテーションは、スクランブルが生成できるものよりも、より絡み合いを消費することを示している。
SWAPゲートベースのテレポーテーションプロトコルとの比較により、絡み込み抑制はスクランブル機構の結果であることを確認した。
本研究は, 熱処理時の情報力学が, 劣化雑音の影響を強く受けていることを示唆し, 現在のノイズ量子デバイスでは, 長距離情報交換よりも局所情報交換の方が好ましいことを示す。
Quantum information scrambling is a process happening during thermalization in quantum systems and describes the delocalization of quantum information. It is closely tied to entanglement, a key resource for quantum technologies and an order parameter for quantum many-body phenomena. We investigate the effect of dephasing noise on a multi-qubit teleportation protocol that experimentally validated quantum information scrambling. We find that while scrambling enhances information distribution, it is highly noise-sensitive, leading to decreased teleportation fidelity and an increase in the classical mixing of the quantum state. Using negativity as a mixed-state entanglement measure, we identify two fundamentally different entanglement-scaling regimes: efficient entanglement generation under weak dephasing noise, and entanglement suppression under strong dephasing noise. We show that in the latter, the teleportation consumes more entanglement than the scrambling is able to create. Comparison with a SWAP-gate-based teleportation protocol confirms that the entanglement suppression is a consequence of the scrambling mechanism. Our findings suggest that the information dynamics during thermalization is critically affected by dephasing noise, and confirm that in present-day noisy quantum devices, local information exchange is preferable over long-range information scrambling. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# REGAIの開発: 生成人工知能を実現するルーブリック
Development of REGAI: Rubric Enabled Generative Artificial Intelligence ( http://arxiv.org/abs/2408.02811v1 ) ライセンス: Link先を確認 | Zach Johnson, Jeremy Straub, | (参考訳) 本稿では,新しい検索拡張生成(RAG)と大規模言語モデル(LLM)ベースの人工知能(AI)技術であるルーリック有効生成人工知能(REGAI)を提示し,評価する。
REGAIは、システムによって手動または自動で作成できるルーブリックを使用して、評価目的のLLMの性能を向上させる。
REGAIは従来のLLMとRAGベースのLLM技術の両方の性能を改善している。
本稿では、REGAIについて述べ、その性能に関するデータを提示し、その技術のいくつかの応用分野について論じる。
This paper presents and evaluates a new retrieval augmented generation (RAG) and large language model (LLM)-based artificial intelligence (AI) technique: rubric enabled generative artificial intelligence (REGAI). REGAI uses rubrics, which can be created manually or automatically by the system, to enhance the performance of LLMs for evaluation purposes. REGAI improves on the performance of both classical LLMs and RAG-based LLM techniques. This paper describes REGAI, presents data regarding its performance and discusses several possible application areas for the technology. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 信頼・認識型防衛によるフェデレーション学習における悪意ある攻撃の軽減
Mitigating Malicious Attacks in Federated Learning via Confidence-aware Defense ( http://arxiv.org/abs/2408.02813v1 ) ライセンス: Link先を確認 | Qilei Li, Ahmed M. Abdelmoniem, | (参考訳) Federated Learning(FL)は、複数のクライアントがプライベートなローカルデータを共有せずにグローバルモデルのトレーニングを行うことのできる、新興の分散機械学習パラダイムである。
しかし、FLシステムは悪意のあるクライアントからの攻撃に弱いため、データ中毒やモデル中毒によってグローバルモデルの性能を低下させることができる。
既存の防衛方法は、ビザンティン攻撃やバックドア攻撃のような単一の攻撃に重点を置いており、ラベルフリップやラベルシャッフルのような潜在的なデータ中毒攻撃に対して効果がないことが多い。
さらに、これらの手法は、悪意のある更新を検出し、処理する際に、正確さと堅牢性に欠けることが多い。
これらの問題に対処するため,モデル信頼性スコアに基づく新しい手法を提案し,悪意のあるクライアントを検知・防御するクライアントモデル更新の不確実性を評価する。
我々のアプローチは、モデル中毒とデータ中毒攻撃の両方に包括的に有効であり、潜在的に悪意のある更新が集約されるのを正確に識別し、緩和することができる。
実験の結果,FLシステムの各種攻撃に対するロバスト性は向上し,モデル精度と安定性が向上した。
Federated Learning (FL) is an emerging distributed machine learning paradigm that allows multiple clients to collaboratively train a global model without sharing private local data. However, FL systems are vulnerable to attacks from malicious clients, who can degrade the global model performance through data poisoning and model poisoning. Existing defense methods typically focus on a single type of attack, such as Byzantine attacks or backdoor attacks, and are often ineffective against potential data poisoning attacks like label flipping and label shuffling. Additionally, these methods often lack accuracy and robustness in detecting and handling malicious updates. To address these issues, we propose a novel method based on model confidence scores, which evaluates the uncertainty of client model updates to detect and defend against malicious clients. Our approach is comprehensively effective for both model poisoning and data poisoning attacks and is capable of accurately identifying and mitigating potential malicious updates from being aggregated. Experimental results demonstrate that our method significantly improves the robustness of FL systems against various types of attacks, also achieving higher model accuracy and stability across various scenarios. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 事前トレーニングされたエンコーダ推論:ダウンストリーム機械学習サービスにおけるアップストリームエンコーダの探索
Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services ( http://arxiv.org/abs/2408.02814v1 ) ライセンス: Link先を確認 | Shaopeng Fu, Xuexue Sun, Ke Qing, Tianhang Zheng, Di Wang, | (参考訳) トレーニング済みのエンコーダはオンラインで簡単にアクセスでき、ダウンストリーム機械学習(ML)サービスを迅速に構築できるが、これらのエンコーダのセキュリティとプライバシを侵害するように設計されている。
ほとんどのアタックは上流側のエンコーダをターゲットにしているが、下流のMLサービスにデプロイすると、エンコーダが脅かされるかは不明だ。
この攻撃は、下流のMLサービスの後ろに隠されたエンコーダに対してプライバシー上の脅威を投稿する。
ターゲットとする下流サービスと候補エンコーダのセットにのみAPIアクセスを提供することで、PEI攻撃はターゲットサービスによってどのエンコーダが秘密裏に使用されているかを推測することができる。
我々は,画像分類,テキスト分類,テキスト・ツー・イメージ生成という3つの下流タスクにおいて,実世界のエンコーダに対するPEIの攻撃性能を評価する。
実験により、PEI攻撃は、ほとんどのケースにおいて隠れエンコーダを明らかにすることに成功し、隠れエンコーダが候補セットに含まれていない場合でも、ほとんど間違いを犯さないことが示された。
直近の視覚言語モデルであるLLaVAのケーススタディも実施し、PEI攻撃は敵攻撃などの他のML攻撃を支援するのに有用であることを示した。
コードはhttps://github.com/fshp971/encoder-inferenceで入手できる。
Though pre-trained encoders can be easily accessed online to build downstream machine learning (ML) services quickly, various attacks have been designed to compromise the security and privacy of these encoders. While most attacks target encoders on the upstream side, it remains unknown how an encoder could be threatened when deployed in a downstream ML service. This paper unveils a new vulnerability: the Pre-trained Encoder Inference (PEI) attack, which posts privacy threats toward encoders hidden behind downstream ML services. By only providing API accesses to a targeted downstream service and a set of candidate encoders, the PEI attack can infer which encoder is secretly used by the targeted service based on candidate ones. We evaluate the attack performance of PEI against real-world encoders on three downstream tasks: image classification, text classification, and text-to-image generation. Experiments show that the PEI attack succeeds in revealing the hidden encoder in most cases and seldom makes mistakes even when the hidden encoder is not in the candidate set. We also conducted a case study on one of the most recent vision-language models, LLaVA, to illustrate that the PEI attack is useful in assisting other ML attacks such as adversarial attacks. The code is available at https://github.com/fshp971/encoder-inference. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 曲がりくねった時空における光子対の絡み合いホロノミー
Entanglement Holonomy for Photon Pairs in Curved Spacetime ( http://arxiv.org/abs/2408.02815v1 ) ライセンス: Link先を確認 | Mark T. Lusk, | (参考訳) 分極ホロノミーは、カー計量の閉軌道のクラスを通過する最大絡み合った光子対に対して解析的に決定される。
これは構成積状態とは無関係な絡み合いホロノミーを定義し、研究するために用いられる。
Polarization holonomy is analytically determined for maximally entangled photon pairs that transit a class of closed trajectories in the Kerr metric. This is used to define and investigate an entanglement holonomy not associated with constituent product states. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 動的依存をコードグラフでモデル化してプログラム実行を予測する学習
Learning to Predict Program Execution by Modeling Dynamic Dependency on Code Graphs ( http://arxiv.org/abs/2408.02816v1 ) ライセンス: Link先を確認 | Cuong Chi Le, Hoang Nhat Phan, Huy Nhat Phan, Tien N. Nguyen, Nghi D. Q. Bui, | (参考訳) 実行せずにプログラムの振る舞いを予測することは、ソフトウェア工学において不可欠で困難なタスクである。
従来のモデルは、コード内の動的依存関係やインタラクションをキャプチャするのに苦労することが多い。
本稿では,コードカバレッジを予測し,動的依存学習を通じて実行時のエラーを検出する,CodeFlowrepresentsという新しい機械学習ベースのフレームワークを紹介する。
制御フローグラフ(CFG)を利用することで、CodeFlowは実行可能な実行パスと異なるステートメント間の関係を表現し、プログラムの振る舞いを包括的に理解する。
実行パスを記述するためにCFGを構築し、CFGノードのベクトル表現を学び、静的な制御-フローの依存関係をキャプチャする。
さらに、実行中のステートメント間の影響を反映した実行トレースを通じて動的依存関係を学習する。
このアプローチは、コードカバレッジの正確な予測と実行時のエラーの識別を可能にする。
実証的な評価では、コードカバレッジ予測精度が大幅に向上し、現在のモデルを上回る、実行時のエラーの効果的なローカライゼーションが実現された。
Predicting program behavior without execution is an essential and challenging task in software engineering. Traditional models often struggle to capture dynamic dependencies and interactions within code. This paper introduces a novel machine learning-based framework called CodeFlowrepresents, which predicts code coverage and detects runtime errors through Dynamic Dependencies Learning. Utilizing control flow graphs (CFGs), CodeFlowrepresents all possible execution paths and the relationships between different statements, offering a comprehensive understanding of program behavior. It constructs CFGs to depict execution paths and learns vector representations for CFG nodes, capturing static control-flow dependencies. Additionally, it learns dynamic dependencies through execution traces, which reflect the impacts among statements during execution. This approach enables accurate prediction of code coverage and identification of runtime errors. Empirical evaluations show significant improvements in code coverage prediction accuracy and effective localization of runtime errors, surpassing current models. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 反復的意義による継続的モニタリング
Continuous Monitoring via Repeated Significance ( http://arxiv.org/abs/2408.02821v1 ) ライセンス: Link先を確認 | Eric Bax, Arundhyoti Sarkar, Alex Shtoff, | (参考訳) ABテストで統計的に有意な結果を宣言するために、複数の中間分析において統計的に重要なことを要求すると、各中間解析において重要度に対する厳密な要求がより少なくなる。
繰り返し繰り返される重要度は、テストに関する仮定に基づいて構築されたメソッドとよく競合する -- 優先順位を評価することは不可能であり、経験的に評価するために余分なデータを必要とする可能性がある。代わりに、反復的な重要度を要求することは、データ自体に直接、必要となる結果が偶然に起因していないことを証明できるようにする。我々は、反復的な重要度を持つテストを適用して、非有界テストの継続的な監視 -- 実行時間や観測回数に制約のないテスト -- をどのように行うかを説明する。
非有界テストの重要度に対する一定の要件を維持することは不可能であるが、その目標に任意に近づくことは可能である。
Requiring statistical significance at multiple interim analyses to declare a statistically significant result for an AB test allows less stringent requirements for significance at each interim analysis. Repeated repeated significance competes well with methods built on assumptions about the test -- assumptions that may be impossible to evaluate a priori and may require extra data to evaluate empirically. Instead, requiring repeated significance allows the data itself to prove directly that the required results are not due to chance alone. We explain how to apply tests with repeated significance to continuously monitor unbounded tests -- tests that do not have an a priori bound on running time or number of observations. We show that it is impossible to maintain a constant requirement for significance for unbounded tests, but that we can come arbitrarily close to that goal. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# Wave-RVFL:ウェーブロス関数に基づくランダムニューラルネットワーク
Wave-RVFL: A Randomized Neural Network Based on Wave Loss Function ( http://arxiv.org/abs/2408.02824v1 ) ライセンス: Link先を確認 | M. Sajid, A. Quadir, M. Tanveer, | (参考訳) ランダムベクトル汎関数リンク(RVFL)ネットワークは、機械学習の分野における強力な一般化能力についてよく考えられている。
しかし、その正方損失関数に固有の依存関係はノイズや外周の影響を受けやすい。
さらに、RVFLの未知パラメータの計算は、その拡張性を制約するトレーニングサンプル全体の行列逆転を必要とする。
これらの課題に対処するために、ウェーブロス関数を組み込んだRVFLモデルであるWave-RVFLを提案する。
本稿では,適応モーメント推定(Adam)アルゴリズムを用いて,ウェーブ-RVFLの最適化問題を定式化して解く。
Wave-RVFLは、偏差の過給化を防止し、ノイズと外れ値を管理するためのバランスの取れたアプローチを維持することにより、ノイズと外れ値に対する堅牢性を示す。
提案するWave-RVFLモデルは,複数のUCIデータセットに対して,ノイズや外れ値の追加の有無に関わらず,さまざまな領域やサイズで評価される。
実験結果から、Wave-RVFLの性能とロバスト性はベースラインモデルよりも優れており、非常に効果的でスケーラブルな分類ソリューションとして確立されている。
The random vector functional link (RVFL) network is well-regarded for its strong generalization capabilities in the field of machine learning. However, its inherent dependencies on the square loss function make it susceptible to noise and outliers. Furthermore, the calculation of RVFL's unknown parameters necessitates matrix inversion of the entire training sample, which constrains its scalability. To address these challenges, we propose the Wave-RVFL, an RVFL model incorporating the wave loss function. We formulate and solve the proposed optimization problem of the Wave-RVFL using the adaptive moment estimation (Adam) algorithm in a way that successfully eliminates the requirement for matrix inversion and significantly enhances scalability. The Wave-RVFL exhibits robustness against noise and outliers by preventing over-penalization of deviations, thereby maintaining a balanced approach to managing noise and outliers. The proposed Wave-RVFL model is evaluated on multiple UCI datasets, both with and without the addition of noise and outliers, across various domains and sizes. Empirical results affirm the superior performance and robustness of the Wave-RVFL compared to baseline models, establishing it as a highly effective and scalable classification solution. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# 環境構成によるAIベースのソフトウェアシステムの変動性について
On the Variability of AI-based Software Systems Due to Environment Configurations ( http://arxiv.org/abs/2408.02825v1 ) ライセンス: Link先を確認 | Musfiqur Rahman, SayedHassan Khatoonabadi, Ahmad Abdellatif, Haya Samaana, Emad Shihab, | (参考訳) [コンテキスト]今日では、人工知能(AI)コンポーネントを含む多くのソフトウェアシステムがあり、開発環境の変化によってAIベースのシステムに多様性がもたらされることが知られている。
目的] 環境構成がこれらのシステムの多様性にどのように影響するかはまだ検討されていない。
このような構成による変動度の理解と定量化は、実践者が最も安定したAI製品に対して最適な環境構成を決定するのに役立つ。
この目標を達成するために、Travis CIプラットフォームを使用して、30のオープンソースAIベースのシステム上で、3つの主要な環境変数(運用システム、Pythonバージョン、CPUアーキテクチャ)を8つの異なる組み合わせで実験を行った。
MLモデル(パフォーマンス)のようなAIコンポーネントの出力、システムの構築と実行に必要な時間(処理時間)、システムの構築と実行に関連するコスト(拡張性)の3つの指標を使用して、変動性を評価する。
結果] 結果は,3つの指標すべてに変動性が存在することを示唆するが,処理時間やコストに関しては,性能よりも頻繁に観察される。
例えば、LinuxとMacOSの間では、それぞれパフォーマンス、処理時間、費用において、研究プロジェクトの23%、96.67%、100%の変数が観察されている。
結論]AIベースのシステムをデプロイする前に,性能低下を緩和し,再トレーニング時間とコストを削減するために,設定設定の最適な組み合わせを特定することが重要であることを明らかにする。
[Context] Nowadays, many software systems include Artificial Intelligence (AI) components and changes in the development environment have been known to induce variability in an AI-based system. [Objective] However, how an environment configuration impacts the variability of these systems is yet to be explored. Understanding and quantifying the degree of variability due to such configurations can help practitioners decide the best environment configuration for the most stable AI products. [Method] To achieve this goal, we performed experiments with eight different combinations of three key environment variables (operating system, Python version, and CPU architecture) on 30 open-source AI-based systems using the Travis CI platform. We evaluate variability using three metrics: the output of an AI component like an ML model (performance), the time required to build and run a system (processing time), and the cost associated with building and running a system (expense). [Results] Our results indicate that variability exists in all three metrics; however, it is observed more frequently with respect to processing time and expense than performance. For example, between Linux and MacOS, variabilities are observed in 23%, 96.67%, and 100% of the studied projects in performance, processing time, and expense, respectively. [Conclusion] Our findings underscore the importance of identifying the optimal combination of configuration settings to mitigate performance drops and reduce retraining time and cost before deploying an AI-based system. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# フォグベースのIoT環境における効率的なECCベースの認証方式
Efficient ECC-based authentication scheme for fog-based IoT environment ( http://arxiv.org/abs/2408.02826v1 ) ライセンス: Link先を確認 | Mohamed Ali Shaaban, Almohammady S. Alsharkawy, Mohammad T. AbouKreisha, Mohammed Abdel Razek, | (参考訳) クラウドコンピューティングとIoT(Internet of Things)アプリケーションの急速な成長は、レイテンシ、セキュリティ、ネットワーク障害、パフォーマンスなど、いくつかの脅威に直面している。
これらの問題は、ストレージと計算をIoTデバイスに近づけるフォグコンピューティングの開発によって解決される。
しかし、セキュリティ設計者、エンジニア、研究者が直面しているいくつかの課題は、この環境を確保することである。
接続されたデバイス間で渡されるデータの機密性を確保するため、IDとメッセージの認証にデジタル署名プロトコルが適用されている。
しかし、従来の方法では、ユーザの秘密鍵はIoTに直接格納されるため、秘密鍵は様々な悪意のある攻撃の下で開示される可能性がある。
さらに、これらの方法は大量のエネルギーを必要とし、IoTデバイスのリソースを消費する。
本稿では,楕円曲線デジタルシグネチャアルゴリズム(ECDSA)に基づくシグネチャスキームを提案し,秘密鍵の安全性と鍵ペア生成に要する時間を改善する。
ECDSAのセキュリティは楕円曲線離散対数問題(ECDLP)の難易度に基づいており、より小さなグループを使用することができる。
より小さなグループサイズは、通信帯域幅が限られている、あるいはデータ転送が大量のエネルギーを消費している設定において重要な特徴である、より短いシグネチャへと直接変換される。
IoT環境におけるECDSAの有効性と有効性は,実験的評価と比較分析により検証した。
その結果, 2 つの ECDSA と RSA と比較して,提案した ECDSA は計算時間を 65% と 87% に短縮した。
さらに、ESDSAとRSAを比べると、エネルギー消費量は77%、RSAは82%減少する。
The rapid growth of cloud computing and Internet of Things (IoT) applications faces several threats, such as latency, security, network failure, and performance. These issues are solved with the development of fog computing, which brings storage and computation closer to IoT-devices. However, there are several challenges faced by security designers, engineers, and researchers to secure this environment. To ensure the confidentiality of data that passes between the connected devices, digital signature protocols have been applied to the authentication of identities and messages. However, in the traditional method, a user's private key is directly stored on IoTs, so the private key may be disclosed under various malicious attacks. Furthermore, these methods require a lot of energy, which drains the resources of IoT-devices. A signature scheme based on the elliptic curve digital signature algorithm (ECDSA) is proposed in this paper to improve the security of the private key and the time taken for key-pair generation. ECDSA security is based on the intractability of the Elliptic Curve Discrete Logarithm Problem (ECDLP), which allows one to use much smaller groups. Smaller group sizes directly translate into shorter signatures, which is a crucial feature in settings where communication bandwidth is limited, or data transfer consumes a large amount of energy. The efficiency and effectiveness of ECDSA in the IoT environment are validated by experimental evaluation and comparison analysis. The results indicate that, in comparison to the two-party ECDSA and RSA, the proposed ECDSA decreases computation time by 65% and 87%, respectively. Additionally, as compared to two-party ECDSA and RSA, respectively, it reduces energy consumption by 77% and 82%. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# オンラインA/B実験の期間設定
Setting the duration of online A/B experiments ( http://arxiv.org/abs/2408.02830v1 ) ライセンス: Link先を確認 | Harrison H. Li, Chaoyu Yu, | (参考訳) オンラインA/B実験を設計する際には,処理効果に対する信頼区間(CI)が適切な幅であることを保証するサンプルサイズと期間を選択することが重要である。
サンプルサイズとCI幅の関係はよく理解されているが,CI幅に対する実験期間の影響は明らかになっていない。
本稿では, 試料サイズ (N) と持続時間 (T) の両方の関数として, 比処理効果推定器に基づくCI幅の解析式を提供する。
この式は、2つの分散成分を持つ混合効果モデルから導かれる。
時間的分散と呼ばれる1つのコンポーネントは、同じユーザが異なる日に同じ実験アームに保持される実験のために、時間の経過とともに持続する。
一方、残りの誤差分散成分は、Tが大きくなるにつれてゼロに崩壊する。
提案法は,2成分の相対的サイズを定量化し,歴史的実験から推定できる,ユーザ固有時間相関(UTC)と呼ばれる重要なパラメータを導出する。
より高いUTCは時間の経過とともにCI幅が遅くなることを示している。
一方、UTCが0のとき(ユーザが数日にわたって実験の内外をシャッフルする実験の場合)、CIの幅は標準のパラメトリック1/Tレートで減衰する。
また,実験対象者の事前周期データへのアクセスがCI幅の減衰に与える影響についても検討した。
私たちはYouTubeで実際のA/B実験でCI幅を詳しく説明した。
In designing an online A/B experiment, it is crucial to select a sample size and duration that ensure the resulting confidence interval (CI) for the treatment effect is the right width to detect an effect of meaningful magnitude with sufficient statistical power without wasting resources. While the relationship between sample size and CI width is well understood, the effect of experiment duration on CI width remains less clear. This paper provides an analytical formula for the width of a CI based on a ratio treatment effect estimator as a function of both sample size (N) and duration (T). The formula is derived from a mixed effects model with two variance components. One component, referred to as the temporal variance, persists over time for experiments where the same users are kept in the same experiment arm across different days. The remaining error variance component, by contrast, decays to zero as T gets large. The formula we derive introduces a key parameter that we call the user-specific temporal correlation (UTC), which quantifies the relative sizes of the two variance components and can be estimated from historical experiments. Higher UTC indicates a slower decay in CI width over time. On the other hand, when the UTC is 0 -- as for experiments where users shuffle in and out of the experiment across days -- the CI width decays at the standard parametric 1/T rate. We also study how access to pre-period data for the users in the experiment affects the CI width decay. We show our formula closely explains CI widths on real A/B experiments at YouTube. | 翻訳日:2024-08-07 15:38:41 公開日:2024-08-05 |
# ポスト選択多光子ゲートに対するボソンサンプリングスキーム
Boson Sampling schemes for post-selected multi-photon gates ( http://arxiv.org/abs/2408.02832v1 ) ライセンス: Link先を確認 | Alessio Baldazzi, Lorenzo Pavesi, | (参考訳) そこで本研究では,光合成後制御型Zゲートと制御型Zゲートの作成にBoson Smplingスキームを用いる方法を示す。
提案手法は, 同一の単一光子, マッハ・ツェンダー干渉計ネットワーク, 単光子検出器, ポストセレクションの具体例に基づく。
特に、補助経路と単一光子と共にデュアルレールパスを符号化することにより、そのようなゲートの成功確率を向上させる。
この結果は、ボソンサンプリングの通常の概念や実践を超えて、レックとクレメンツのスキームの複雑さと豊かさを証明している。
We show how to use Boson Sampling schemes in order to create photonic post-selected Controlled-Z and Controlled-Controlled-Z gates, which are equivalent, modulo single-qubit gates, to Controlled-NOT and Toffoli gates, respectively. The new proposed method is based on the following ingredients: identical single photons, Mach-Zehnder interferometer networks, single-photon detectors and post-selection. In particular, by using dual-rail path encoding together with auxiliary paths and single photons, we improve the success probabilities of such gates. This result further proves the complexity and richness of Reck and Clements schemes beyond the usual notions and practices of Boson Sampling. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 量子線形回帰の適応学習
Adaptive Learning for Quantum Linear Regression ( http://arxiv.org/abs/2408.02833v1 ) ライセンス: Link先を確認 | Costantino Carugno, Maurizio Ferrari Dacrema, Paolo Cremonesi, | (参考訳) 最近、クラウドベースのサービスとして量子アニールが利用可能になったことで、機械学習問題に対処する新たな方法が実現し、関連するアルゴリズムがこれらのデバイスで実行できるようになった。
最近の研究で、線形回帰は2次二進最適化問題として定式化され、量子アニールにより解ける。
このアプローチは、大規模なデータセットに対して計算時間的優位性を約束するが、解の質は、量子定式化における実数回帰係数の近似に使用される精度ベクトルの必要な使用によって制限される。
本研究では,すべての係数に等しい総称値の配列をセットする代わりに,簡単な適応アルゴリズムで調整した特定の精度で各値を表現できるようにする。
このアプローチは、サイズが増大する合成データセットに基づいて評価され、古典解法と同様に、D-Wave Advantage 量子アニールを用いて線形回帰が解かれる。
我々の知る限りでは、これは量子アニールの線形回帰で評価された史上最大のデータセットである。
その結果、私たちの定式化によって、すべてのインスタンスでソリューションの品質が向上し、現在の量子デバイスの可能性をよりよく活用できることがわかった。
The recent availability of quantum annealers as cloud-based services has enabled new ways to handle machine learning problems, and several relevant algorithms have been adapted to run on these devices. In a recent work, linear regression was formulated as a quadratic binary optimization problem that can be solved via quantum annealing. Although this approach promises a computational time advantage for large datasets, the quality of the solution is limited by the necessary use of a precision vector, used to approximate the real-numbered regression coefficients in the quantum formulation. In this work, we focus on the practical challenge of improving the precision vector encoding: instead of setting an array of generic values equal for all coefficients, we allow each one to be expressed by its specific precision, which is tuned with a simple adaptive algorithm. This approach is evaluated on synthetic datasets of increasing size, and linear regression is solved using the D-Wave Advantage quantum annealer, as well as classical solvers. To the best of our knowledge, this is the largest dataset ever evaluated for linear regression on a quantum annealer. The results show that our formulation is able to deliver improved solution quality in all instances, and could better exploit the potential of current quantum devices. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# DaCapo:スケーラブルな3D画像セグメンテーションのためのモジュール型ディープラーニングフレームワーク
DaCapo: a modular deep learning framework for scalable 3D image segmentation ( http://arxiv.org/abs/2408.02834v1 ) ライセンス: Link先を確認 | William Patton, Jeff L. Rhoades, Marwan Zouinkhi, David G. Ackerman, Caroline Malin-Mayor, Diane Adjavon, Larissa Heinrich, Davis Bennett, Yurii Zubov, CellMap Project Team, Aubrey V. Weigel, Jan Funke, | (参考訳) DaCapoは、大規模でほぼ等方的な画像データに対する既存の機械学習アプローチのトレーニングと適用を迅速化するために設計された、特殊なディープラーニングライブラリである。
この対応では、特定のドメインに最適化されたDaCapoのユニークな機能を紹介し、モジュール構造、効率的な実験管理ツール、スケーラブルなデプロイメント機能を強調します。
我々は,大規模な等方的イメージセグメンテーションへのアクセスを改善する可能性について論じ,コミュニティにこのオープンソースイニシアチブを探求し,貢献するよう依頼する。
DaCapo is a specialized deep learning library tailored to expedite the training and application of existing machine learning approaches on large, near-isotropic image data. In this correspondence, we introduce DaCapo's unique features optimized for this specific domain, highlighting its modular structure, efficient experiment management tools, and scalable deployment capabilities. We discuss its potential to improve access to large-scale, isotropic image segmentation and invite the community to explore and contribute to this open-source initiative. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 標準機械学習ツールを用いた多層動的スピントロニクスネットワークの訓練と時系列分類
Training a multilayer dynamical spintronic network with standard machine learning tools to perform time series classification ( http://arxiv.org/abs/2408.02835v1 ) ライセンス: Link先を確認 | Erwan Plouet, Dédalo Sanz-Hernández, Aymeric Vecchiola, Julie Grollier, Frank Mizrahi, | (参考訳) 低コストで時系列を処理できることは多くのアプリケーションにとって重要である。
このようなタスクを実行できるリカレントニューラルネットワークは、従来のコンピュータ上でソフトウェアを実装する場合、計算コストがかかる。
本稿では,スピントロニック振動子を動的ニューロンとして用いたハードウェア上でのリカレントニューラルネットワークを提案する。
数値シミュレーションを用いて,多層ネットワークを構築し,BPTT(back propagation through time)と標準機械学習ツールを用いてネットワークをトレーニングできることを実証する。
スピントロニック発振器の過渡ダイナミクスを活用して、シーケンシャル桁分類タスクを89.83\pm2.91~\%$精度で解く。
我々は、異なる入力時間スケールに対応するために、発振器の時間定数とネットワークのハイパーパラメータをどう選択するかのガイドラインを考案する。
The ability to process time-series at low energy cost is critical for many applications. Recurrent neural network, which can perform such tasks, are computationally expensive when implementing in software on conventional computers. Here we propose to implement a recurrent neural network in hardware using spintronic oscillators as dynamical neurons. Using numerical simulations, we build a multi-layer network and demonstrate that we can use backpropagation through time (BPTT) and standard machine learning tools to train this network. Leveraging the transient dynamics of the spintronic oscillators, we solve the sequential digits classification task with $89.83\pm2.91~\%$ accuracy, as good as the equivalent software network. We devise guidelines on how to choose the time constant of the oscillators as well as hyper-parameters of the network to adapt to different input time scales. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 誤り補正型分散量子計算のためのモジュラアーキテクチャと絡み合わせ方式
Modular Architectures and Entanglement Schemes for Error-Corrected Distributed Quantum Computation ( http://arxiv.org/abs/2408.02837v1 ) ライセンス: Link先を確認 | Siddhant Singh, Fenglei Gu, Sébastian de Bone, Eduardo Villaseñor, David Elkouss, Johannes Borregaard, | (参考訳) 高忠実な絡み合った状態を生成することで、複数の小さなキュービットモジュールを接続することは、量子コンピューティングハードウェアをスケールする上で有望な方法である。
このようなモジュラー量子コンピュータの性能は、絡み合い発生の品質と速度に大きく依存する。
しかし、最適アーキテクチャと絡み合い生成スキームはまだ確立されていない。
固体量子ハードウェアを用いたモジュラー量子コンピュータに着目し,分散曲面符号の誤り訂正しきい値と論理的故障率について検討する。
非局所安定度測定のための放射ベースおよび散乱ベースの絡み合い生成方式について検討する。
量子光学モデリングにより、量子エラー訂正符号の性能を基礎となる物理ハードウェアのパラメータにリンクし、フォールトトレラントなモジュラー量子計算に必要なパラメータ状態を特定する。
さらに,モジュール単位のデータキュービット数とモジュール単位のデータキュービット数を比較する。
コードの性能は絡み合い生成方式の選択に大きく依存するが、2つのモジュラーアーキテクチャはエラー訂正しきい値に類似している。
一部のスキームでは、非分散実装(\sim0.4 \%$)のしきい値に近い閾値は将来のパラメータで実現可能である。
Connecting multiple smaller qubit modules by generating high-fidelity entangled states is a promising path for scaling quantum computing hardware. The performance of such a modular quantum computer is highly dependent on the quality and rate of entanglement generation. However, the optimal architectures and entanglement generation schemes are not yet established. Focusing on modular quantum computers with solid-state quantum hardware, we investigate a distributed surface code's error-correcting threshold and logical failure rate. We consider both emission-based and scattering-based entanglement generation schemes for the measurement of non-local stabilizers. Through quantum optical modeling, we link the performance of the quantum error correction code to the parameters of the underlying physical hardware and identify the necessary parameter regime for fault-tolerant modular quantum computation. In addition, we compare modular architectures with one or two data qubits per module. We find that the performance of the code depends significantly on the choice of entanglement generation scheme, while the two modular architectures have similar error-correcting thresholds. For some schemes, thresholds nearing the thresholds of non-distributed implementations ($\sim0.4 \%$) appear feasible with future parameters. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 低次元空間におけるインテント検出問題のダイナミクスとしての解釈
Interpretation of the Intent Detection Problem as Dynamics in a Low-dimensional Space ( http://arxiv.org/abs/2408.02838v1 ) ライセンス: Link先を確認 | Eduardo Sanchez-Karhunen, Jose F. Quesada-Moreno, Miguel A. Gutiérrez-Naranjo, | (参考訳) Intent Detectionは、ユーザクエリの背後にあるセマンティクスを認識し、ラベル付けすることを目的としたテキスト分類タスクである。
様々なビジネスアプリケーションにおいて重要な役割を果たす。
インテント検出モジュールの出力は、システム全体の動作を強く条件付ける。
このシーケンス解析タスクは、主にディープラーニング技術を用いて取り組まれる。
これらの手法が広く用いられているにもかかわらず、ネットワークが問題の解決に使っている内部メカニズムはよく理解されていない。
最近の研究の行は、動的システムの観点からRNNが学習した計算機構を分析している。
本研究では,異なるRNNアーキテクチャがSNIPSインテント検出問題をどのように解決するかを検討する。
訓練されたネットワークに挿入された文は、隠れた状態空間を横断する軌跡と解釈できる。
この空間は、次元が埋め込みや隠された層の大きさと関連している低次元多様体に制約される。
予測を生成するため、RNNは、出力層行列列方向に空間的に整列して、具体的な領域に向かって軌道を操縦する。
系の力学の下では、予期せぬ固定点位相が限られた数のアトラクタと同一視されている。
本研究は,意図検出タスクを解くネットワークの内部動作に関する新たな知見を提供する。
Intent detection is a text classification task whose aim is to recognize and label the semantics behind a users query. It plays a critical role in various business applications. The output of the intent detection module strongly conditions the behavior of the whole system. This sequence analysis task is mainly tackled using deep learning techniques. Despite the widespread use of these techniques, the internal mechanisms used by networks to solve the problem are poorly understood. Recent lines of work have analyzed the computational mechanisms learned by RNNs from a dynamical systems perspective. In this work, we investigate how different RNN architectures solve the SNIPS intent detection problem. Sentences injected into trained networks can be interpreted as trajectories traversing a hidden state space. This space is constrained to a low-dimensional manifold whose dimensionality is related to the embedding and hidden layer sizes. To generate predictions, RNN steers the trajectories towards concrete regions, spatially aligned with the output layer matrix rows directions. Underlying the system dynamics, an unexpected fixed point topology has been identified with a limited number of attractors. Our results provide new insights into the inner workings of networks that solve the intent detection task. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 確率的グラディエントDescentによるコックスモデルの最適化 -理論的基礎と実践的ガイダンス-
Optimizing Cox Models with Stochastic Gradient Descent: Theoretical Foundations and Practical Guidances ( http://arxiv.org/abs/2408.02839v1 ) ライセンス: Link先を確認 | Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding, | (参考訳) Coxレグレッションの最適化とそのニューラルネットワークのバリエーションは、大規模研究において重大な計算上の課題を生じさせる。
モデル最適化におけるスケーラビリティで知られている確率勾配勾配勾配(SGD)は、最近Coxモデルの最適化に適応した。
通常独立した個人損失の総和を対象とする従来のアプリケーションとは異なり、SGD for Cox モデルはデータのサブセットの部分的確率に基づいてパラメータを更新する。
実証的な成功にもかかわらず、CoxをSGDに最適化する理論的基礎は、ほとんど未発見である。
本研究では,SGD推定器がバッチサイズ依存の目的関数を対象とすることを示す。
我々は、コックスニューラルネットワーク(Cox-NN)のSGD推定器が一貫したものであり、最適最小収束率をポリ対数因子まで達成することを確認した。
Cox回帰については、SGD推定器の$\sqrt{n}$-consistencyと漸近正規性をさらに証明し、バッチサイズによって異なる。
さらに、バッチサイズがCox-NNトレーニングに与える影響と、Cox回帰におけるSGD推定器の漸近効率に与える影響を定量化する。
これらの知見は、広範囲な数値実験により検証され、SGDアプリケーションにおけるバッチサイズを選択するためのガイダンスを提供する。
最後に,大規模データによりGDが実現不可能な実世界のアプリケーションにおいて,SGDの有効性を実証する。
Optimizing Cox regression and its neural network variants poses substantial computational challenges in large-scale studies. Stochastic gradient descent (SGD), known for its scalability in model optimization, has recently been adapted to optimize Cox models. Unlike its conventional application, which typically targets a sum of independent individual loss, SGD for Cox models updates parameters based on the partial likelihood of a subset of data. Despite its empirical success, the theoretical foundation for optimizing Cox partial likelihood with SGD is largely underexplored. In this work, we demonstrate that the SGD estimator targets an objective function that is batch-size-dependent. We establish that the SGD estimator for the Cox neural network (Cox-NN) is consistent and achieves the optimal minimax convergence rate up to a polylogarithmic factor. For Cox regression, we further prove the $\sqrt{n}$-consistency and asymptotic normality of the SGD estimator, with variance depending on the batch size. Furthermore, we quantify the impact of batch size on Cox-NN training and its effect on the SGD estimator's asymptotic efficiency in Cox regression. These findings are validated by extensive numerical experiments and provide guidance for selecting batch sizes in SGD applications. Finally, we demonstrate the effectiveness of SGD in a real-world application where GD is unfeasible due to the large scale of data. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# GAReT: 適応器と自動回帰変換器を用いたクロスビュービデオジオローカライゼーション
GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers ( http://arxiv.org/abs/2408.02840v1 ) ライセンス: Link先を確認 | Manu S Pillai, Mamshad Nayeem Rizve, Mubarak Shah, | (参考訳) クロスビュービデオジオローカライゼーション(CVGL)は、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
有望なパフォーマンスにもかかわらず、現在のCVGLメソッドは重大な課題に直面している。
これらの方法は、通常現実世界のシナリオにないカメラとオドメトリーデータを使用する。
隣接する複数のフレームと様々なエンコーダを使って特徴抽出を行い、計算コストが高い。
さらに、これらのアプローチは、各ストリートビューフレームの位置を独立に予測し、時間的に矛盾したGPS軌道をもたらす。
これらの課題に対処するため,本研究では,カメラや生体計測データを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
画像レベルの表現を効率的に集約し,映像入力に適応するトランスフォーマー・アダプタモジュールであるGeoAdapterを紹介する。
具体的には、ビデオフレームと空中画像上でトランスフォーマーエンコーダをトレーニングし、次にそのエンコーダを凍結してGeoAdapterモジュールを最適化し、ビデオレベルの表現を得る。
時間的に不整合な軌跡に対処するために,前回のフレームの予測に基づいて最寄りの予測を符号化し,最寄りの予測を自己回帰的に復号することで,街路ビューフレームのGPS位置を予測できるエンコーダ・デコーダ・トランスフォーマモデルであるTransRetrieverを導入する。
提案手法の有効性は,ベンチマークデータセット上での最先端性能を実証し,広範な実験により検証する。
私たちのコードはhttps://github.com/manupillai308/GAReT.comで利用可能です。
Cross-view video geo-localization (CVGL) aims to derive GPS trajectories from street-view videos by aligning them with aerial-view images. Despite their promising performance, current CVGL methods face significant challenges. These methods use camera and odometry data, typically absent in real-world scenarios. They utilize multiple adjacent frames and various encoders for feature extraction, resulting in high computational costs. Moreover, these approaches independently predict each street-view frame's location, resulting in temporally inconsistent GPS trajectories. To address these challenges, in this work, we propose GAReT, a fully transformer-based method for CVGL that does not require camera and odometry data. We introduce GeoAdapter, a transformer-adapter module designed to efficiently aggregate image-level representations and adapt them for video inputs. Specifically, we train a transformer encoder on video frames and aerial images, then freeze the encoder to optimize the GeoAdapter module to obtain video-level representation. To address temporally inconsistent trajectories, we introduce TransRetriever, an encoder-decoder transformer model that predicts GPS locations of street-view frames by encoding top-k nearest neighbor predictions per frame and auto-regressively decoding the best neighbor based on the previous frame's predictions. Our method's effectiveness is validated through extensive experiments, demonstrating state-of-the-art performance on benchmark datasets. Our code is available at https://github.com/manupillai308/GAReT. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 後部確率の評価:決定理論、適切な装飾規則、校正
Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration ( http://arxiv.org/abs/2408.02841v1 ) ライセンス: Link先を確認 | Luciana Ferrer, Daniel Ramos, | (参考訳) ほとんどの機械学習分類器は、入力サンプルが与えられたクラスに対する後続確率を出力するように設計されている。
これらの確率は、サンプルのクラスにおける分類的な決定、下流システムへの入力として提供されるか、解釈のために人間に与えられる。
これらのシステムによって生成された後部の質を評価することは、数十年前に適切なスコアリングルール(PSR)の発明で解決された重要な問題である。
残念ながら、最近の機械学習文献の多くは、後続のパフォーマンスを評価するためのプロキシとして、キャリブレーションメトリクス(一般的には、期待キャリブレーションエラー(ECE))を使用している。
このアプローチの問題点は、キャリブレーション指標が後部品質の1つの側面のみを反映し、識別性能を無視していることである。
このため, キャリブレーション指標は, 後部品質評価には何の役割も果たさないと考えられる。
期待されているPSRは、解釈の容易さのために正規化され、この仕事に使用されるべきである。
本研究はまず,ベイズ決定理論を用いてPSRの定義を動機づけた実践的な観点から,PSRの簡単なレビューを行う。
そこで本研究では,PSRがシステム後部品質の基準となる理由と,キャリブレーション指標が適当でない理由について論じる。
キャリブレーション指標は性能評価には役に立たないが,システム開発において診断ツールとして用いられる可能性がある。
この目的を念頭に、予測PSRの分解から導かれるキャリブレーション損失と呼ばれる、単純で実用的なキャリブレーションの計量について論じる。
我々は、この指標をCEと比較し、PSR文献から期待される偏差校正基準と比較し、理論的および実証的な証拠を用いて、校正損失はこれらの2つの指標より優れていると主張している。
Most machine learning classifiers are designed to output posterior probabilities for the classes given the input sample. These probabilities may be used to make the categorical decision on the class of the sample; provided as input to a downstream system; or provided to a human for interpretation. Evaluating the quality of the posteriors generated by these system is an essential problem which was addressed decades ago with the invention of proper scoring rules (PSRs). Unfortunately, much of the recent machine learning literature uses calibration metrics -- most commonly, the expected calibration error (ECE) -- as a proxy to assess posterior performance. The problem with this approach is that calibration metrics reflect only one aspect of the quality of the posteriors, ignoring the discrimination performance. For this reason, we argue that calibration metrics should play no role in the assessment of posterior quality. Expected PSRs should instead be used for this job, preferably normalized for ease of interpretation. In this work, we first give a brief review of PSRs from a practical perspective, motivating their definition using Bayes decision theory. We discuss why expected PSRs provide a principled measure of the quality of a system's posteriors and why calibration metrics are not the right tool for this job. We argue that calibration metrics, while not useful for performance assessment, may be used as diagnostic tools during system development. With this purpose in mind, we discuss a simple and practical calibration metric, called calibration loss, derived from a decomposition of expected PSRs. We compare this metric with the ECE and with the expected score divergence calibration metric from the PSR literature and argue, using theoretical and empirical evidence, that calibration loss is superior to these two metrics. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 不均一グラフアテンションネットワークは癌マルチオミクスの統合を改善する
Heterogeneous graph attention network improves cancer multiomics integration ( http://arxiv.org/abs/2408.02845v1 ) ライセンス: Link先を確認 | Sina Tabakhi, Charlotte Vandermeulen, Ian Sudbery, Haiping Lu, | (参考訳) 高次元のマルチオミクスデータの増加は、人間の病気の複雑さを捉えるために高度な統合モデルを必要とする。
グラフベースのディープラーニング統合モデルは、約束に反して、小さな患者コホートや高次元の特徴と闘い、しばしばオミクス間の関係をモデル化せずに独立した特徴選択を適用する。
さらに、従来のグラフベースのオミクスモデルでは、多種類のノードとエッジが欠如しており、多様な構造を捉えることに重点を置いている。
癌診断を改善するため,オミクス統合のための異種グラフアテンションネットワーク(HeteroGATomics)を導入する。
HeteroGATomicsはマルチエージェントシステムを通じて共同機能選択を行い、各オーミックモードに対して特徴と患者類似性の専用ネットワークを作成する。
これらのネットワークを1つのヘテロジニアスグラフに結合して、全体論的なオーミック固有表現を学習し、モーダル性にまたがる予測を統合する。
3つのがんマルチオミクスデータセットの実験は、HeteroGATomicsのがん診断における優れたパフォーマンスを示している。
さらに,HeteroGATomicsは診断結果に寄与する重要なバイオマーカーを同定することにより,解釈可能性を高める。
The increase in high-dimensional multiomics data demands advanced integration models to capture the complexity of human diseases. Graph-based deep learning integration models, despite their promise, struggle with small patient cohorts and high-dimensional features, often applying independent feature selection without modeling relationships among omics. Furthermore, conventional graph-based omics models focus on homogeneous graphs, lacking multiple types of nodes and edges to capture diverse structures. We introduce a Heterogeneous Graph ATtention network for omics integration (HeteroGATomics) to improve cancer diagnosis. HeteroGATomics performs joint feature selection through a multi-agent system, creating dedicated networks of feature and patient similarity for each omic modality. These networks are then combined into one heterogeneous graph for learning holistic omic-specific representations and integrating predictions across modalities. Experiments on three cancer multiomics datasets demonstrate HeteroGATomics' superior performance in cancer diagnosis. Moreover, HeteroGATomics enhances interpretability by identifying important biomarkers contributing to the diagnosis outcomes. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# Javaのセキュリティに敏感なAPIコールに関する混合メソッドによる調査
Less Is More: A Mixed-Methods Study on Security-Sensitive API Calls in Java for Better Dependency Selection ( http://arxiv.org/abs/2408.02846v1 ) ライセンス: Link先を確認 | Imranur Rahman, Ranidya Paramitha, Henrik Plate, Dominik Wermke, Laurie Williams, | (参考訳) セキュリティに敏感なAPIは、例えばファイルシステムやネットワークリソースといった、セキュリティに敏感なリソースへのアクセスを提供する。
このようなAPI呼び出しを -- 直接あるいは依存関係を通じて -- 含めれば、アプリケーションのアタックサーフェスが増加する。
この現象の例としてLog4Shellがあり、log4jパッケージ内のネットワーク関連機能(JNDIルックアップ)によって、多くのアプリケーションが脆弱になった。
Log4Shellインシデント以前は、JNDIルックアップコールを行わないlog4jの代替ロギングライブラリが利用可能だった。
このようなインシデントの影響は、ロギングライブラリによるネットワーク関連のAPI呼び出しに関する情報が開発者に提供される場合、最小限に抑えられる。
したがって、機能的に類似したオープンソースパッケージによるこれらのセキュリティに敏感なAPI呼び出しに対する可視性の欠如は、開発者が依存関係の選択基準として使用するのを難しくする。
本研究の目的は,コールグラフ解析を通じて,セキュリティに敏感なAPIを依存性として理解することで,依存関係の選択を支援することである。
45のJavaパッケージを使って混合メソッドの調査を行い、219のセキュリティ機密APIのリストを定義しました。
次に、コールグラフ分析を使用して、依存関係の有無に関わらず、選択したパッケージバージョンにおけるこれらのAPIの頻度を分析しました。
最後に、我々はオープンソース開発者(110人の回答者)と調査を行い、依存性の選択プロセスにおけるこのAPI情報の有用性を理解するために、機能的に類似したパッケージw.r.t.セキュリティに敏感なAPI呼び出しの比較を行った。
機能的に類似したパッケージのセキュリティに敏感なAPI呼び出しの数は、1つのAPIカテゴリで0から368、合計で0から429まで様々である。
調査の結果,73%の開発者が,機能的に類似したパッケージのセキュリティに敏感なAPI呼び出しの数やタイプに関する情報が,依存関係の選択に有用であることを確認した。
Security sensitive APIs provide access to security-sensitive resources, e.g., the filesystem or network resources. Including such API calls -- directly or through dependencies -- increases the application's attack surface. An example of such a phenomenon is Log4Shell, which rendered many applications vulnerable due to network-related capabilities (JNDI lookup) in log4j package. Before the Log4Shell incident, alternate logging libraries to log4j were available that do not make JNDI lookup calls. The impact of such an incident would be minimal if information about network-related API calls by logging libraries were available to the developers. And so the lack of visibility into the calls to these security sensitive APIs by functionally similar open-source packages makes it difficult for developers to use them as a dependency selection criterion. The goal of this study is to aid developers in selecting their dependency by understanding security sensitive APIs in their dependency through call graph analysis. We conducted a mixed-methods study with 45 Java packages and defined a list of 219 security sensitive APIs. We then used call graph analysis to analyze the prevalence of these APIs in our selected package versions, with and without their dependencies. Finally, we conducted a survey with open-source developers (110 respondents) showing the comparison of functionally similar packages w.r.t. Security sensitive API calls to understand the usefulness of this API information in the dependency selection process. The number of Security sensitive API calls of functionally similar packages can vary from 0 to 368 in one API category and 0 to 429 in total. Our survey results show that 73% developers agree that information about the number and type of security-sensitive API calls of functionally similar packages would have been useful in their dependency selection. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# WBANによる健康モニタリングのためのアクティブラーニング
Active Learning for WBAN-based Health Monitoring ( http://arxiv.org/abs/2408.02849v1 ) ライセンス: Link先を確認 | Cho-Chun Chiu, Tuan Nguyen, Ting He, Shiqiang Wang, Beom-Su Kim, Ki-Il Kim, | (参考訳) 本稿では、無線体温ネットワーク(WBAN)における健康モニタリングのための機械学習モデルの必要性から、新たなアクティブな学習問題を考える。
身体センサーの資源が限られているため、WBANでラベル付けされていないサンプルを収集することは、非自明なコストを発生させる。
さらに、トレーニングされた健康モニタリングモデルは、典型的には、データ収集と同じペースで取得できない医療専門家によって生成される必要がある患者の健康状態を示すラベルを必要とする。
これらの課題は、ラベルのないサンプルが無料で、ラベルをリアルタイムでクエリできる古典的なアクティブラーニングとは根本的に異なる。
これらの課題に対処するために、コアセット構築アルゴリズムが提案されるオンラインフェーズと、選択したサンプルをラベル付けして対象モデルを訓練するオフラインフェーズからなる2段階アクティブラーニング手法を提案する。
提案アルゴリズムで選択したサンプルは,損失関数の評価において全データセットを近似する際の誤差が保証されることが証明された。
実際の健康モニタリングデータに基づく評価と独自の実験により,対象モデルの品質を犠牲にすることなく,我々のソリューションがデータキュレーションコストを大幅に削減できることが実証された。
We consider a novel active learning problem motivated by the need of learning machine learning models for health monitoring in wireless body area network (WBAN). Due to the limited resources at body sensors, collecting each unlabeled sample in WBAN incurs a nontrivial cost. Moreover, training health monitoring models typically requires labels indicating the patient's health state that need to be generated by healthcare professionals, which cannot be obtained at the same pace as data collection. These challenges make our problem fundamentally different from classical active learning, where unlabeled samples are free and labels can be queried in real time. To handle these challenges, we propose a two-phased active learning method, consisting of an online phase where a coreset construction algorithm is proposed to select a subset of unlabeled samples based on their noisy predictions, and an offline phase where the selected samples are labeled to train the target model. The samples selected by our algorithm are proved to yield a guaranteed error in approximating the full dataset in evaluating the loss function. Our evaluation based on real health monitoring data and our own experimentation demonstrates that our solution can drastically save the data curation cost without sacrificing the quality of the target model. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 腰痛リハビリテーション運動評価のための機械学習アルゴリズムのデータ効率と性能の解析
Analyzing Data Efficiency and Performance of Machine Learning Algorithms for Assessing Low Back Pain Physical Rehabilitation Exercises ( http://arxiv.org/abs/2408.02855v1 ) ライセンス: Link先を確認 | Aleksa Marusic, Louis Annabi, Sao Msi Nguyen, Adriana Tapus, | (参考訳) 人間の動きを分析することは、様々な応用の活発な研究分野である。
本研究では,ロボット・コーチ・システムを用いた身体リハビリテーションの文脈における人間の動作分析に焦点を当てた。
RGBカメラやRGB-Dカメラなどのセンサシステムで収集した処理動作データに基づいて,コンピュータ支援による身体リハビリテーションの評価は,所定のリハビリテーション演習完了時の患者パフォーマンスの評価を必要とする。
RGB画像からの2次元と3次元の人間のポーズ推定が著しく改善したので、RGB-Dカメラ(Microsoft Kinect)とRGBビデオ(OpenPoseとBlazePoseアルゴリズム)から得られた動きデータを用いて、身体的リハビリテーション運動の評価を比較することを目的としている。
ガウス混合モデル(GMM: Gaussian Mixture Model)は、GMMのログライクな値に基づいて、パフォーマンス指標を定め、位置(および向き)の特徴から採用する。
この評価は、以前ロボットPoppyが指導した低背痛リハビリテーション演習を行う臨床患者の医療データベース上で実施される。
Analyzing human motion is an active research area, with various applications. In this work, we focus on human motion analysis in the context of physical rehabilitation using a robot coach system. Computer-aided assessment of physical rehabilitation entails evaluation of patient performance in completing prescribed rehabilitation exercises, based on processing movement data captured with a sensory system, such as RGB and RGB-D cameras. As 2D and 3D human pose estimation from RGB images had made impressive improvements, we aim to compare the assessment of physical rehabilitation exercises using movement data obtained from both RGB-D camera (Microsoft Kinect) and estimation from RGB videos (OpenPose and BlazePose algorithms). A Gaussian Mixture Model (GMM) is employed from position (and orientation) features, with performance metrics defined based on the log-likelihood values from GMM. The evaluation is performed on a medical database of clinical patients carrying out low back-pain rehabilitation exercises, previously coached by robot Poppy. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 病理におけるスライド表現学習のための多段階事前学習
Multistain Pretraining for Slide Representation Learning in Pathology ( http://arxiv.org/abs/2408.02859v1 ) ライセンス: Link先を確認 | Guillaume Jaume, Anurag Vaidya, Andrew Zhang, Andrew H. Song, Richard J. Chen, Sharifa Sahai, Dandan Mo, Emilio Madrigal, Long Phi Le, Faisal Mahmood, | (参考訳) H&Eギガピクセル全スライディング画像(WSI)の普遍的かつ伝達可能な表現を学習できる自己教師付き学習(SSL)モデルの開発は、計算病理学においてますます価値が高まっている。
これらのモデルは、少数ショット分類、スライド検索、患者層化といった重要なタスクを前進させる可能性を秘めている。
既存のスライド表現学習のアプローチでは、SSLの原則を小さなイメージ(例:224 x 224パッチ)からスライド全体へと拡張している。
しかし、その結果の表現は、ビューの限られた臨床および生物学的多様性によって制限され続けている。
代わりに、免疫組織化学のような複数のマーカーで染色されたスライドは、リッチなタスクに依存しない訓練信号を形成するために異なるビューとして使用できると仮定する。
そこで本研究では,スライド表現学習のためのマルチモーダル事前学習戦略であるMadeleineを紹介する。
マドレーヌは、乳がんサンプル(5つの染色でN=4,211 WSI)と腎移植サンプル(4つの染色でN=12,070 WSI)の大規模なコホートに対して、二重の局所的クロスステインアライメント目標で訓練されている。
マドレーヌが学習したスライド表現の質は, 形態的, 分子的分類から予後予測まで, 複数の医療センターの7,299 WSIを用いた21のタスクからなる。
コードはhttps://github.com/mahmoodlab/MADELEINE.comで入手できる。
Developing self-supervised learning (SSL) models that can learn universal and transferable representations of H&E gigapixel whole-slide images (WSIs) is becoming increasingly valuable in computational pathology. These models hold the potential to advance critical tasks such as few-shot classification, slide retrieval, and patient stratification. Existing approaches for slide representation learning extend the principles of SSL from small images (e.g., 224 x 224 patches) to entire slides, usually by aligning two different augmentations (or views) of the slide. Yet the resulting representation remains constrained by the limited clinical and biological diversity of the views. Instead, we postulate that slides stained with multiple markers, such as immunohistochemistry, can be used as different views to form a rich task-agnostic training signal. To this end, we introduce Madeleine, a multimodal pretraining strategy for slide representation learning. Madeleine is trained with a dual global-local cross-stain alignment objective on large cohorts of breast cancer samples (N=4,211 WSIs across five stains) and kidney transplant samples (N=12,070 WSIs across four stains). We demonstrate the quality of slide representations learned by Madeleine on various downstream evaluations, ranging from morphological and molecular classification to prognostic prediction, comprising 21 tasks using 7,299 WSIs from multiple medical centers. Code is available at https://github.com/mahmoodlab/MADELEINE. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 不均一フィードバックを用いた微調整LDMの一構成法
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback ( http://arxiv.org/abs/2408.02861v1 ) ライセンス: Link先を確認 | Ryan Aponte, Ryan A. Rossi, Shunan Guo, Franck Dernoncourt, Tong Yu, Xiang Chen, Subrata Mitra, Nedim Lipka, | (参考訳) 大規模言語モデル(LLM)は、テキスト要約、Webナビゲーション、チャットボットなど、幅広いタスクに適用されている。
指導的微調整(SFT)と人的フィードバック(RLHF)からの強化学習(RLHF)の恩恵を受けている。
これらのデータセットは、収集が難しく、スコープが制限され、サンプルの品質が変化する可能性がある。
さらに、データセットは多くの異なる値を持つ多次元と同様に、数値からバイナリまで、監督形式で広範囲に分散することができる。
本稿では,2つの主成分を持つ異種フィードバックを用いた微調整 LLM フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから高品質で多様なサブセットを抽出し、完全なデータセットを超える可能性のあるパフォーマンス向上を実現する。
我々は、異種フィードバックを組み込むためのこれらの手法の有効性を理解するための広範な実験を行い、データの高品質で多様なサブセットを使用することによる改善を実証する。
我々のフレームワークは、命令追従やバイアス低減など、複数の領域で同時にモデルを改善することができる。
Large language models (LLMs) have been applied to a wide range of tasks, including text summarization, web navigation, and chatbots. They have benefitted from supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) following an unsupervised pretraining. These datasets can be difficult to collect, limited in scope, and vary in sample quality. Additionally, datasets can vary extensively in supervision format, from numerical to binary as well as multi-dimensional with many different values. We present a framework for fine-tuning LLMs using heterogeneous feedback, which has two main components. First, we combine the heterogeneous feedback data into a single supervision format, compatible with methods like SFT and RLHF. Next, given this unified feedback dataset, we extract a high-quality and diverse subset to obtain performance increases potentially exceeding the full dataset. We conduct extensive experiments to understand the effectiveness of these techniques for incorporating heterogeneous feedback, and demonstrate improvements from using a high-quality and diverse subset of the data. We find that our framework is able to improve models in multiple areas simultaneously, such as in instruction following and bias reduction. | 翻訳日:2024-08-07 15:28:57 公開日:2024-08-05 |
# 道徳的選好の安定性について:計算的解法による問題
On The Stability of Moral Preferences: A Problem with Computational Elicitation Methods ( http://arxiv.org/abs/2408.02862v1 ) ライセンス: Link先を確認 | Kyle Boerstler, Vijay Keswani, Lok Chan, Jana Schaich Borg, Vincent Conitzer, Hoda Heidari, Walter Sinnott-Armstrong, | (参考訳) 優先勧誘フレームワークは、参加型倫理的AIツールの研究に大きく貢献し、様々な利害関係者の道徳的価値を探求し、取り入れるための実行可能なメカニズムを提供する。
勧誘プロセスの一環として、道徳的嗜好、意見、判断に関する調査は通常、各参加者に対して1回だけ実施される。
この方法論の実践は、参加者の反応が時間とともに安定していて、他のすべての関連要因が一定に保たれている場合、今日の反応は、後で同じ質問に対する回答と同じものになる。
しかし、その頻度は分からない。
参加者の真の道徳的嗜好が変化したり、一時的な気分や気まぐれを伴ったり、追跡しない環境要因の影響を受けている可能性がある。
このような場合、参加者の道徳的反応が不安定であれば、参加者の真の道徳的嗜好、意見、判断がどう確かめられるかに関して、重要な方法論的・理論的問題を引き起こすことになる。
ここでは,2週間に10回の異なるセッションで1回のみ10回投与した場合に,どの患者に腎臓を投与すべきかという,同じ道徳的な質問を参加者に行うことで,この可能性に対処する。
参加者が単純(スタディ1)と複雑(スタディ2)を繰り返したシナリオに対して,反応の頻度を測定した。
平均して、参加者が議論の的になっているシナリオに回答した回数は、研究全体で約10-18%であり、この不安定性は反応時間と意思決定の難しさに肯定的な相関があることが観察された。
これらの結果が道徳的嗜好誘発の有効性に与える影響を考察し、利害関係者と彼らの道徳的判断を訓練したAIツールの間に価値の相違を引き起こす際の応答不安定性の役割を強調した。
Preference elicitation frameworks feature heavily in the research on participatory ethical AI tools and provide a viable mechanism to enquire and incorporate the moral values of various stakeholders. As part of the elicitation process, surveys about moral preferences, opinions, and judgments are typically administered only once to each participant. This methodological practice is reasonable if participants' responses are stable over time such that, all other relevant factors being held constant, their responses today will be the same as their responses to the same questions at a later time. However, we do not know how often that is the case. It is possible that participants' true moral preferences change, are subject to temporary moods or whims, or are influenced by environmental factors we don't track. If participants' moral responses are unstable in such ways, it would raise important methodological and theoretical issues for how participants' true moral preferences, opinions, and judgments can be ascertained. We address this possibility here by asking the same survey participants the same moral questions about which patient should receive a kidney when only one is available ten times in ten different sessions over two weeks, varying only presentation order across sessions. We measured how often participants gave different responses to simple (Study One) and more complicated (Study Two) repeated scenarios. On average, the fraction of times participants changed their responses to controversial scenarios was around 10-18% across studies, and this instability is observed to have positive associations with response time and decision-making difficulty. We discuss the implications of these results for the efficacy of moral preference elicitation, highlighting the role of response instability in causing value misalignment between stakeholders and AI tools trained on their moral judgments. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-05 |
# フッ化アンモニウムエッチングによる超電導クビット性能の向上
Enhanced Superconducting Qubit Performance Through Ammonium Fluoride Etch ( http://arxiv.org/abs/2408.02863v1 ) ライセンス: Link先を確認 | Cameron J. Kopas, Dominic P. Goronzy, Thang Pham, Carlos G. Torres Castanedo, Matthew Cheng, Rory Cochrane, Patrick Nast, Ella Lachman, Nikolay Z. Zhelev, Andre Vallieres, Akshay A. Murthy, Jin-su Oh, Lin Zhou, Matthew J. Kramer, Hilal Cansizoglu, Michael J. Bedzyk, Vinayak P. Dravid, Alexander Romanenko, Anna Grassellino, Josh Y. Mutus, Mark C. Hersam, Kameshwar Yadavalli, | (参考訳) 超伝導量子ビットの性能は、散逸と2レベルシステム(TLS)の損失によって制限されることが多い。
これらの損失の主な原因は、おそらく製造過程や環境暴露の結果、非晶質の材料や界面や表面の欠陥に由来すると考えられている。
そこで本研究では, 疎水性酸化物エッチング (BOE) をフッ化アンモニウムおよびフッ化アンモニウムを用いた洗浄法に置き換えることにより, ジョセフソン接合基板および基板-空気界面での新しい湿式化学表面処理法について検討する。
その結果,フッ化アンモニウムエッチングは中央値$\text{T}_1$ by $\sim22\%$$p=0.002$で統計的に有意な改善が得られ,可変周波数域における強結合TLSの減少が認められた。
ニオブ沈着前のフッ化アンモニウムエッチング処理試料のマイクロ波共振器測定では, BOE処理試料と比較すると, $\sim33\%$低損失タンジェントが得られた。
化学処理はジョセフソン接合-基板界面と基板-空気界面を主に修飾するので,これらの界面における材料の違いを調べ,TLSの減少に寄与する複数の微視的変化を同定するために,標的となる化学的・構造的特徴付けを行う。
The performance of superconducting qubits is often limited by dissipation and two-level systems (TLS) losses. The dominant sources of these losses are believed to originate from amorphous materials and defects at interfaces and surfaces, likely as a result of fabrication processes or ambient exposure. Here, we explore a novel wet chemical surface treatment at the Josephson junction-substrate and the substrate-air interfaces by replacing a buffered oxide etch (BOE) cleaning process with one that uses hydrofluoric acid followed by aqueous ammonium fluoride. We show that the ammonium fluoride etch process results in a statistically significant improvement in median $\text{T}_1$ by $\sim22\%$ ($p=0.002$), and a reduction in the number of strongly-coupled TLS in the tunable frequency range. Microwave resonator measurements on samples treated with the ammonium fluoride etch prior to niobium deposition also show $\sim33\%$ lower TLS-induced loss tangent compared to the BOE treated samples. As the chemical treatment primarily modifies the Josephson junction-substrate interface and substrate-air interface, we perform targeted chemical and structural characterizations to examine materials' differences at these interfaces and identify multiple microscopic changes that could contribute to decreased TLS. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-05 |
# VisionUnite:臨床知識で強化された眼科のビジョン・ランゲージ・ファンデーションモデル
VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge ( http://arxiv.org/abs/2408.02865v1 ) ライセンス: Link先を確認 | Zihan Li, Diping Song, Zefeng Yang, Deming Wang, Fei Li, Xiulan Zhang, Paul E. Kinahan, Yu Qiao, | (参考訳) 眼科における診断方法の改善の必要性は、特に未発達の地域では、専門医や先進機器に限られている。
そこで本研究では,臨床知識を付加した新しい眼科基盤モデルであるVisionUniteを紹介する。
VisionUniteは、124万のイメージテキストペアからなる広範囲なデータセットに事前トレーニングされており、提案したMMFundusデータセットを使用してさらに洗練されている。
実験の結果,VisionUnite は GPT-4V や Gemini Pro などの既存の生成基盤モデルよりも優れていた。
また、下眼科医に匹敵する診断能力を示す。
VisionUniteは、様々な臨床シナリオでよく機能し、例えば、オープンエンドのマルチディスリーズ診断、臨床説明、患者との相互作用などがあり、初期眼科疾患スクリーニングのための非常に多彩なツールである。
VisionUniteは、中年眼科医の教育援助としても機能し、一般的な眼科疾患と稀な眼科疾患の両方に関する知識の獲得を加速させる。
VisionUniteは眼科における重要な進歩であり、診断、医学教育、疾患のメカニズムの理解に幅広い意味を持つ。
The need for improved diagnostic methods in ophthalmology is acute, especially in the less developed regions with limited access to specialists and advanced equipment. Therefore, we introduce VisionUnite, a novel vision-language foundation model for ophthalmology enhanced with clinical knowledge. VisionUnite has been pretrained on an extensive dataset comprising 1.24 million image-text pairs, and further refined using our proposed MMFundus dataset, which includes 296,379 high-quality fundus image-text pairs and 889,137 simulated doctor-patient dialogue instances. Our experiments indicate that VisionUnite outperforms existing generative foundation models such as GPT-4V and Gemini Pro. It also demonstrates diagnostic capabilities comparable to junior ophthalmologists. VisionUnite performs well in various clinical scenarios including open-ended multi-disease diagnosis, clinical explanation, and patient interaction, making it a highly versatile tool for initial ophthalmic disease screening. VisionUnite can also serve as an educational aid for junior ophthalmologists, accelerating their acquisition of knowledge regarding both common and rare ophthalmic conditions. VisionUnite represents a significant advancement in ophthalmology, with broad implications for diagnostics, medical education, and understanding of disease mechanisms. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-05 |
# 後方射影拡散:拡散モデルを用いた広帯域逆散乱問題の解法
Back-Projection Diffusion: Solving the Wideband Inverse Scattering Problem with Diffusion Models ( http://arxiv.org/abs/2408.02866v1 ) ライセンス: Link先を確認 | Borong Zhang, Martín Guerra, Qin Li, Leonardo Zepeda-Núñez, | (参考訳) 広帯域散乱データから逆散乱マップによって誘導される後部分布を近似するエンドツーエンドの確率的フレームワークである。
この枠組みは、問題における波動伝播と対称性の基礎物理学と結合した条件拡散モデルを利用して、高精度な再構成を生成する。
このフレームワークは、スコア関数の分解を、フィルタされたバックプロパゲーション公式と、この潜在表現に基づいて条件付きスコア関数にインスパイアされた物理ベースの潜在表現に導入する。
これらの2つのステップは、フィルタされた後方射影公式に見られる階数構造を付与することにより圧縮に順応しつつ、定式化の対称性に従うよう制約される。
その結果,本フレームワークは,マルチスキャッタリング方式において,サブニキストの機能を回復させることなく,鋭い再構築を行うことが可能となった。
低サンプリングと計算の複雑さを持ち、パラメータの数は目標の解像度とサブラインでスケールし、安定したトレーニングダイナミクスを持つ。
We present \textit{Wideband back-projection diffusion}, an end-to-end probabilistic framework for approximating the posterior distribution induced by the inverse scattering map from wideband scattering data. This framework leverages conditional diffusion models coupled with the underlying physics of wave-propagation and symmetries in the problem, to produce highly accurate reconstructions. The framework introduces a factorization of the score function into a physics-based latent representation inspired by the filtered back-propagation formula and a conditional score function conditioned on this latent representation. These two steps are also constrained to obey symmetries in the formulation while being amenable to compression by imposing the rank structure found in the filtered back-projection formula. As a result, empirically, our framework is able to provide sharp reconstructions effortlessly, even recovering sub-Nyquist features in the multiple-scattering regime. It has low-sample and computational complexity, its number of parameters scales sub-linearly with the target resolution, and it has stable training dynamics. | 翻訳日:2024-08-07 15:19:13 公開日:2024-08-05 |
# 垂直的フェデレーション学習 - 挑戦,方法論,実験
Vertical Federated Learning: Challenges, Methodologies and Experiments ( http://arxiv.org/abs/2202.04309v2 ) ライセンス: Link先を確認 | Kang Wei, Jun Li, Chuan Ma, Ming Ding, Sha Wei, Fan Wu, Guihai Chen, Thilina Ranbaduge, | (参考訳) 近年,ユーザプライバシに対する懸念が高まりつつも,エンドユーザデバイスの計算能力とセンサ能力の進歩により,フェデレーション学習(FL)は有望な分散機械学習(ML)技術として出現している。
FLの特別なアーキテクチャとして、垂直FL(VFL)は、異なるクライアントからサブモデルを受け入れることで、ハイパーMLモデルを構築することができる。
これらのサブモデルは、異なる属性を持つ垂直に分割されたデータによって局所的に訓練される。
したがって、VFLの設計は従来のFLと根本的に異なるため、新しいユニークな研究課題が持ち上がった。
本稿では,VFLにおける課題を効果的に解決し,これらの課題に光を当てるために実生活データセットの実験を行うことを目的とする。
具体的には、まずVFLに関する一般的なフレームワークを提案し、VFLと従来のFLの主な相違点を強調する。
次に、セキュリティとプライバシのリスク、高価な計算と通信コスト、モデル分割による構造的損傷の可能性、システム不均一性の4つの側面において、VFLシステムに根ざした研究課題について論じる。
その後、上記の課題に対処するソリューションを開発し、提案手法の有効性を示す大規模な実験を行った。
Recently, federated learning (FL) has emerged as a promising distributed machine learning (ML) technology, owing to the advancing computational and sensing capacities of end-user devices, however with the increasing concerns on users' privacy. As a special architecture in FL, vertical FL (VFL) is capable of constructing a hyper ML model by embracing sub-models from different clients. These sub-models are trained locally by vertically partitioned data with distinct attributes. Therefore, the design of VFL is fundamentally different from that of conventional FL, raising new and unique research issues. In this paper, we aim to discuss key challenges in VFL with effective solutions, and conduct experiments on real-life datasets to shed light on these issues. Specifically, we first propose a general framework on VFL, and highlight the key differences between VFL and conventional FL. Then, we discuss research challenges rooted in VFL systems under four aspects, i.e., security and privacy risks, expensive computation and communication costs, possible structural damage caused by model splitting, and system heterogeneity. Afterwards, we develop solutions to addressing the aforementioned challenges, and conduct extensive experiments to showcase the effectiveness of our proposed solutions. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# 非消滅指数和を用いた帯域フィードバックからの動的構造推定
Dynamic Structure Estimation from Bandit Feedback using Nonvanishing Exponential Sums ( http://arxiv.org/abs/2206.00861v2 ) ライセンス: Link先を確認 | Motoya Ohnishi, Isao Ishikawa, Yuko Kuroki, Masahiro Ikeda, | (参考訳) この研究は、ユークリッド空間における周期的に振る舞う離散力学系の動的構造推定問題に取り組む。
観測はガウス以南の雑音によって汚染された帯域フィードバックの形で順次利用可能になると仮定する。
このようなノイズ分布に関する比較的一般的な仮定の下で、周期構造の回復可能な情報の集合を慎重に同定する。
本研究の主な成果は,指数和の漸近的挙動を利用してノイズ効果を効果的に評価する(計算とサンプル)効率的なアルゴリズムである。
特に、指数和の変種であるワイル和の新しい利用により、線形系に対するスペクトル情報を抽出することができる。
提案アルゴリズムでは, セルラーオートマタを含むおもちゃの例のシミュレーションに関する理論的主張を実験的に検証する。
This work tackles the dynamic structure estimation problems for periodically behaved discrete dynamical system in the Euclidean space. We assume the observations become sequentially available in a form of bandit feedback contaminated by a sub-Gaussian noise. Under such fairly general assumptions on the noise distribution, we carefully identify a set of recoverable information of periodic structures. Our main results are the (computation and sample) efficient algorithms that exploit asymptotic behaviors of exponential sums to effectively average out the noise effect while preventing the information to be estimated from vanishing. In particular, the novel use of the Weyl sum, a variant of exponential sums, allows us to extract spectrum information for linear systems. We provide sample complexity bounds for our algorithms, and we experimentally validate our theoretical claims on simulations of toy examples, including Cellular Automata. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# 知識グラフ埋め込みにおける信頼度を考慮した自己意味蒸留
Confidence-aware Self-Semantic Distillation on Knowledge Graph Embedding ( http://arxiv.org/abs/2206.02963v3 ) ライセンス: Link先を確認 | Yichen Liu, Jiawei Chen, Defang Chen, Zhehui Zhou, Yan Feng, Can Wang, | (参考訳) 連続ベクトル空間に実体と関係を投影する知識グラフ埋め込み(KGE)が注目されている。
高次元KGE法は優れた性能を提供するが、計算量やメモリオーバーヘッドを犠牲にしている。
埋め込み寸法の減少はモデル性能を著しく悪化させる。
近年、知識蒸留や非ユークリッド表現学習を用いて低次元KGEの有効性を高める試みがいくつか行われているが、それらは事前訓練された高次元の教師モデルを必要とするか、複雑な非ユークリッド演算を必要とするかのどちらかであり、計算コストが大幅に増大する。
そこで本研究では, モデル自体から学習し, KGEを低次元空間で強化する, 信頼を意識した自己知識蒸留(CSD)を提案する。
具体的には、CSDは以前のイテレーションの埋め込みから知識を抽出し、次のイテレーションでモデルの学習を監督するために使用される。
さらに,事前に学習した埋め込みの信頼度を推定することにより,信頼性の高い知識をフィルタリングするセマンティックモジュールを開発した。
この直接的な戦略は、教師モデルの事前学習に時間を要することを回避し、様々なKGEメソッドに統合してパフォーマンスを向上させることができる。
6つのKGEバックボーンと4つのデータセットに関する包括的な実験は、提案したCSDの有効性を裏付けるものである。
Knowledge Graph Embedding (KGE), which projects entities and relations into continuous vector spaces, has garnered significant attention. Although high-dimensional KGE methods offer better performance, they come at the expense of significant computation and memory overheads. Decreasing embedding dimensions significantly deteriorates model performance. While several recent efforts utilize knowledge distillation or non-Euclidean representation learning to augment the effectiveness of low-dimensional KGE, they either necessitate a pre-trained high-dimensional teacher model or involve complex non-Euclidean operations, thereby incurring considerable additional computational costs. To address this, this work proposes Confidence-aware Self-Knowledge Distillation (CSD) that learns from the model itself to enhance KGE in a low-dimensional space. Specifically, CSD extracts knowledge from embeddings in previous iterations, which would be utilized to supervise the learning of the model in the next iterations. Moreover, a specific semantic module is developed to filter reliable knowledge by estimating the confidence of previously learned embeddings. This straightforward strategy bypasses the need for time-consuming pre-training of teacher models and can be integrated into various KGE methods to improve their performance. Our comprehensive experiments on six KGE backbones and four datasets underscore the effectiveness of the proposed CSD. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# SeqLink: 部分的に観測された時系列をモデル化するロバストニューラルネットワークアーキテクチャ
SeqLink: A Robust Neural-ODE Architecture for Modelling Partially Observed Time Series ( http://arxiv.org/abs/2212.03560v3 ) ライセンス: Link先を確認 | Futoon M. Abushaqra, Hao Xue, Yongli Ren, Flora D. Salim, | (参考訳) 通常微分方程式(ODE)に基づくモデルは、多くの時系列問題を解決する基礎モデルとして人気を集めている。
ニューラルODEと従来のRNNモデルを組み合わせることで、不規則な時系列を表現できる。
しかし、ODEベースのモデルは一般的に、初期観測値または最新の観測値に基づいて隠れ状態の軌跡を定義する必要があり、長いシーケンスと長い時間間隔を扱う場合の有効性について疑問を呈する。
本稿では、時系列データのコンテキストにおけるODEモデルの振る舞いについて、様々な範囲で検討する。
シーケンス表現の堅牢性を高めるために設計された,革新的なニューラルアーキテクチャであるSeqLinkを紹介する。
前回の観測値から生成された隠れ状態のみに依存する従来のアプローチとは異なり、SeqLinkは複数のデータサンプルから派生したODE潜在表現を利用して、シーケンスの長さやデータの疎度レベルに関わらず堅牢なデータ表現を生成する。
我々のモデルの背後にある中核的な概念は、サンプル間の関係(シーケンス間のリンク)に基づいて、観測されていない値に対する隠れ状態の定義である。
部分的に観測された合成および実世界のデータセットに関する広範な実験を通じて、SeqLinkは断続時系列のモデリングを改善し、一貫して最先端のアプローチより優れていることを示した。
Ordinary Differential Equations (ODE) based models have become popular as foundation models for solving many time series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models typically require the trajectory of hidden states to be defined based on either the initial observed value or the most recent observation, raising questions about their effectiveness when dealing with longer sequences and extended time intervals. In this article, we explore the behaviour of the ODE models in the context of time series data with varying degrees of sparsity. We introduce SeqLink, an innovative neural architecture designed to enhance the robustness of sequence representation. Unlike traditional approaches that solely rely on the hidden state generated from the last observed value, SeqLink leverages ODE latent representations derived from multiple data samples, enabling it to generate robust data representations regardless of sequence length or data sparsity level. The core concept behind our model is the definition of hidden states for the unobserved values based on the relationships between samples (links between sequences). Through extensive experiments on partially observed synthetic and real-world datasets, we demonstrate that SeqLink improves the modelling of intermittent time series, consistently outperforming state-of-the-art approaches. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# チャンネルシミュレーション:有限ブロック長とブロードキャストチャンネル
Channel Simulation: Finite Blocklengths and Broadcast Channels ( http://arxiv.org/abs/2212.11666v3 ) ライセンス: Link先を確認 | Michael X. Cao, Navneeth Ramakrishnan, Mario Berta, Marco Tomamichel, | (参考訳) 本研究では,有限ブロック長条件下での共通ランダム性支援によるチャネルシミュレーションについて検討し,スムーズなチャネル最大値情報を線形プログラムとして同定する。
このワンショットの逆は、符号なし助成符号を用いて正確に達成でき、ほぼランダム性助成符号を用いて達成できることを示す。
そこで,本稿では,チャネル符号化の相補的問題において,有名なメタ・コンバースに類似した役割を担い,この2つの境界の密接な関係を見出す。
我々は、離散的なメモリレスチャネルのシミュレーションコストの限界を漸近的に拡大し、ノイズのあるチャネル符号化から知られているチャネル容量とチャネル分散を表現できる2次および適度な偏差率拡大へと導いた。
我々の境界は、共通のランダム性援助の下で他のチャネルをシミュレートする一つのチャネルの最適な漸近速度が、それぞれの容量の比によって与えられることを暗示している。
さらに、我々の高次漸近展開は、この可逆性は2次で崩壊することを示している。
我々の技術は、離散的なメモリレス放送チャネルにまで拡張されている。
放送チャンネルキャパシティ問題とは対照的に、共通ランダム性支援下での放送チャンネルシミュレーションの逆問題により、放送チャンネルのマルチパーティイト相互情報の観点から、漸近的レート領域の効率よく計算可能なシングルレターキャラクタリゼーションが可能であることを示す。
We study channel simulation under common randomness assistance in the finite-blocklength regime and identify the smooth channel max-information as a linear program one-shot converse on the minimal simulation cost for fixed error tolerance. We show that this one-shot converse can be achieved exactly using no-signaling-assisted codes, and approximately achieved using common randomness-assisted codes. Our one-shot converse thus takes on an analogous role to the celebrated meta-converse in the complementary problem of channel coding, and we find tight relations between these two bounds. We asymptotically expand our bounds on the simulation cost for discrete memoryless channels, leading to the second-order as well as the moderate deviation rate expansion, which can be expressed in terms of the channel capacity and channel dispersion known from noisy channel coding. Our bounds imply the well-known fact that the optimal asymptotic rate of one channel to simulate another under common randomness assistance is given by the ratio of their respective capacities. Additionally, our higher-order asymptotic expansion shows that this reversibility falls apart in the second order. Our techniques extend to discrete memoryless broadcast channels. In stark contrast to the elusive broadcast channel capacity problem, we show that the reverse problem of broadcast channel simulation under common randomness assistance allows for an efficiently computable single-letter characterization of the asymptotic rate region in terms of the broadcast channel's multipartite mutual information. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# 視覚学習者がWebイメージテキストペアを語る
Vision Learners Meet Web Image-Text Pairs ( http://arxiv.org/abs/2301.07088v3 ) ライセンス: Link先を確認 | Bingchen Zhao, Quan Cui, Hao Wu, Osamu Yoshie, Cheng Yang, Oisin Mac Aodha, | (参考訳) 多くの自己教師付き学習手法が、よく計算されたImageNet-1Kデータセットで事前訓練されている。
本研究では、Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
まず,大規模Webデータを対象とした自己指導型事前学習手法のベンチマーク研究を行う。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
既存のマルチモーダル手法は、視覚伝達学習タスクにおいて、単独モーダル手法よりも優れていないことを観察する。
我々はこれらのベンチマーク結果を説明するために情報理論的な視点を導出し、新しい視覚学習者の設計方法に関する洞察を提供する。
この知見に触発されて、スケーラブルなWebソース画像テキストデータから学習する新しい視覚表現事前学習手法MUlti-modal Generator~(MUG)を提案する。
MUGは様々なタスクで最先端の転送性能を達成し、有望なスケーリング特性を示す。
事前訓練されたモデルとコードは受理時に公開される。
Many self-supervised learning methods are pre-trained on the well-curated ImageNet-1K dataset. In this work, given the excellent scalability of web data, we consider self-supervised pre-training on noisy web sourced image-text paired data. First, we conduct a benchmark study of representative self-supervised pre-training methods on large-scale web data in a like-for-like setting. We compare a range of methods, including single-modal ones that use masked training objectives and multi-modal ones that use image-text constrastive training. We observe that existing multi-modal methods do not outperform their single-modal counterparts on vision transfer learning tasks. We derive an information-theoretical view to explain these benchmark results, which provides insight into how to design a novel vision learner. Inspired by this insight, we present a new visual representation pre-training method, MUlti-modal Generator~(MUG), that learns from scalable web sourced image-text data. MUG achieves state-of-the-art transfer performance on a variety of tasks and demonstrates promising scaling properties. Pre-trained models and code will be made public upon acceptance. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# タスク境界検出によるオンラインメタ学習のためのアルゴリズム設計
Algorithm Design for Online Meta-Learning with Task Boundary Detection ( http://arxiv.org/abs/2302.00857v2 ) ライセンス: Link先を確認 | Daouda Sow, Sen Lin, Yingbin Liang, Junshan Zhang, | (参考訳) オンラインメタラーニングは、最近、バッチメタラーニングとオンラインラーニングの結婚として登場し、新しいタスクへの迅速な適応を生涯にわたって達成している。
しかし、既存のほとんどのアプローチは、オンラインタスクの分布が既知のタスク境界で固定されたままであるような制限的な設定に重点を置いている。
本研究では,これらの仮定を緩和し,非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
より具体的には,本アルゴリズムでは,タスクスイッチ検出機構により,現在のタスクに最適なモデルの再使用が可能であり,分散シフト検出機構がメタモデル更新を差別化することにより,配布中のタスクの知識を保存し,配布外タスクの新しい知識を迅速に学習する。
特に、オンラインのメタモデル更新は、現在のデータのみに基づいており、既存のほとんどのメソッドで必要とされるように、以前のデータを保存する必要がなくなる。
さらに, 軽度条件下では, アルゴリズムに対して, サブ線形なタスク平均的後悔が達成可能であることを示す。
3つの異なるベンチマークに関する実証研究は、我々のアルゴリズムが関連するベースラインアプローチよりも優れていることを明らかに示している。
Online meta-learning has recently emerged as a marriage between batch meta-learning and online learning, for achieving the capability of quick adaptation on new tasks in a lifelong manner. However, most existing approaches focus on the restrictive setting where the distribution of the online tasks remains fixed with known task boundaries. In this work, we relax these assumptions and propose a novel algorithm for task-agnostic online meta-learning in non-stationary environments. More specifically, we first propose two simple but effective detection mechanisms of task switches and distribution shift based on empirical observations, which serve as a key building block for more elegant online model updates in our algorithm: the task switch detection mechanism allows reusing of the best model available for the current task at hand, and the distribution shift detection mechanism differentiates the meta model update in order to preserve the knowledge for in-distribution tasks and quickly learn the new knowledge for out-of-distribution tasks. In particular, our online meta model updates are based only on the current data, which eliminates the need of storing previous data as required in most existing methods. We further show that a sublinear task-averaged regret can be achieved for our algorithm under mild conditions. Empirical studies on three different benchmarks clearly demonstrate the significant advantage of our algorithm over related baseline approaches. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# APARATE: CNNに基づく自律走行のための単眼深度推定のための適応的逆パッチ
APARATE: Adaptive Adversarial Patch for CNN-based Monocular Depth Estimation for Autonomous Navigation ( http://arxiv.org/abs/2303.01351v3 ) ライセンス: Link先を確認 | Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, Muhammad Shafique, | (参考訳) 近年、単眼深度推定(MDE)は、革新的アーキテクチャ、すなわち畳み込みニューラルネットワーク(CNN)とトランスフォーマーの統合によるパフォーマンスの著しい進歩を経験している。
しかし、特に安全とセキュリティが最優先の領域において、敵攻撃に対するこれらのモデルの感受性が注目に値する関心事となっている。
この懸念は、正確なシーン理解が重要である自律運転やロボットナビゲーションといったアプリケーションにおいて重要な役割を担っているため、MDEにとって特に重みとなる。
CNNに基づく深度予測手法の脆弱性を評価するため、最近の研究はMDEに対する敵パッチを設計しようとしている。
しかし、既存のアプローチはビジョンシステムに包括的で破壊的な影響をもたらすには至っていない。
その代わりに、その影響は部分的であり、特定の地域に限定されている。
これらの手法は,入力画像と重なり合う領域内でのみ,対象物体のサイズ,形状,位置などの特性を考慮せずに誤った深度予測を行う。
本稿では,APARATEという新たな対角パッチを提案する。
このパッチは、2つの異なる方法でMDEを選択的に弱体化させる能力を持っている。
特に、APARATEはターゲットオブジェクトの形状やスケールに敏感に設計されており、その影響はすぐ近くまで及んでいる。
APARATEは、平均深度推定誤差が0.5ドルを超え、CNNベースのMDEモデルに適用した場合、ターゲット領域の最大99.%のコストに著しく影響する。
さらに、TransformerベースのMDEのコンテキストにおいて、0.34ドルという大きなエラーが発生し、ターゲット領域の9,4\%以上に大きな影響を及ぼす。
In recent times, monocular depth estimation (MDE) has experienced significant advancements in performance, largely attributed to the integration of innovative architectures, i.e., convolutional neural networks (CNNs) and Transformers. Nevertheless, the susceptibility of these models to adversarial attacks has emerged as a noteworthy concern, especially in domains where safety and security are paramount. This concern holds particular weight for MDE due to its critical role in applications like autonomous driving and robotic navigation, where accurate scene understanding is pivotal. To assess the vulnerability of CNN-based depth prediction methods, recent work tries to design adversarial patches against MDE. However, the existing approaches fall short of inducing a comprehensive and substantially disruptive impact on the vision system. Instead, their influence is partial and confined to specific local areas. These methods lead to erroneous depth predictions only within the overlapping region with the input image, without considering the characteristics of the target object, such as its size, shape, and position. In this paper, we introduce a novel adversarial patch named APARATE. This patch possesses the ability to selectively undermine MDE in two distinct ways: by distorting the estimated distances or by creating the illusion of an object disappearing from the perspective of the autonomous system. Notably, APARATE is designed to be sensitive to the shape and scale of the target object, and its influence extends beyond immediate proximity. APARATE, results in a mean depth estimation error surpassing $0.5$, significantly impacting as much as $99\%$ of the targeted region when applied to CNN-based MDE models. Furthermore, it yields a significant error of $0.34$ and exerts substantial influence over $94\%$ of the target region in the context of Transformer-based MDE. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# 事前学習モデルによるクラスインクリメンタルラーニングの再考: 一般化可能性と適応性がすべて必要である
Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need ( http://arxiv.org/abs/2303.07338v2 ) ライセンス: Link先を確認 | Da-Wei Zhou, Zi-Wen Cai, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu, | (参考訳) クラスインクリメンタルラーニング(CIL)は、新しいクラスに適応することを目的としており、古いクラスを忘れることはない。
従来のCILモデルは、データが進化するにつれて知識を継続的に獲得するために、ゼロから訓練されている。
近年、事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
従来の方法とは対照的に、PTMは一般化可能な埋め込みを持ち、容易にCILに変換できる。
本研究では,CIL を PTM で再検討し,CIL の中核となる要素はモデル更新と知識伝達の一般化性であると主張している。
1)凍結型PTMはCILの汎用的な埋め込みをすでに実現可能であることを最初に明らかにした。
驚くべきことに、PTMの分類器をプロトタイプ機能に継続的に設定する単純なベースライン(SimpleCIL)は、下流タスクのトレーニングをしなくても最先端のタスクに勝てる。
2) 事前学習したデータセットと下流データセットの分布ギャップのため, PTMはモデル適応により適応性を持たせることができる。
本稿では PTM の埋め込みを集約する AdaPt と mERge (APER) を提案する。
APER は任意のパラメータ効率のチューニング手法と直交的に組み合わせることができる一般的なフレームワークであり、PTM の一般化性と適応モデルの適応性の利点がある。
3) 従来の ImageNet ベースのベンチマークはデータの重複による PTM の時代には適さないため,画像Net-A,ObjectNet,OmniBenchmark,VTAB の4つの新しいベンチマークを提案する。
大規模な実験は、統一的かつ簡潔なフレームワークでAPERの有効性を検証する。
コードはhttps://github.com/zhoudw-zdw/RevisitingCILで公開されている。
Class-incremental learning (CIL) aims to adapt to emerging new classes without forgetting old ones. Traditional CIL models are trained from scratch to continually acquire knowledge as data evolves. Recently, pre-training has achieved substantial progress, making vast pre-trained models (PTMs) accessible for CIL. Contrary to traditional methods, PTMs possess generalizable embeddings, which can be easily transferred for CIL. In this work, we revisit CIL with PTMs and argue that the core factors in CIL are adaptivity for model updating and generalizability for knowledge transferring. 1) We first reveal that frozen PTM can already provide generalizable embeddings for CIL. Surprisingly, a simple baseline (SimpleCIL) which continually sets the classifiers of PTM to prototype features can beat state-of-the-art even without training on the downstream task. 2) Due to the distribution gap between pre-trained and downstream datasets, PTM can be further cultivated with adaptivity via model adaptation. We propose AdaPt and mERge (APER), which aggregates the embeddings of PTM and adapted models for classifier construction. APER is a general framework that can be orthogonally combined with any parameter-efficient tuning method, which holds the advantages of PTM's generalizability and adapted model's adaptivity. 3) Additionally, considering previous ImageNet-based benchmarks are unsuitable in the era of PTM due to data overlapping, we propose four new benchmarks for assessment, namely ImageNet-A, ObjectNet, OmniBenchmark, and VTAB. Extensive experiments validate the effectiveness of APER with a unified and concise framework. Code is available at https://github.com/zhoudw-zdw/RevisitingCIL | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-05 |
# Minecraftのための強化学習フレンドリーなビジョンランゲージモデル
Reinforcement Learning Friendly Vision-Language Model for Minecraft ( http://arxiv.org/abs/2303.10571v2 ) ライセンス: Link先を確認 | Haobin Jiang, Junpeng Yue, Hao Luo, Ziluo Ding, Zongqing Lu, | (参考訳) AI研究コミュニティにおける重要なミッションの1つは、幅広いタスクにわたるハイレベルなパフォーマンスを達成するための、自律的な実施エージェントを構築することである。
しかし、すべてのオープンエンドタスクに対する報酬の取得や手作業による設計は現実的ではない。
本稿では,オープンエンドタスクの本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的とした,新しいクロスモーダル・コントラスト学習フレームワークアーキテクチャであるCLIP4MCを提案する。
ビデオスニペットと言語プロンプトの類似性を利用するだけでは、標準のVLMは粗いレベルでのみ類似性をキャプチャできるため、RLフレンドリではない。
RL-フレンドリー化を実現するために,タスク完了度をVLMトレーニング目標に組み込むことで,エージェントが異なる状態間の重要度を識別するのを助けることができる。
さらに,MineDojoが提供する大規模YouTubeデータベースに基づいて,適切なYouTubeデータセットを提供する。
具体的には、2ラウンドのフィルタリング操作により、データセットが十分な必須情報をカバーし、ビデオとテキストのペアが高い相関性を持つことが保証される。
実験により,提案手法はベースラインに比べてRLタスクの性能が向上することが実証された。
コードとデータセットはhttps://github.com/PKU-RL/CLIP4MCで公開されている。
One of the essential missions in the AI research community is to build an autonomous embodied agent that can achieve high-level performance across a wide spectrum of tasks. However, acquiring or manually designing rewards for all open-ended tasks is unrealistic. In this paper, we propose a novel cross-modal contrastive learning framework architecture, CLIP4MC, aiming to learn a reinforcement learning (RL) friendly vision-language model (VLM) that serves as an intrinsic reward function for open-ended tasks. Simply utilizing the similarity between the video snippet and the language prompt is not RL-friendly since standard VLMs may only capture the similarity at a coarse level. To achieve RL-friendliness, we incorporate the task completion degree into the VLM training objective, as this information can assist agents in distinguishing the importance between different states. Moreover, we provide neat YouTube datasets based on the large-scale YouTube database provided by MineDojo. Specifically, two rounds of filtering operations guarantee that the dataset covers enough essential information and that the video-text pair is highly correlated. Empirically, we demonstrate that the proposed method achieves better performance on RL tasks compared with baselines. The code and datasets are available at https://github.com/PKU-RL/CLIP4MC. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# 多体ハミルトン学習における量子制御の利点
The advantage of quantum control in many-body Hamiltonian learning ( http://arxiv.org/abs/2304.07172v3 ) ライセンス: Link先を確認 | Alicja Dutkiewicz, Thomas E. O'Brien, Thomas Schuster, | (参考訳) 実験データから多体量子系のハミルトニアンを学習する問題について検討する。
学習速度は,実験中に利用可能な制御量に依存することを示す。
3つの制御モデルを考える: 時間進化を瞬時に量子演算で拡張できるもの、ハミルトン自身を定数項を追加して拡張できるもの、実験者がシステムの時間進化を制御できないもの。
連続量子制御では、ハイゼンベルク極限で多体ハミルトニアンを学習するための適応アルゴリズムが提供される: $T = \mathcal{O}(\epsilon^{-1})$, ここでは、$T$は全ての実験における時間進化の総量であり、$\epsilon$は目標精度である。
これは、製品状態、時間進化、および製品ベースでの計測の準備のみを必要とする。
量子制御の欠如により、学習が標準的な量子制限であることを示す:$T = \Omega(\epsilon^{-2})$, for large class of many-body Hamiltonians, including any Hamiltonian that are thermalizes through the eigenstate thermalization hypothesis。
これらの結果は、量子制御による学習実験において、二次的な優位性を確立している。
We study the problem of learning the Hamiltonian of a many-body quantum system from experimental data. We show that the rate of learning depends on the amount of control available during the experiment. We consider three control models: one where time evolution can be augmented with instantaneous quantum operations, one where the Hamiltonian itself can be augmented by adding constant terms, and one where the experimentalist has no control over the system's time evolution. With continuous quantum control, we provide an adaptive algorithm for learning a many-body Hamiltonian at the Heisenberg limit: $T = \mathcal{O}(\epsilon^{-1})$, where $T$ is the total amount of time evolution across all experiments and $\epsilon$ is the target precision. This requires only preparation of product states, time-evolution, and measurement in a product basis. In the absence of quantum control, we prove that learning is standard quantum limited, $T = \Omega(\epsilon^{-2})$, for large classes of many-body Hamiltonians, including any Hamiltonian that thermalizes via the eigenstate thermalization hypothesis. These results establish a quadratic advantage in experimental runtime for learning with quantum control. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# 非線形変換における二次量子スピードアップ条件とエネルギー契約価格設定への応用
Conditions for a quadratic quantum speedup in nonlinear transforms with applications to energy contract pricing ( http://arxiv.org/abs/2304.10385v3 ) ライセンス: Link先を確認 | Gabriele Agliardi, Corey O'Meara, Kavitha Yogaraj, Kumar Ghosh, Piergiacomo Sabino, Marina Fernández-Campoamor, Giorgio Cortiana, Juan Bernabé-Moreno, Francesco Tacchino, Antonio Mezzacapo, Omar Shehab, | (参考訳) 多線形形式上の非線形関数の計算は、リスク分析における一般的な問題である。
例えば、エネルギー経済学の分野では、数百万のシナリオを効率的にシミュレーションするための正確でタイムリーなリスク管理が要求される。
本研究では,非線形関数の多項式近似に基づく新しいハイブリッド量子古典アルゴリズムを開発し,量子アダマール積による計算を行い,古典的アルゴリズムに対する異なる実装変種に対するエンド・ツー・エンド・スピードアップの条件を厳格に評価する。
我々の設定では、入力データセットに効率的な負荷ユニタリが利用できる場合、形式が双線型で近似多項式が第2次である場合に限り、2次量子スピードアップが証明できる。
また、回路深さと幅のバランスを調整できる双方向符号化を強化し、内部積の計算に利用できる改良版を提案する。
最後に、最近IBM Quantumデバイスに導入された動的回路機能を利用して、Quantum Hadamard Productサーキットの平均深度を下げる。
原理の証明はIBM Quantumシステム上で実装され、検証される。
Computing nonlinear functions over multilinear forms is a general problem with applications in risk analysis. For instance in the domain of energy economics, accurate and timely risk management demands for efficient simulation of millions of scenarios, largely benefiting from computational speedups. We develop a novel hybrid quantum-classical algorithm based on polynomial approximation of nonlinear functions, computed through Quantum Hadamard Products, and we rigorously assess the conditions for its end-to-end speedup for different implementation variants against classical algorithms. In our setting, a quadratic quantum speedup, up to polylogarithmic factors, can be proven only when forms are bilinear and approximating polynomials have second degree, if efficient loading unitaries are available for the input data sets. We also enhance the bidirectional encoding, that allows tuning the balance between circuit depth and width, proposing an improved version that can be exploited for the calculation of inner products. Lastly, we exploit the dynamic circuit capabilities, recently introduced on IBM Quantum devices, to reduce the average depth of the Quantum Hadamard Product circuit. A proof of principle is implemented and validated on IBM Quantum systems. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# Avatar Fingerprinting for Authorized use of Synthetic Talking-Head Videos
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos ( http://arxiv.org/abs/2305.03713v3 ) ライセンス: Link先を確認 | Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo, | (参考訳) 現代のアバタージェネレータは、誰でもフォトリアリスティックなリアルタイムなアバターを合成でき、没入型AR/VRインタラクションや限られた帯域幅でのビデオ会議など、新しい時代のアバターベースの人間コミュニケーションを支えている。
しかし、彼らの安全な採用には、レンダリングされたアバターが信頼できるかどうかを検証するメカニズムが必要である。
これをアバターフィンガープリントと呼ぶ。
そこで我々はまず,ビデオ通話で対話する人々の実・合成ビデオの大規模データセットを導入し,ある人物の顔の外観と他の人物の表情を用いて合成ビデオを生成する。
顔の表情に依存しない動きのシグネチャを学習することにより、合成ビデオで表現を駆動するアイデンティティを検証する。
我々の解は、この空間で最初に、平均的な AUC が 0.85 に達する。
実用上は非常に重要であり、訓練で見たことのない新しい発電機(平均AUC 0.83)にも一般化されている。
提案されたデータセットとその他のリソースは、https://research.nvidia.com/labs/nxp/avatar-fingerprinting/で見ることができる。
Modern avatar generators allow anyone to synthesize photorealistic real-time talking avatars, ushering in a new era of avatar-based human communication, such as with immersive AR/VR interactions or videoconferencing with limited bandwidths. Their safe adoption, however, requires a mechanism to verify if the rendered avatar is trustworthy: does it use the appearance of an individual without their consent? We term this task avatar fingerprinting. To tackle it, we first introduce a large-scale dataset of real and synthetic videos of people interacting on a video call, where the synthetic videos are generated using the facial appearance of one person and the expressions of another. We verify the identity driving the expressions in a synthetic video, by learning motion signatures that are independent of the facial appearance shown. Our solution, the first in this space, achieves an average AUC of 0.85. Critical to its practical use, it also generalizes to new generators never seen in training (average AUC of 0.83). The proposed dataset and other resources can be found at: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# 環境制約下における文脈依存コミュニケーション
Context-dependent communication under environmental constraints ( http://arxiv.org/abs/2305.05821v2 ) ライセンス: Link先を確認 | Krzysztof Główka, Julian Zubek, Joanna Rączaszek-Leonardi, | (参考訳) 実世界のコミュニケーションは、文脈に依存しない意味を持つ送信信号に還元できないという重要な証拠がある。
本研究では、古典的なルイス(1969)信号モデルの変種に基づいて、位置するシナリオにおける文脈依存通信の出現条件について検討する。
特に,語彙サイズを最小化する圧力は,このような出現に十分であることを示す。
同時に、シンボルの意味の文脈的曖昧化を可能にする環境条件と認知能力について検討する。
本研究では,受信者の参照選択に対する環境制約を,受信者の端の曖昧さを伴わずに一方的に利用可能であることを示す。
一般的な仮定と一致して、送信者のコンテキストに対する認識は、コンテキストコミュニケーションに必要であると考えられる。
文脈依存型コミュニケーションは, 文脈分布などの環境特性の影響を強く受け, 多層化現象である可能性が示唆された。
この研究で開発されたモデルは、信号が文脈から曖昧であることを示すものであるが、それでもほぼ完全な通信精度が可能である。
There is significant evidence that real-world communication cannot be reduced to sending signals with context-independent meaning. In this work, based on a variant of the classical Lewis (1969) signaling model, we explore the conditions for the emergence of context-dependent communication in a situated scenario. In particular, we demonstrate that pressure to minimise the vocabulary size is sufficient for such emergence. At the same time, we study the environmental conditions and cognitive capabilities that enable contextual disambiguation of symbol meanings. We show that environmental constraints on the receiver's referent choice can be unilaterally exploited by the sender, without disambiguation capabilities on the receiver's end. Consistent with common assumptions, the sender's awareness of the context appears to be required for contextual communication. We suggest that context-dependent communication is a situated multilayered phenomenon, crucially influenced by environment properties such as distribution of contexts. The model developed in this work is a demonstration of how signals may be ambiguous out of context, but still allow for near-perfect communication accuracy. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# デジタルサービス法におけるコンテンツモデレーションの「正確性」の運用
Operationalizing content moderation "accuracy" in the Digital Services Act ( http://arxiv.org/abs/2305.09601v5 ) ライセンス: Link先を確認 | Johnny Tian-Zheng Wei, Frederike Zufall, Robin Jia, | (参考訳) EUが最近採択したデジタルサービス法(Digital Services Act)では、ソーシャルメディアプラットフォームが自動コンテンツモデレーションシステムの「正確性」を報告する必要がある。
口語という用語は曖昧で、オープンテクスチャで、正解精度(合計で割り切れた正確な予測数)は大きなクラス不均衡の問題には不適であり、精度を測る根拠となる真実とデータセットは特定されていない。
さらなる仕様がなければ、規制要件は不十分な報告を可能にする。
この学際的な研究において、法的概念を精査し、技術的実装に関連付けて「正確さ」の報告を運用する。
我々は,「正確性」の解釈を精度とリコールとして法的に正当化する法律の立法目的を解明することから始める。
これらの指標は、クラス不均衡な設定において情報的であり、EU憲章の基本的権利の比例的バランスを反映している。
提案手法は,極めて高いアノテーションコストを発生させることができ,かつ,プラットフォームがビジネスを行う権利を不当に阻害することができるため,リコールの推定に重点を置いている。
シミュレーション研究を通じて,訓練された分類器を用いた階層化サンプリングを用いて,効率的にリコールを推定できることを示し,その適用のために具体的なレコメンデーションを提供する。
最後に、この法律に基づくRedditのサブセットに対するリコールレポートのケーススタディを示す。
この法律の言語に基づいて、不特定性のためにリコールを報告できるいくつかの方法を特定した。
本稿では,改良型推定器を用いた1つの可能性について報告し,さらなる法的明確化の意義と領域について論じる。
The Digital Services Act, recently adopted by the EU, requires social media platforms to report the "accuracy" of their automated content moderation systems. The colloquial term is vague, or open-textured -- the literal accuracy (number of correct predictions divided by the total) is not suitable for problems with large class imbalance, and the ground truth and dataset to measure accuracy against is unspecified. Without further specification, the regulatory requirement allows for deficient reporting. In this interdisciplinary work, we operationalize "accuracy" reporting by refining legal concepts and relating them to technical implementation. We start by elucidating the legislative purpose of the Act to legally justify an interpretation of "accuracy" as precision and recall. These metrics remain informative in class imbalanced settings, and reflect the proportional balancing of Fundamental Rights of the EU Charter. We then focus on the estimation of recall, as its naive estimation can incur extremely high annotation costs and disproportionately interfere with the platform's right to conduct business. Through a simulation study, we show that recall can be efficiently estimated using stratified sampling with trained classifiers, and provide concrete recommendations for its application. Finally, we present a case study of recall reporting for a subset of Reddit under the Act. Based on the language in the Act, we identify a number of ways recall could be reported due to underspecification. We report on one possibility using our improved estimator, and discuss the implications and areas for further legal clarification. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# SIGMA:異種グラフニューラルネットワークのための類似性に基づく効率的なグローバルアグリゲーション
SIGMA: Similarity-based Efficient Global Aggregation for Heterophilous Graph Neural Networks ( http://arxiv.org/abs/2305.09958v2 ) ライセンス: Link先を確認 | Haoyu Liu, Ningyi Liao, Siqiang Luo, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習において大きな成功を収めているが、不均等に会うとパフォーマンスが低下する。
ヘテロ親和性GNNの既存の試みでは、グラフ内のノードを区別するために長距離またはグローバルアグリゲーションが組み込まれている。
しかし、これらの集約は通常、大規模なグラフに適用する際の効率を制限するフルグラフ情報を反復的に保持し、更新する必要がある。
本稿では,SimRankの構造的類似度測定を統合したグローバルなヘテロ親和性GNNアグリゲーションである \aggname{} を提案する。
我々の理論的分析は、<aggname{} が本質的にヘテロフィリーの下でも遠い大域的な類似性を捉えており、従来の手法は反復的な凝集の後にしか達成できないことを示している。
さらに、ノードセットサイズ$\mathcal{O}(n)$にのみ線形な複雑性を持つ効率的なワンタイム計算も楽しめる。
包括的評価は,<aggname{} がより優れた集約と全体的な効率で最先端のパフォーマンスを達成することを示す。
特に、大規模なヘテロフィリーデータセット \emph{pokec} 上で、最高のベースラインアグリゲーションと比較して3000万以上のエッジを持つ 5$\times$Acceleration を得る。
Graph neural networks (GNNs) realize great success in graph learning but suffer from performance loss when meeting heterophily, i.e. neighboring nodes are dissimilar, due to their local and uniform aggregation. Existing attempts of heterophilous GNNs incorporate long-range or global aggregations to distinguish nodes in the graph. However, these aggregations usually require iteratively maintaining and updating full-graph information, which limits their efficiency when applying to large-scale graphs. In this paper, we propose \aggname{}, an efficient global heterophilous GNN aggregation integrating the structural similarity measurement SimRank. Our theoretical analysis illustrates that \aggname{} inherently captures distant global similarity even under heterophily, that conventional approaches can only achieve after iterative aggregations. Furthermore, it enjoys efficient one-time computation with a complexity only linear to the node set size $\mathcal{O}(n)$. Comprehensive evaluation demonstrates that \aggname{} achieves state-of-the-art performance with superior aggregation and overall efficiency. Notably, it obtains 5$\times$ acceleration on the large-scale heterophily dataset \emph{pokec} with over 30 million edges compared to the best baseline aggregation. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# 大型ランガウジモデルにおける共振器の連鎖型プロンプティング計画
Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v7 ) ライセンス: Link先を確認 | Hanxu Hu, Hongyuan Lu, Huajian Zhang, Yun-Ze Song, Wai Lam, Yue Zhang, | (参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画作業において,LLMの性能について検討する。
我々は、Brick World、NLVRベースのManipulations、Natural Language Navigationという一連の新しいタスクからなるNatural Language Planning and Action(Natala)というベンチマークを提案する。
現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことが分かりました。
LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか?
そこで本研究では,連鎖した中間思考段階において,凝縮した記号空間表現を持つ複雑な環境を表現する,CoS(Chain-of-Symbol Prompting)という手法を提案する。
CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。
大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることが示唆された。
Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。
CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに減らしている。
https://github.com/hanxuhu/chain-of-symbol-planning
In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning and Action (Natala) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World. Code and data available at: https://github.com/hanxuhu/chain-of-symbol-planning | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# GTNet:3Dポイントクラウド分類とセマンティックセグメンテーションのためのグラフトランスフォーマネットワーク
GTNet: Graph Transformer Network for 3D Point Cloud Classification and Semantic Segmentation ( http://arxiv.org/abs/2305.15213v3 ) ライセンス: Link先を確認 | Wei Zhou, Qian Wang, Weiwei Jin, Xinzhe Shi, Ying He, | (参考訳) 近年,グラフベースおよびトランスフォーマーベースのディープラーニングネットワークは,様々なポイントクラウドタスクにおいて優れた性能を示した。
既存のグラフ手法のほとんどは静的グラフに基づいており、グラフ関係を確立するために固定的な入力を取る。
さらに、多くのグラフ法は、隣接する特徴を集約するために最大化と平均化を適用するので、1つの隣接点だけが中心点の特徴に影響を及ぼすか、または異なる隣接点だけが、点間の相関や差を無視した中心点の特徴に同じ影響を及ぼす。
トランスフォーマーベースのほとんどの手法は、グローバルな注意に基づくポイントクラウドの特徴を抽出し、近隣地域の特徴学習を欠いている。
これら2種類のモデルの課題を解決するため,グラフ変換器という新機能抽出ブロックを提案し,GTNetと呼ばれる3次元ポイントポイントクラウド学習ネットワークを構築し,局所パターンとグローバルパターンにおけるポイントクラウドの特徴を学習する。
Graph Transformerは、グラフベースとTransformerベースのメソッドの利点を統合し、Local TransformerとGlobal Transformerモジュールで構成される。
Local Transformerは、動的グラフを使用して、動的に更新されたグラフ関係を持つドメイン内のクロスアテンションによって、近隣のすべてのポイントが異なる重みを持つセントロイドの特徴に影響を与えるように、すべての近隣のポイントウェイトを計算する。
また,ネットワーク深度の増加による勾配の消失を回避するため,GTNetにおけるセントロイド特徴の残差接続を行い,局所変換器の局所的幾何学的記述子を生成することで,モデルの局所的情報学習能力を向上する。
最後に,GTNetを用いて形状分類,部分分割,意味分割を行う。
Recently, graph-based and Transformer-based deep learning networks have demonstrated excellent performances on various point cloud tasks. Most of the existing graph methods are based on static graph, which take a fixed input to establish graph relations. Moreover, many graph methods apply maximization and averaging to aggregate neighboring features, so that only a single neighboring point affects the feature of centroid or different neighboring points have the same influence on the centroid's feature, which ignoring the correlation and difference between points. Most Transformer-based methods extract point cloud features based on global attention and lack the feature learning on local neighbors. To solve the problems of these two types of models, we propose a new feature extraction block named Graph Transformer and construct a 3D point point cloud learning network called GTNet to learn features of point clouds on local and global patterns. Graph Transformer integrates the advantages of graph-based and Transformer-based methods, and consists of Local Transformer and Global Transformer modules. Local Transformer uses a dynamic graph to calculate all neighboring point weights by intra-domain cross-attention with dynamically updated graph relations, so that every neighboring point could affect the features of centroid with different weights; Global Transformer enlarges the receptive field of Local Transformer by a global self-attention. In addition, to avoid the disappearance of the gradient caused by the increasing depth of network, we conduct residual connection for centroid features in GTNet; we also adopt the features of centroid and neighbors to generate the local geometric descriptors in Local Transformer to strengthen the local information learning capability of the model. Finally, we use GTNet for shape classification, part segmentation and semantic segmentation tasks in this paper. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-05 |
# ボソン-ボソン相互作用を持たない単一ボソンモードによる臨界センシング
Critical sensing with a single bosonic mode without boson-boson interactions ( http://arxiv.org/abs/2305.17656v4 ) ライセンス: Link先を確認 | Ken Chen, Jia-Hao Lü, Xin Zhu, Hao-Long Zhang, Wen Ning, Zhen-Biao Yang, Shi-Biao Zheng, | (参考訳) 量子系の臨界現象は、量子センシングの強化に有用である。
しかし、臨界性増強の実験的な実現は、熱力学やスケーリングの限界を含む厳密な要件、相互作用する量子スーパシステムや粒子の制御など、ごく少数のシステムに限られている。
ここでは、これらの条件をどちらも必要としない単純な臨界量子センシング方式を提案する。
臨界系は、多くの非相互作用ボソンを含む1つのパラメトリック駆動ボソニックモードで実現される。
我々は、量子フィッシャー情報を計算し、臨界を許容するエンハンスメントを確認するシミュレーションを行う。
さらに、制御パラメータの変動に対する二次関数の1つの応答について詳述する。
数値的な結果から,その逆分散は臨界点における変動挙動を示すことが明らかとなった。
現在利用可能なパラメトリック駆動の制御技術に基づいて,本手法はイオントラップや超伝導回路など,様々なシステムで実現可能であることを期待する。
Critical phenomena of quantum systems are useful for enhancement of quantum sensing. However, experimental realizations of criticality enhancement have been confined to very few systems, owing to the stringent requirements, including the thermodynamical or scaling limit, and fine control of interacting quantum susystems or particles. We here propose a simple critical quantum sensing scheme that requires neither of these conditions. The critical system is realized with a single parametrically-driven bosonic mode involving many non-interacting bosons. We calculate the quantum Fisher information, and perform a simulation, which confirms the criticality-enabled enhancement. We further detail the response of one of the quadratures to the variation of the control parameter. The numerical results reveal that its inverted variance exhibits a diverging behavior at the critical point. Based on the presently available control techniques of parametric driving, we expect our scheme can be realized in different systems, e.g., ion traps and superconducting circuits. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-05 |
# 有能なコンピュータ思考テスト(cCTt) : 3~6年生の縦断CT研究における妥当性,信頼性,ジェンダーフェアテスト
The competent Computational Thinking test (cCTt): a valid, reliable and gender-fair test for longitudinal CT studies in grades 3-6 ( http://arxiv.org/abs/2305.19526v2 ) ライセンス: Link先を確認 | Laila El-Hamamsy, María Zapata-Cáceres, Estefanía Martín-Barroso, Francesco Mondada, Jessica Dehler Zufferey, Barbara Bruno, Marcos Román-González, | (参考訳) 世界中のカリキュラムにコンピューティング教育を導入するには、学習に対する長期的な影響を評価するために、多年にわたる評価が必要である。
しかし、1つのCT評価は小学校に限らず、CT評価のグループは楽器間の遷移手段を提供していない。
そこで本研究では,2709名の学生のデータを用いて,3年生から6年生(年齢7~11歳)までの学習を確実に評価できるかどうかを検討した。
心理計量分析では、古典的テスト理論、項目応答理論、異なる項目機能、正規化されたz-scoring、PISAの習熟度を確立する方法論を含む測定不変性分析を取り入れた。
以上の結果から,cCTtは学年3-6では有効で信頼性が高く,ジェンダーフェアであり,より複雑な項目は学年5-6では有益であることが示唆された。
グレード固有の習熟度は、介入の調整を助けるために提供され、正規化されたスコアシステムにより、グレード間の学生を比較し、楽器間の遷移を確立するのに役立つ。
研究者,教育者,実践者におけるCTアセスメントの有用性を高めるために,本研究の意義を強調した。
一 生徒の認知成熟と整合したジェンダーフェア、等級特化器を開発し、検証し、提供すること。
二 熟練度及び熟練度
三 評価間の推移に対する等価度尺度
結論として, 縦断的発達的評価と介入の設計について考察した。
The introduction of computing education into curricula worldwide requires multi-year assessments to evaluate the long-term impact on learning. However, no single Computational Thinking (CT) assessment spans primary school, and no group of CT assessments provides a means of transitioning between instruments. This study therefore investigated whether the competent CT test (cCTt) could evaluate learning reliably from grades 3 to 6 (ages 7-11) using data from 2709 students. The psychometric analysis employed Classical Test Theory, Item Response Theory, Measurement Invariance analyses which include Differential Item Functioning, normalised z-scoring, and PISA's methodology to establish proficiency levels. The findings indicate that the cCTt is valid, reliable and gender-fair for grades 3-6, although more complex items would be beneficial for grades 5-6. Grade-specific proficiency levels are provided to help tailor interventions, with a normalised scoring system to compare students across and between grades, and help establish transitions between instruments. To improve the utility of CT assessments among researchers, educators and practitioners, the findings emphasise the importance of i) developing and validating gender-fair, grade-specific, instruments aligned with students' cognitive maturation, and providing ii) proficiency levels, and iii) equivalency scales to transition between assessments. To conclude, the study provides insight into the design of longitudinal developmentally appropriate assessments and interventions. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-05 |
# テキスト・ツー・イメージ・ジェネレーションの育成実践
The Cultivated Practices of Text-to-Image Generation ( http://arxiv.org/abs/2306.11393v2 ) ライセンス: Link先を確認 | Jonas Oppenlaender, | (参考訳) 人間は、誰でも生成人工知能(AI)を使ってデジタル情報を合成できる新しい創造的時代に入った。
特にテキスト・ツー・イメージ・ジェネレーションは非常に人気があり、何百万人もの実践者がAI生成画像やAIアートをオンラインで制作している。
この章ではまず、テキスト・ツー・イメージ生成に関する健全な共創造的なオンラインエコシステムが急速に出現し、続いて、このエコシステムにおける重要な要素を高レベルに記述する上で、重要な展開の概要を紹介します。
AIアートコミュニティによって受け入れられた創造的なプラクティスである、プロンプトエンジニアリングに特に焦点が当てられている。
このシステムは、人間の創造性をサポートするだけでなく、将来の世代を巻き込み、AIにおける将来の開発努力を制限する可能性がある。
この章では、今日のトレーニングデータに固有のバイアス、合成データによる将来の画像生成システムの潜在的な品質劣化、人々の想像力、野心、発展に対するテキスト・ツー・イメージ・ジェネレーションの長期的な影響など、この共同創造的エコシステムを育む潜在的なリスクと危険性について論じている。
Humankind is entering a novel creative era in which anybody can synthesize digital information using generative artificial intelligence (AI). Text-to-image generation, in particular, has become vastly popular and millions of practitioners produce AI-generated images and AI art online. This chapter first gives an overview of the key developments that enabled a healthy co-creative online ecosystem around text-to-image generation to rapidly emerge, followed by a high-level description of key elements in this ecosystem. A particular focus is placed on prompt engineering, a creative practice that has been embraced by the AI art community. It is then argued that the emerging co-creative ecosystem constitutes an intelligent system on its own - a system that both supports human creativity, but also potentially entraps future generations and limits future development efforts in AI. The chapter discusses the potential risks and dangers of cultivating this co-creative ecosystem, such as the bias inherent in today's training data, potential quality degradation in future image generation systems due to synthetic data becoming common place, and the potential long-term effects of text-to-image generation on people's imagination, ambitions, and development. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-05 |
# ガジェットを超えて行く - アナログ量子シミュレータのスケーラビリティの重要性
Going Beyond Gadgets: The Importance of Scalability for Analogue Quantum Simulators ( http://arxiv.org/abs/2306.13739v3 ) ライセンス: Link先を確認 | Dylan Harley, Ishaun Datta, Frederik Ravn Klausen, Andreas Bluhm, Daniel Stilck França, Albert H. Werner, Matthias Christandl, | (参考訳) 量子ハードウェアは、計算的に難しい物理と化学の問題を効率的に解決し、膨大な実用的な報酬を得られる可能性がある。
アナログ量子シミュレーションは、制御された多体系の力学を用いて他の系の力学を模倣することでこれを達成し、そのような手法は短期的な装置で実現可能である。
従来のアナログ量子シミュレーションの理論的アプローチは,スケーラブルな実験実装を禁止した基本障壁に悩まされていた。
新しい数学的枠組みを導入し、工学的な散逸のリソースを付加したハミルトン複雑性理論の通常のツールボックスを超えていくことで、これらの障壁を克服できることが示される。
これはアナログ量子シミュレータの厳密な研究に強力な新しい視点を与える。
Quantum hardware has the potential to efficiently solve computationally difficult problems in physics and chemistry to reap enormous practical rewards. Analogue quantum simulation accomplishes this by using the dynamics of a controlled many-body system to mimic those of another system; such a method is feasible on near-term devices. We show that previous theoretical approaches to analogue quantum simulation suffer from fundamental barriers which prohibit scalable experimental implementation. By introducing a new mathematical framework and going beyond the usual toolbox of Hamiltonian complexity theory with an additional resource of engineered dissipation, we show that these barriers can be overcome. This provides a powerful new perspective for the rigorous study of analogue quantum simulators. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-05 |
# ドメイン固有の自然言語処理アプリケーション構築のためのユーザエクスペリエンスの創出
Generative User-Experience Research for Developing Domain-specific Natural Language Processing Applications ( http://arxiv.org/abs/2306.16143v5 ) ライセンス: Link先を確認 | Anastasia Zhukova, Lukas von Sperl, Christian E. Matt, Bela Gipp, | (参考訳) ユーザエクスペリエンス(UX)は、ヒューマンコンピュータインタラクション(HCI)研究の一部であり、システムのユーザに対する直感性、透明性、単純さ、信頼の向上に焦点を当てている。
機械学習(ML)や自然言語処理(NLP)のためのUX研究のほとんどは、データ駆動の方法論に焦点を当てている。
主にユーザビリティ評価のためにドメインユーザを対象とする。
さらに、より一般的なUXメソッドは、最初にユーザニーズについて学ぶのとは異なり、システムをユーザユーザビリティに向けて調整する。
本稿では、生成UX研究をドメインNLPアプリケーションに組み込むための新しい手法を提案する。
生成UX研究は、プロトタイプ開発の初期段階、すなわちアイデアと概念評価、およびシステムの有用性とユーザ有用性を評価するための最終段階において、ドメインユーザーを採用する。
本手法は,プロセス産業における日常業務のためのドメイン固有セマンティックサーチのフルサイクルプロトタイプ開発に関するケーススタディから開発され,評価されている。
ケーススタディの重要な発見は、ドメインの専門家が関与することで、最終的なNLPアプリケーションに対する関心と信頼が高まります。
提案手法を併用したUX+NLP研究は,NLPアプリケーション開発に不可欠なデータ駆動とユーザ主導の機会と制約を効率的に検討する。
User experience (UX) is a part of human-computer interaction (HCI) research and focuses on increasing intuitiveness, transparency, simplicity, and trust for the system users. Most UX research for machine learning (ML) or natural language processing (NLP) focuses on a data-driven methodology. It engages domain users mainly for usability evaluation. Moreover, more typical UX methods tailor the systems towards user usability, unlike learning about the user needs first. This paper proposes a new methodology for integrating generative UX research into developing domain NLP applications. Generative UX research employs domain users at the initial stages of prototype development, i.e., ideation and concept evaluation, and the last stage for evaluating system usefulness and user utility. The methodology emerged from and is evaluated on a case study about the full-cycle prototype development of a domain-specific semantic search for daily operations in the process industry. A key finding of our case study is that involving domain experts increases their interest and trust in the final NLP application. The combined UX+NLP research of the proposed method efficiently considers data- and user-driven opportunities and constraints, which can be crucial for developing NLP applications. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-05 |
# 次世代マルチコア光ファイバーを用いた高速オープン量子系の非マルコビアン性
Non-Markovianity in High-Dimensional Open Quantum Systems using Next-generation Multicore Optical Fibers ( http://arxiv.org/abs/2308.00094v3 ) ライセンス: Link先を確認 | Santiago Rojas-Rojas, Daniel Martínez, Kei Sawada, Luciano Pereira, Stephen P. Walborn, Esteban S. Gómez, Nadja K. Bernardes, Gustavo Lima, | (参考訳) 量子技術の出現に伴い、量子システムによるコミュニケーションタスクへの関心は、学術と産業の両方において高まっている。
それでも、現実のシナリオにおける量子状態の伝達は環境ノイズに縛られ、量子チャネルはオープンな量子システムである。
本研究では, 環境相互作用を量子演算として特徴付けることで, マルチコア光ファイバにおける高次元非マルコフ開量子系について検討する。
実験プラットフォームは現在、光ファイバー通信の空間分割多重化のための最先端技術であり、高次元量子通信のための堅牢なチャネルとして機能することができる。
チャネルをテストするために、我々は準備と測定のシナリオで量子通信タスクを実行する。
このシステムのマルコフ的でない性質は量子Vaultプロトコルの実装によって実証される。
マルチコアファイバにおける位相ノイズのより深い理解は、世界中の通信通信速度を向上する主要な候補であるため、いくつかの実世界の通信プロトコルの安定性と品質を向上させる可能性がある。
With the advent of quantum technology, the interest in communication tasks assisted by quantum systems has increased both in academia and industry. Nonetheless, the transmission of a quantum state in real-world scenarios is bounded by environmental noise, so that the quantum channel is an open quantum system. In this work, we study a high dimensional non-Markovian open quantum system in a multi-core optical fiber by characterizing the environmental interaction as quantum operations, which here correspond to phase flips between pairs of computational basis states. The experimental platform is currently state-of-the-art for space division multiplexing optical fiber communication, which can serve as a robust channel for high-dimensional quantum communication. To test the channel, we perform a quantum communication task in the prepare-and-measure scenario. The non-Markovian nature of the system is demonstrated by implementing a Quantum Vault protocol. A better understanding of the phase noise in multi-core fibers could improve the stability and quality of several real-world communication protocols since they are a prime candidate to increase the telecom data transmission rate worldwide. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-05 |
# 物理インフォームド畳み込みニューラルネットワークを用いた球面上のPDEの解法
Solving PDEs on Spheres with Physics-Informed Convolutional Neural Networks ( http://arxiv.org/abs/2308.09605v2 ) ライセンス: Link先を確認 | Guanhang Lei, Zhen Lei, Lei Shi, Chenyu Zeng, Ding-Xuan Zhou, | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々な実験的観点から偏微分方程式(PDE)を解くのに効率的であることが示されている。
いくつかの最近の研究は、球面を含む表面上のPDEに対するPINNアルゴリズムも提案している。
しかし、PINN、特に表面や多様体上のPINNの数値的性能に関する理論的理解はいまだに不足している。
本稿では,物理インフォームド畳み込みニューラルネットワーク(PICNN)の厳密な解析を行い,球面上のPDEを解く。
深部畳み込みニューラルネットワークの最新の近似結果と球面調和解析を用いて,ソボレフ標準に対する近似誤差の上限を証明した。
次に、これを革新的な局所化複雑性解析と統合し、PICNNの高速収束率を確立する。
また, 理論的結果も確認し, 補足した。
これらの知見を踏まえ,高次元PDEを解く際に生じる次元の呪いを回避するための潜在的戦略を探究する。
Physics-informed neural networks (PINNs) have been demonstrated to be efficient in solving partial differential equations (PDEs) from a variety of experimental perspectives. Some recent studies have also proposed PINN algorithms for PDEs on surfaces, including spheres. However, theoretical understanding of the numerical performance of PINNs, especially PINNs on surfaces or manifolds, is still lacking. In this paper, we establish rigorous analysis of the physics-informed convolutional neural network (PICNN) for solving PDEs on the sphere. By using and improving the latest approximation results of deep convolutional neural networks and spherical harmonic analysis, we prove an upper bound for the approximation error with respect to the Sobolev norm. Subsequently, we integrate this with innovative localization complexity analysis to establish fast convergence rates for PICNN. Our theoretical results are also confirmed and supplemented by our experiments. In light of these findings, we explore potential strategies for circumventing the curse of dimensionality that arises when solving high-dimensional PDEs. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-05 |
# 音声事象検出のための言語モデル機能の活用
Leveraging Language Model Capabilities for Sound Event Detection ( http://arxiv.org/abs/2308.11530v2 ) ライセンス: Link先を確認 | Hualei Wang, Jianguo Mao, Zhifang Guo, Jiarui Wan, Hong Liu, Xiangdong Wang, | (参考訳) 大規模言語モデルはマルチモーダリティの分野で深い理解と流動性を生み出す。
音声のマルチモーダル性には大きな進歩があったが、既存の手法では音声イベント検出(SED)に言語モデルを活用することはめったにない。
本研究では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
従来の方法では、分類のための純粋なオーディオ領域の機能を得るのに苦労する。
対照的に、我々のフレームワークは言語モデルを利用して、音響表現と整合した豊富な意味的文脈を柔軟に理解する。
実験結果から,タイムスタンプの精度向上とイベント分類における提案手法の有効性が示された。
Large language models reveal deep comprehension and fluent generation in the field of multi-modality. Although significant advancements have been achieved in audio multi-modality, existing methods are rarely leverage language model for sound event detection (SED). In this work, we propose an end-to-end framework for understanding audio features while simultaneously generating sound event and their temporal location. Specifically, we employ pretrained acoustic models to capture discriminative features across different categories and language models for autoregressive text generation. Conventional methods generally struggle to obtain features in pure audio domain for classification. In contrast, our framework utilizes the language model to flexibly understand abundant semantic context aligned with the acoustic representation. The experimental results showcase the effectiveness of proposed method in enhancing timestamps precision and event classification. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-05 |
# オープンセサミ! 大規模言語モデルのユニバーサルブラックボックスジェイルブレイク
Open Sesame! Universal Black Box Jailbreaking of Large Language Models ( http://arxiv.org/abs/2309.01446v4 ) ライセンス: Link先を確認 | Raz Lapid, Ron Langberg, Moshe Sipper, | (参考訳) 大きな言語モデル(LLM)は、有用で安全な応答を提供するように設計されており、しばしばユーザーの意図や社会ガイドラインに合わせたアライメント技術に依存している。
残念ながら、このアライメントはLLMの出力を意図しない目的のために操作しようとする悪意のあるアクターによって悪用される。
本稿では,モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
GA攻撃は、(ユーザのクエリと組み合わせて)攻撃されたモデルのアライメントを妨害し、意図しない、潜在的に有害なアウトプットをもたらす、普遍的な敵のプロンプトを最適化することで機能する。
我々の新しいアプローチは、モデルが期待する振る舞いから逸脱するインスタンスを明らかにすることによって、モデルの限界と脆弱性を体系的に明らかにする。
広範にわたる実験を通じて,本手法の有効性を実証し,LLMと人間の意図との整合性を評価するための診断ツールを提供することにより,責任あるAI開発に関する継続的な議論に寄与する。
われわれの知る限り、これは初めての自動ブラックボックスジェイルブレイク攻撃だ。
Large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by malicious actors seeking to manipulate an LLM's outputs for unintended purposes. In this paper we introduce a novel approach that employs a genetic algorithm (GA) to manipulate LLMs when model architecture and parameters are inaccessible. The GA attack works by optimizing a universal adversarial prompt that -- when combined with a user's query -- disrupts the attacked model's alignment, resulting in unintended and potentially harmful outputs. Our novel approach systematically reveals a model's limitations and vulnerabilities by uncovering instances where its responses deviate from expected behavior. Through extensive experiments we demonstrate the efficacy of our technique, thus contributing to the ongoing discussion on responsible AI development by providing a diagnostic tool for evaluating and enhancing alignment of LLMs with human intent. To our knowledge this is the first automated universal black box jailbreak attack. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-05 |
# 大規模言語モデルを用いた会話における影響認識
Affect Recognition in Conversations Using Large Language Models ( http://arxiv.org/abs/2309.12881v2 ) ライセンス: Link先を確認 | Shutong Feng, Guangzhi Sun, Nurul Lubis, Wen Wu, Chao Zhang, Milica Gašić, | (参考訳) 感情、気分、感情を含む影響認識は、人間のコミュニケーションにおいて重要な役割を果たす。
会話型人工知能の領域では、人間の感情的な手がかりを識別し、反応する能力は、エンゲージメントと共感の相互作用を生み出す重要な要素である。
本研究では、オープンドメインのチャット対話とタスク指向対話の両方に焦点をあて、会話における人間の影響を認識するための大規模言語モデル(LLM)の能力について検討する。
IEMOCAP (Busso et al , 2008), EmoWOZ (Feng et al , 2022), DAIC-WOZ (Gratch et al , 2014) の3つの多様なデータセットを活用し, カジュアルな会話から臨床面接までの対話のスペクトルを網羅し, 感情認識におけるLLMのパフォーマンスを評価し比較した。
本研究は,LLMのゼロショット能力と少数ショット能力について,テキスト内学習とタスク固有の微調整によるモデル能力について検討する。
さらに,LLM予測に対する自動音声認識誤差の影響についても検討した。
本研究は,LLMが会話における人間のような感情認識能力を再現できる程度に光を当てることを目的としている。
Affect recognition, encompassing emotions, moods, and feelings, plays a pivotal role in human communication. In the realm of conversational artificial intelligence, the ability to discern and respond to human affective cues is a critical factor for creating engaging and empathetic interactions. This study investigates the capacity of large language models (LLMs) to recognise human affect in conversations, with a focus on both open-domain chit-chat dialogues and task-oriented dialogues. Leveraging three diverse datasets, namely IEMOCAP (Busso et al., 2008), EmoWOZ (Feng et al., 2022), and DAIC-WOZ (Gratch et al., 2014), covering a spectrum of dialogues from casual conversations to clinical interviews, we evaluate and compare LLMs' performance in affect recognition. Our investigation explores the zero-shot and few-shot capabilities of LLMs through in-context learning as well as their model capacities through task-specific fine-tuning. Additionally, this study takes into account the potential impact of automatic speech recognition errors on LLM predictions. With this work, we aim to shed light on the extent to which LLMs can replicate human-like affect recognition capabilities in conversations. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-05 |
# Informative Manifold Projection を用いたクラスタ探索
Cluster Exploration using Informative Manifold Projections ( http://arxiv.org/abs/2309.14857v2 ) ライセンス: Link先を確認 | Stavros Gerolymatos, Xenophon Evangelopoulos, Vladimir Gusev, John Y. Goulermas, | (参考訳) 次元性低減(DR)は、高次元データの視覚的な探索と、2次元または3次元空間におけるクラスタ構造を明らかにするための重要なツールの1つである。
文献におけるDR手法の大部分は、実践者が検討中のデータセットに関する事前知識を考慮に入れていない。
本稿では,従来の知識の異なる構造を抽出するだけでなく,その基盤となる構造を明らかにすることを目的とした,情報埋め込みを生成する新しい手法を提案する。
これを実現するために,まず,先行情報に関連付けられた構造を縮小するコントラストPCAと,得られた埋め込みにおいて有意なデータ分離を保証するクルトーシス投影探索という2つの目的を線形に組み合わせた。
本稿では,この課題を多様体最適化問題として定式化し,3種類の事前知識を考慮に入れた多種多様なデータセットを経験的に検証する。
最後に,高次元データの反復的視覚探索を行うためのフレームワークを提供する。
Dimensionality reduction (DR) is one of the key tools for the visual exploration of high-dimensional data and uncovering its cluster structure in two- or three-dimensional spaces. The vast majority of DR methods in the literature do not take into account any prior knowledge a practitioner may have regarding the dataset under consideration. We propose a novel method to generate informative embeddings which not only factor out the structure associated with different kinds of prior knowledge but also aim to reveal any remaining underlying structure. To achieve this, we employ a linear combination of two objectives: firstly, contrastive PCA that discounts the structure associated with the prior information, and secondly, kurtosis projection pursuit which ensures meaningful data separation in the obtained embeddings. We formulate this task as a manifold optimization problem and validate it empirically across a variety of datasets considering three distinct types of prior knowledge. Lastly, we provide an automated framework to perform iterative visual exploration of high-dimensional data. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# スマートマニュファクチャリングシステムにおける時系列分類:最先端機械学習アルゴリズムの実験評価
Time-Series Classification in Smart Manufacturing Systems: An Experimental Evaluation of State-of-the-Art Machine Learning Algorithms ( http://arxiv.org/abs/2310.02812v2 ) ライセンス: Link先を確認 | Mojtaba A. Farahani, M. R. McCormick, Ramy Harik, Thorsten Wuest, | (参考訳) センサーの数の増加とセンサー技術の急速な進歩により、製造業は膨大な量の多様なデータを集めている。
SMS設定で利用可能なさまざまなデータタイプの中で、時系列データは重要な役割を果たす。
したがって、この領域ではTSCの出現が不可欠である。
本研究の目的は,製造・工業環境におけるTSCタスクに対する SoTA ML と DL アルゴリズムの厳密な実験的評価を提供することにより,このギャップを埋めることである。
我々はまず,TSCおよび製造文献から92以上のSoTAアルゴリズムの総合的なリストを探索し,コンパイルした。
次に、このリストから36の最も代表的なアルゴリズムを選択した。
各種製造分類タスクにおける性能を評価するため, 多様な製造課題をカバーする異なる特徴を示す22種類の製造データセットをキュレートした。
その後,製造ベンチマークデータセットにアルゴリズムを実装し,評価し,各データセットの結果を分析した。
結果に基づいて、ResNet、DrCIF、InceptionTime、ARSENALは最高性能のアルゴリズムであり、22のTSCデータセットの平均精度は96.6%以上である。
これらの結果は、時系列データにおける時間的特徴をキャプチャする上で、畳み込みカーネルの堅牢性、効率性、スケーラビリティ、有効性を強調し、上位4つのうち3つが特徴抽出にこれらのカーネルを活用している。
さらに、LSTM、BiLSTM、TS-LSTMアルゴリズムは、RNN構造を用いた時系列データにおける特徴のキャプチャーの有効性を認識すべきである。
Manufacturing is gathering extensive amounts of diverse data, thanks to the growing number of sensors and rapid advances in sensing technologies. Among the various data types available in SMS settings, time-series data plays a pivotal role. Hence, TSC emerges is crucial in this domain. The objective of this study is to fill this gap by providing a rigorous experimental evaluation of the SoTA ML and DL algorithms for TSC tasks in manufacturing and industrial settings. We first explored and compiled a comprehensive list of more than 92 SoTA algorithms from both TSC and manufacturing literature. Following, we selected the 36 most representative algorithms from this list. To evaluate their performance across various manufacturing classification tasks, we curated a set of 22 manufacturing datasets, representative of different characteristics that cover diverse manufacturing problems. Subsequently, we implemented and evaluated the algorithms on the manufacturing benchmark datasets, and analyzed the results for each dataset. Based on the results, ResNet, DrCIF, InceptionTime, and ARSENAL are the top-performing algorithms, boasting an average accuracy of over 96.6% across all 22 manufacturing TSC datasets. These findings underscore the robustness, efficiency, scalability, and effectiveness of convolutional kernels in capturing temporal features in time-series data, as three out of the top four performing algorithms leverage these kernels for feature extraction. Additionally, LSTM, BiLSTM, and TS-LSTM algorithms deserve recognition for their effectiveness in capturing features within time-series data using RNN-based structures. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# FroSSL: 効率的なマルチビュー自己監視学習のためのFrobenius Norm最小化
FroSSL: Frobenius Norm Minimization for Efficient Multiview Self-Supervised Learning ( http://arxiv.org/abs/2310.02903v4 ) ライセンス: Link先を確認 | Oscar Skean, Aayush Dhakal, Nathan Jacobs, Luis Gonzalo Sanchez Giraldo, | (参考訳) 自己教師付き学習(SSL)は、表現学習の一般的なパラダイムである。
近年のマルチビュー手法は, サンプルコントラスト, 次元コントラスト, 非対称ネットワークベースに分類される。
これらのファミリーは類似した品質の解に収束するが、いくつかの手法がエポック非効率であり、目標のパフォーマンスに到達するのに長い訓練を必要とすることを実証的に示すことができる。
効率性を改善するための2つの主要なアプローチは、共分散固有値正則化と、より多くのビューの使用である。
しかし、これらの2つのアプローチは固有値の計算の複雑さのために結合が難しい。
固有分解を完全に回避しながら双方のアプローチを一致させる目的関数FroSSLを提案する。
FroSSLは、共分散フロベニウスノルムを最小化して崩壊を回避し、平均二乗誤差を最小化して拡張不変性を達成する。
我々は,FroSSLが他のSSLメソッドよりも高速に競合精度に達することを示し,FroSSLが埋め込み共分散行列の固有値にどのように影響するかによって,この高速収束が理論的および実証的な支持を提供する。
また、FroSSLは、STL-10、Tiny ImageNet、ImageNet-100など、複数のデータセット上でResNet-18をトレーニングする際に、線形プローブ評価に関する競合表現を学習することを示す。
Self-supervised learning (SSL) is a popular paradigm for representation learning. Recent multiview methods can be classified as sample-contrastive, dimension-contrastive, or asymmetric network-based, with each family having its own approach to avoiding informational collapse. While these families converge to solutions of similar quality, it can be empirically shown that some methods are epoch-inefficient and require longer training to reach a target performance. Two main approaches to improving efficiency are covariance eigenvalue regularization and using more views. However, these two approaches are difficult to combine due to the computational complexity of computing eigenvalues. We present the objective function FroSSL which reconciles both approaches while avoiding eigendecomposition entirely. FroSSL works by minimizing covariance Frobenius norms to avoid collapse and minimizing mean-squared error to achieve augmentation invariance. We show that FroSSL reaches competitive accuracies more quickly than any other SSL method and provide theoretical and empirical support that this faster convergence is due to how FroSSL affects the eigenvalues of the embedding covariance matrices. We also show that FroSSL learns competitive representations on linear probe evaluation when used to train a ResNet-18 on several datasets, including STL-10, Tiny ImageNet, and ImageNet-100. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# 安全臨界産業における人間とAIの相互作用の解き放つ : 体系的文献レビュー
Unpacking Human-AI Interaction in Safety-Critical Industries: A Systematic Literature Review ( http://arxiv.org/abs/2310.03392v2 ) ライセンス: Link先を確認 | Tita A. Bach, Jenny K. Kristiansen, Aleksandar Babic, Alon Jacovi, | (参考訳) 安全クリティカル産業における高品質な人間-AIインタラクション(HAII)の確保が不可欠である。
失敗すると破滅的かつ致命的な結果がもたらされる。
この緊急性にもかかわらず、HAIIに関する既存の研究は制限され、断片化され、矛盾する。
本稿では、この分野を改善するための研究ベストプラクティスに関する文献と勧告について紹介する。
我々は調査を下記の領域に分けた。
1) HAII を記述するための用語
2)AI対応システムの主な役割
3)HAIIに影響を与える要因,及び
4) HAIIの測定方法。
さらに、これらの論文で論じられた安全クリティカルな産業で使用されるAI対応システムの能力と成熟度について説明した。
文献でHAIIを記述するために1つの用語は使われておらず、いくつかの用語は複数の意味を持つ。
私たちの文献によると、HAIIに影響を与える7つの要因は、ユーザ特性(例えば、ユーザ個性)、ユーザ認識と態度(例えば、ユーザのバイアス)、ユーザ期待と経験(例えば、ユーザ期待と経験の不一致)、AIインターフェースと特徴(例えば、インタラクティブデザイン)、AI出力(例えば、知覚精度)、説明可能性と解釈可能性(例えば、詳細レベル、ユーザ理解)、AI(例えば、環境の不均一性)である。
HAIIは、ユーザ関連の主観的指標(例えば、ユーザ認識、信頼、態度)で最も測定され、AI支援による意思決定は、AI対応システムの最も一般的な役割である。
本レビューから,HAIIにはかなりの研究ギャップが存在すると結論づける。
研究者や開発者は、HAII用語を体系化し、AIライフサイクル全体(特に開発期間中)にユーザを巻き込み、ユーザや環境に対して安全クリティカルな産業におけるHAIIを調整する必要がある。
Ensuring quality human-AI interaction (HAII) in safety-critical industries is essential. Failure to do so can lead to catastrophic and deadly consequences. Despite this urgency, existing research on HAII is limited, fragmented, and inconsistent. We present here a survey of that literature and recommendations for research best practices that should improve the field. We divided our investigation into the following areas: 1) terms used to describe HAII, 2) primary roles of AI-enabled systems, 3) factors that influence HAII, and 4) how HAII is measured. Additionally, we described the capabilities and maturity of the AI-enabled systems used in safety-critical industries discussed in these articles. We found that no single term is used across the literature to describe HAII and some terms have multiple meanings. According to our literature, seven factors influence HAII: user characteristics (e.g., user personality), user perceptions and attitudes (e.g., user biases), user expectations and experience (e.g., mismatched user expectations and experience), AI interface and features (e.g., interactive design), AI output (e.g., perceived accuracy), explainability and interpretability (e.g., level of detail, user understanding), and usage of AI (e.g., heterogeneity of environments). HAII is most measured with user-related subjective metrics (e.g., user perceptions, trust, and attitudes), and AI-assisted decision-making is the most common primary role of AI-enabled systems. Based on this review, we conclude that there are substantial research gaps in HAII. Researchers and developers need to codify HAII terminology, involve users throughout the AI lifecycle (especially during development), and tailor HAII in safety-critical industries to the users and environments. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# 新しい不確定性に基づく量子論
A new indeterminacy-based quantum theory ( http://arxiv.org/abs/2310.04002v5 ) ライセンス: Link先を確認 | Francisco Pipa, | (参考訳) 本稿では,環境決定性に基づく量子理論(EnDQT)の新たな解釈を提案する。
量子論のよく知られた解釈とは対照的に、EnDQTは非局所的、超決定論的、あるいは後続的な隠れ変数を追加しないという利点がある。
また、量子相関の局所因果説明を提供することによって相対論的因果関係と緊張関係にあるわけではない。
さらに、測定結果は、例えばシステムや世界によって異なりません。
自然崩壊理論のような理論とは異なり、量子論の基本方程式の修正は、決定的な値が生じる際には必要とされないという意味では、保守的なQTである。
さらに、原則として、任意の系は任意の時間の間コヒーレントな重ね合わせにすることができる。
EnDQTによると、宇宙の進化の特定の段階において、ある系は決定論的過程を通じて決定論的価値を持つ他の系に持つ能力を獲得し、それをもたらす。
さらに、この容量はシステム間の局所的な相互作用を介して伝播する。
この能力を持つ他のシステムから隔離されたシステムでは、原則として、単体的に無限に進化することができる。
EnDQTは、相互作用の連鎖を開始するシステムの特徴を通じて、物理学の他の分野とその基盤、例えば宇宙論への支払いを提供することができる。
I propose a novel interpretation of quantum theory, which I will call Environmental Determinacy-based (EnDQT). In contrast to the well-known interpretations of quantum theory, EnDQT has the benefit of not adding non-local, superdeterministic, or retrocausal hidden variables. Also, it is not in tension with relativistic causality by providing a local causal explanation of quantum correlations. Furthermore, measurement outcomes don't vary according to, for example, systems or worlds. It is a conservative QT in the sense that, unlike theories such as spontaneous collapse theories, no modifications of the fundamental equations of quantum theory are required to establish when determinate values arise. Moreover, in principle, arbitrary systems can be in a coherent superposition for an arbitrary amount of time. According to EnDQT, at a certain stage of the evolution of the universe, some systems acquire the capacity to have and give rise to other systems having determinate values through an indeterministic process. Furthermore, this capacity propagates via local interactions between systems. When systems are isolated from others that have this capacity, they can, in principle, evolve unitarily indefinitely. EnDQT may provide payoffs to other areas of physics and their foundations, such as cosmology, via the features of the systems that start the chains of interactions. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# NISQデバイスにおける量子ゼノ効果の観測
Observation of the Quantum Zeno Effect on a NISQ Device ( http://arxiv.org/abs/2310.08317v3 ) ライセンス: Link先を確認 | Andrea Alessandrini, Carola Ciaramelletti, Simone Paganelli, | (参考訳) 我々は,IBMの量子体験デバイス上で1量子ビット上の量子ゼノ効果(QZE)を,複数の測定値の影響下で検討した。
我々はラビの進化と自由崩壊の2つの可能性を考える。
SPAMエラー軽減法も適用されている。
いずれの場合も、QZEの発生は、測定回数による生存確率の増加として観察される。
We study the Quantum Zeno Effect (QZE) on a single qubit on IBM Quantum Experience devices under the effect of multiple measurements. We consider two possible cases: the Rabi evolution and the free decay. SPAM error mitigations have also been applied. In both cases we observe the occurrence of the QZE as an increasing of the survival probability with the number of measurements. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# 信頼性のある学術会議質問応答:大規模言語モデルに基づく研究
Reliable Academic Conference Question Answering: A Study Based on Large Language Model ( http://arxiv.org/abs/2310.13028v2 ) ライセンス: Link先を確認 | Zhiwei Huang, Juan Li, Long Jin, Junjie Wang, Mingchen Tu, Yin Hua, Zhiqiang Liu, Jiawei Meng, Wen Zhang, | (参考訳) 学術会議の発展がグローバルな学術コミュニケーションを促進するにつれ、研究者は一貫して学術会議に関する正確かつ最新の情報を得る必要がある。
情報は分散しているため、研究者のクエリを効率的に処理し、最新の進歩に対する認識を確保するためにインテリジェントな質問応答システムが必要である。
近年,Large Language Models (LLMs) は質問応答における印象的な能力を示し,古い知識を扱うために外部知識を取得することで強化されている。
しかし、最新のカンファレンス知識が欠如しているため、これらの手法は機能しない。
この課題に対処するため、我々は7つの多様な学術会議からなるコンファレンスQAデータセットを開発した。
具体的には,まず,学術会議データを木構造形式で半自動的に整理する。
次に、質問応答ペアに注釈を付け、ペアを4つの異なるタイプに分類し、それらの難易度をよりよく区別する。
構築したデータセットを用いて,LLMの質問応答能力を向上させるためのSTAR(Structure-Aware Retrieval)を提案する。
ConferenceQAデータセットの実験結果から,本手法の有効性が示された。
データセットとコードはhttps://github.com/zjukg/ConferenceQA.comで公開されている。
As the development of academic conferences fosters global scholarly communication, researchers consistently need to obtain accurate and up-to-date information about academic conferences. Since the information is scattered, using an intelligent question-answering system to efficiently handle researchers' queries and ensure awareness of the latest advancements is necessary. Recently, Large Language Models (LLMs) have demonstrated impressive capabilities in question answering, and have been enhanced by retrieving external knowledge to deal with outdated knowledge. However, these methods fail to work due to the lack of the latest conference knowledge. To address this challenge, we develop the ConferenceQA dataset, consisting of seven diverse academic conferences. Specifically, for each conference, we first organize academic conference data in a tree-structured format through a semi-automated method. Then we annotate question-answer pairs and classify the pairs into four different types to better distinguish their difficulty. With the constructed dataset, we further propose a novel method STAR (STructure-Aware Retrieval) to improve the question-answering abilities of LLMs, leveraging inherent structural information during the retrieval process. Experimental results on the ConferenceQA dataset show the effectiveness of our retrieval method. The dataset and code are available at https://github.com/zjukg/ConferenceQA. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-05 |
# 注入:動的テクスチャの塗布と複雑な運動のための内部拡散
Infusion: internal diffusion for inpainting of dynamic textures and complex motion ( http://arxiv.org/abs/2311.01090v2 ) ライセンス: Link先を確認 | Nicolas Cherel, Andrés Almansa, Yann Gousseau, Alasdair Newson, | (参考訳) ビデオの塗装は、ビデオ内の領域を視覚的に説得力のある方法で埋める作業である。
データの高次元性と、説得力のある結果を得るために必要となる時間的一貫性のため、非常に難しい。
近年,画像やビデオを含む複雑なデータ分布のモデル化において,拡散モデルが顕著な成果を上げている。
しかしながら、そのようなモデルはトレーニングや推論に非常に高価であり、ビデオへの適用性が大幅に低下し、不合理な計算負荷が生じる。
ビデオインペイントの場合,ビデオの自己相似性が高いため,拡散モデルのトレーニングデータは入力ビデオに制限され,非常に満足な結果が得られることを示す。
これにより、内部学習アプローチを採用することができ、また、画像インペイントに使用される現在の拡散モデルよりも、ニューラルネットワークのサイズを約3桁小さくすることも可能になります。
また,拡散過程の雑音レベルに応じて,拡散過程を異なる学習区間に分割することで,内部学習の文脈における拡散モデルの効率的な訓練と推論を行う手法を提案する。
我々の知る限りでは、これは拡散に基づく最初のビデオ塗装法である。
その他の方法は光学的フロー推定のような追加の要素を必要としており、動的テクスチャや複雑な動きの場合にその性能を制限している。
我々は,動的テクスチャや複雑な動的背景の場合に,その手法が最先端の性能に達することを示す定性的かつ定量的な結果を示す。
Video inpainting is the task of filling a region in a video in a visually convincing manner. It is very challenging due to the high dimensionality of the data and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Such models remain nonetheless very expensive to train and to perform inference with, which strongly reduce their applicability to videos, and yields unreasonable computational loads. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training data of a diffusion model can be restricted to the input video and still produce very satisfying results. This leads us to adopt an internal learning approach, which also allows us to greatly reduce the neural network size by about three orders of magnitude less than current diffusion models used for image inpainting. We also introduce a new method for efficient training and inference of diffusion models in the context of internal learning, by splitting the diffusion process into different learning intervals corresponding to different noise levels of the diffusion process. To the best of our knowledge, this is the first video inpainting method based purely on diffusion. Other methods require additional components such as optical flow estimation, which limits their performance in the case of dynamic textures and complex motions. We show qualitative and quantitative results, demonstrating that our method reaches state of the art performance in the case of dynamic textures and complex dynamic backgrounds. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# 大気乱流における物体セグメンテーションのための非教師付き領域探索ネットワーク
Unsupervised Region-Growing Network for Object Segmentation in Atmospheric Turbulence ( http://arxiv.org/abs/2311.03572v2 ) ライセンス: Link先を確認 | Dehao Qin, Ripon Saha, Suren Jayasuriya, Jinwei Ye, Nianyi Li, | (参考訳) 大気乱流の存在下での移動物体のセグメンテーションは非常に困難である。
本稿では,大気乱流による動画中の移動物体のセグメンテーションに関する教師なしのアプローチを提案する。
我々はまず、高い信頼性で動く物体の小さなセットを識別し、その種から徐々に前景のマスクを成長させ、すべての動く物体を分割する。
この手法はビデオフレーム間の幾何的整合性を利用して異なる種類の動きを歪め、サンプソン距離を使って苗のピクセルを初期化する。
フレームごとのフォアグラウンドマスクを成長させた後、空間的グルーピング損失と時間的一貫性損失を用いてマスクをさらに洗練し、その時空間的一貫性を確保する。
本手法は教師なしで,ラベル付きデータのトレーニングは不要である。
検証のために、物体を動かすための地上の真理マスクを備えた、最初のリアルタイムな長距離乱流ビデオデータセットを収集し、リリースする。
その結果, 移動物体のセグメンテーションにおける精度は良好であり, 様々な乱流強度を持つ長距離ビデオに対してロバストであることがわかった。
Moving object segmentation in the presence of atmospheric turbulence is highly challenging due to turbulence-induced irregular and time-varying distortions. In this paper, we present an unsupervised approach for segmenting moving objects in videos downgraded by atmospheric turbulence. Our key approach is a detect-then-grow scheme: we first identify a small set of moving object pixels with high confidence, then gradually grow a foreground mask from those seeds to segment all moving objects. This method leverages rigid geometric consistency among video frames to disentangle different types of motions, and then uses the Sampson distance to initialize the seedling pixels. After growing per-frame foreground masks, we use spatial grouping loss and temporal consistency loss to further refine the masks in order to ensure their spatio-temporal consistency. Our method is unsupervised and does not require training on labeled data. For validation, we collect and release the first real-captured long-range turbulent video dataset with ground truth masks for moving objects. Results show that our method achieves good accuracy in segmenting moving objects and is robust for long-range videos with various turbulence strengths. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# 部分情報による量子状態関数の証明
Certification of quantum state functions under partial information ( http://arxiv.org/abs/2311.06094v2 ) ライセンス: Link先を確認 | Leonardo Zambrano, Donato Farina, Egle Pagliaro, Marcio M. Taddei, Antonio Acin, | (参考訳) 量子状態の凸函数は、ベルの不等式からフォン・ノイマンエントロピーまで、量子物理学において重要な役割を果たす。
しかし、実験シナリオでは、これらの関数の直接測定はしばしば実用的ではない。
情報的不完全測定に基づいて凸関数の厳密な信頼境界を決定する2つの方法を導入することでこの問題に対処する。
提案手法は、信頼度と測定回数の固定化のために、より厳密なバウンダリを提供することにより、既存のプロトコルよりも優れている。
数値データと実験データの両方を用いて,本手法の性能評価を行った。
本研究は,本手法の有効性を実証し,実世界の応用における量子状態認証の改善の道を開くものである。
Convex functions of quantum states play a key role in quantum physics, with examples ranging from Bell inequalities to von Neumann entropy. However, in experimental scenarios, direct measurements of these functions are often impractical. We address this issue by introducing two methods for determining rigorous confidence bounds for convex functions based on informationally incomplete measurements. Our approach outperforms existing protocols by providing tighter bounds for a fixed confidence level and number of measurements. We evaluate the performance of our methods using both numerical and experimental data. Our findings demonstrate the efficacy of our approach, paving the way for improved quantum state certification in real-world applications. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# De-fine: Auto-Feedbackでビジュアルプログラムを分解および精錬する
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback ( http://arxiv.org/abs/2311.12890v3 ) ライセンス: Link先を確認 | Minghe Gao, Juncheng Li, Hao Fei, Liang Pang, Wei Ji, Guoming Wang, Zheqi Lv, Wenqiao Zhang, Siliang Tang, Yueting Zhuang, | (参考訳) モジュラーで一般化可能なパラダイムであるビジュアルプログラミングは、様々なモジュールとPython演算子を統合し、様々な視覚言語タスクを解決する。
タスク固有のデータを必要とするエンドツーエンドモデルとは異なり、教師なしの方法で視覚処理と推論を行う。
現在のビジュアルプログラミング手法は、フィードバックに基づいて評価し最適化する能力が欠如しているタスクごとに単一のパスでプログラムを生成する。
De-fineは、複雑なタスクを単純なサブタスクに自動的に分解し、自動フィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
このモデルに依存しないアプローチは、複数のモデルの強みを統合することで論理的推論性能を向上させることができる。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
さらに、各フィードバックモジュールを独立したエージェントとして見ることは、エージェント研究の分野に新たな展望をもたらすだろう。
Visual programming, a modular and generalizable paradigm, integrates different modules and Python operators to solve various vision-language tasks. Unlike end-to-end models that need task-specific data, it advances in performing visual processing and reasoning in an unsupervised manner. Current visual programming methods generate programs in a single pass for each task where the ability to evaluate and optimize based on feedback, unfortunately, is lacking, which consequentially limits their effectiveness for complex, multi-step problems. Drawing inspiration from benders decomposition, we introduce De-fine, a training-free framework that automatically decomposes complex tasks into simpler subtasks and refines programs through auto-feedback. This model-agnostic approach can improve logical reasoning performance by integrating the strengths of multiple models. Our experiments across various visual tasks show that De-fine creates more robust programs. Moreover, viewing each feedback module as an independent agent will yield fresh prospects for the field of agent research. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# Rydberg原子の超高速ダイナミクスにおける強スピン移動結合
Strong Spin-Motion Coupling in the Ultrafast Dynamics of Rydberg Atoms ( http://arxiv.org/abs/2311.15575v2 ) ライセンス: Link先を確認 | Vineet Bharti, Seiji Sugawa, Masaya Kunimi, Vikas Singh Chauhan, Tirumalasetty Panduranga Mahesh, Michiteru Mizoguchi, Takuya Matsubara, Takafumi Tomita, Sylvain de Léséleuc, Kenji Ohmori, | (参考訳) 光学格子とツイーザーのリドバーグ原子は、現在では量子スピン系をシミュレートするためのよく確立されたプラットフォームである。
しかし、原子の空間波動関数の役割は実験的に検討されていない。
ここでは、波動関数の拡散による相互作用電位の大きな変動から、強いスピン-モーション結合が生じることを示す。
我々は、ピコ秒パルスを用いて、Rydberg$S$状態に励起された原子の超高速多体ナノ秒力学の明確なシグネチャを、一様充填原子モット絶縁体から観察した。
また、トラップ電位によって設定された運動エネルギースケールに対して、スピン-運動結合の強度を任意に調整する新しい手法を提案する。
我々の研究は、Rydbergシミュレーションツールボックスに運動自由度を追加することで、強相関量子系の力学を探求するための新しい方向を提供する。
Rydberg atoms in optical lattices and tweezers is now a well established platform for simulating quantum spin systems. However, the role of the atoms' spatial wavefunction has not been examined in detail experimentally. Here, we show a strong spin-motion coupling emerging from the large variation of the interaction potential over the wavefunction spread. We observe its clear signature on the ultrafast many-body nanosecond-dynamics of atoms excited to a Rydberg $S$ state, using picosecond pulses, from an unity-filling atomic Mott-insulator. We also propose a novel approach to tune arbitrarily the strength of the spin-motion coupling relative to the motional energy scale set by trapping potentials. Our work provides a new direction for exploring the dynamics of strongly-correlated quantum systems by adding the motional degree of freedom to the Rydberg simulation toolbox. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# 3次元点雲を用いた宇宙軌道の教師なし変化検出
Unsupervised Change Detection for Space Habitats Using 3D Point Clouds ( http://arxiv.org/abs/2312.02396v3 ) ライセンス: Link先を確認 | Jamie Santos, Holly Dinkel, Julia Di, Paulo V. K. Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, Trey Smith, | (参考訳) この研究は、将来の宇宙空間における自律的なロボットケアを可能にするために、点雲からシーン変化を検出するアルゴリズムを提案する。
自律型ロボットシステムは、ゲートウェイ宇宙ステーションのような将来的な深宇宙の居住環境を維持するのに役立つだろう。
国際宇宙ステーション(ISS)で使われている既存のシーン解析ソフトウェアは、手動でラベル付けされた画像を使って変化を検出する。
これとは対照的に、この研究で提示されたアルゴリズムは生の、ラベルなしの点雲を入力として利用する。
このアルゴリズムはまず、2つの入力点クラウドに改良された期待最大化ガウス混合モデル(GMM)クラスタリングを適用する。
次に、Earth Mover's Distanceを用いてGMMを比較して変更検出を行う。
このアルゴリズムは、NASA Ames Granite LabのAstrobeeロボットが収集したテストデータセットを用いて定量的に定性的に検証され、Astrobeeが直接撮影した単一のフレーム深度画像と、RGB-Dで構築され、Astrobeeからのデータを合成するフルシーン再構成マップからなる。
このアプローチのランタイムも深く分析されます。
ソースコードは、さらなる開発を促進するために公開されている。
This work presents an algorithm for scene change detection from point clouds to enable autonomous robotic caretaking in future space habitats. Autonomous robotic systems will help maintain future deep-space habitats, such as the Gateway space station, which will be uncrewed for extended periods. Existing scene analysis software used on the International Space Station (ISS) relies on manually-labeled images for detecting changes. In contrast, the algorithm presented in this work uses raw, unlabeled point clouds as inputs. The algorithm first applies modified Expectation-Maximization Gaussian Mixture Model (GMM) clustering to two input point clouds. It then performs change detection by comparing the GMMs using the Earth Mover's Distance. The algorithm is validated quantitatively and qualitatively using a test dataset collected by an Astrobee robot in the NASA Ames Granite Lab comprising single frame depth images taken directly by Astrobee and full-scene reconstructed maps built with RGB-D and pose data from Astrobee. The runtimes of the approach are also analyzed in depth. The source code is publicly released to promote further development. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-05 |
# 自動レースにおけるロバスト性に対する部分的エンドツーエンド強化学習
Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing ( http://arxiv.org/abs/2312.06406v2 ) ライセンス: Link先を確認 | Andrew Murdoch, Johannes Cornelius Schoeman, Hendrik Willem Jordaan, | (参考訳) 本稿では,実車モデリングエラー(通称「emph{model mismatches}」)が存在する状況下での自律走行車における強化学習(RL)ソリューションの性能向上の問題に対処する。
この課題に対処するために,計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
この枠組み内で、RLエージェントは、経路と速度からなる軌道を生成し、その後、純追従ステアリングコントローラと比例速度コントローラを用いて追従する。
対照的に、多くの現在の学習ベースアルゴリズム(強化と模倣学習)は、深いニューラルネットワークがセンサーデータから制御コマンドを直接マップするエンドツーエンドのアプローチを利用している。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
In this paper, we address the issue of increasing the performance of reinforcement learning (RL) solutions for autonomous racing cars when navigating under conditions where practical vehicle modelling errors (commonly known as \emph{model mismatches}) are present. To address this challenge, we propose a partial end-to-end algorithm that decouples the planning and control tasks. Within this framework, an RL agent generates a trajectory comprising a path and velocity, which is subsequently tracked using a pure pursuit steering controller and a proportional velocity controller, respectively. In contrast, many current learning-based (i.e., reinforcement and imitation learning) algorithms utilise an end-to-end approach whereby a deep neural network directly maps from sensor data to control commands. By leveraging the robustness of a classical controller, our partial end-to-end driving algorithm exhibits better robustness towards model mismatches than standard end-to-end algorithms. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-05 |
# 交叉拡散モデルを用いたリアルな人間運動生成
Realistic Human Motion Generation with Cross-Diffusion Models ( http://arxiv.org/abs/2312.10993v3 ) ライセンス: Link先を確認 | Zeping Ren, Shaoli Huang, Xiu Li, | (参考訳) テキスト記述に基づく高品質な人間の動きを生成する新しい手法であるクロスヒューマンモーション拡散モデル(CrossDiff)を紹介する。
本手法は,拡散モデルのトレーニングにおいて,共用変圧器ネットワークを用いて3次元情報と2次元情報を統合し,単一の特徴空間に運動雑音を統一する。
これにより、元の次元に関係なく、3Dと2Dの両方のモーション表現に特徴をクロスデコードすることができる。
CrossDiffの主な利点は、クロス拡散機構で、2Dノイズまたは3Dノイズをトレーニング中にクリーンな動作に戻すことができる。
この能力は両動作表現の相補的な情報を活用し、3D情報のみに依存するモデルによってしばしば見逃される複雑な人間の動きの詳細をキャプチャする。
その結果、CrossDiffは両方の表現の強みを効果的に組み合わせ、より現実的な動き列を生成する。
本実験では,テキスト・トゥ・モーション・ベンチマークにおける最先端性能の競争力を示す。
さらに,本手法は,複雑な全身運動の複雑さを捉えることによって,運動生成の質を向上する。
さらに、事前訓練されたモデルでは、トレーニング中に3Dモーショングラウンドの真理を示さずに野生の2Dモーションデータを使用することで、3Dモーションを生成することが可能となり、より広範な応用の可能性と利用可能なデータリソースの効率的な利用が強調される。
プロジェクトページ:https://wonderno.github.io/CrossDiff-webpage/.com
We introduce the Cross Human Motion Diffusion Model (CrossDiff), a novel approach for generating high-quality human motion based on textual descriptions. Our method integrates 3D and 2D information using a shared transformer network within the training of the diffusion model, unifying motion noise into a single feature space. This enables cross-decoding of features into both 3D and 2D motion representations, regardless of their original dimension. The primary advantage of CrossDiff is its cross-diffusion mechanism, which allows the model to reverse either 2D or 3D noise into clean motion during training. This capability leverages the complementary information in both motion representations, capturing intricate human movement details often missed by models relying solely on 3D information. Consequently, CrossDiff effectively combines the strengths of both representations to generate more realistic motion sequences. In our experiments, our model demonstrates competitive state-of-the-art performance on text-to-motion benchmarks. Moreover, our method consistently provides enhanced motion generation quality, capturing complex full-body movement intricacies. Additionally, with a pretrained model,our approach accommodates using in the wild 2D motion data without 3D motion ground truth during training to generate 3D motion, highlighting its potential for broader applications and efficient use of available data resources. Project page: https://wonderno.github.io/CrossDiff-webpage/. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-05 |
# 空間符号化による3次元形状解析のためのグループ多視点変換器
Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding ( http://arxiv.org/abs/2312.16477v3 ) ライセンス: Link先を確認 | Lixiang Xu, Qingzhe Cui, Richang Hong, Wei Xu, Enhong Chen, Xin Yuan, Chenglong Li, Yuanyan Tang, | (参考訳) 近年,ビューベース3次元形状認識手法の結果は飽和しており,パラメータが大きすぎるため,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
この問題に対処するため,本分野の知識蒸留に基づく圧縮手法を導入し,モデル性能を極力保ちながらパラメータ数を大幅に削減した。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTでは、ビューレベルのViTが最初にビューレベルの機能間の関係を確立する。
さらに、より深い機能をキャプチャするために、ビューレベルの機能をグループレベルの機能に拡張するために、グループモジュールを使用します。
最後に、グループレベルのViTは、グループレベルの特徴を完全な3D形状記述子に集約する。
特に、両VTにおいて、革新的な位置埋め込みとして、カメラ座標の空間符号化を導入する。
さらに,GMViT-simpleとGMViT-miniの2つの圧縮版を提案する。
各GMViT成分のキー出力が蒸留ターゲットとなるGMViTプロセスを通して知識蒸留手法を導入する。
大規模実験により提案手法の有効性が示された。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
GMViT-simpleとGMViT-miniは、それぞれパラメータサイズを8倍と17.6倍に減らし、分類と検索性能の少なくとも90%を保ちながら、平均1.5倍の形状認識速度を向上させる。
コードはhttps://github.com/bigdata-graph/GMViT.comで入手できる。
In recent years, the results of view-based 3D shape recognition methods have saturated, and models with excellent performance cannot be deployed on memory-limited devices due to their huge size of parameters. To address this problem, we introduce a compression method based on knowledge distillation for this field, which largely reduces the number of parameters while preserving model performance as much as possible. Specifically, to enhance the capabilities of smaller models, we design a high-performing large model called Group Multi-view Vision Transformer (GMViT). In GMViT, the view-level ViT first establishes relationships between view-level features. Additionally, to capture deeper features, we employ the grouping module to enhance view-level features into group-level features. Finally, the group-level ViT aggregates group-level features into complete, well-formed 3D shape descriptors. Notably, in both ViTs, we introduce spatial encoding of camera coordinates as innovative position embeddings. Furthermore, we propose two compressed versions based on GMViT, namely GMViT-simple and GMViT-mini. To enhance the training effectiveness of the small models, we introduce a knowledge distillation method throughout the GMViT process, where the key outputs of each GMViT component serve as distillation targets. Extensive experiments demonstrate the efficacy of the proposed method. The large model GMViT achieves excellent 3D classification and retrieval results on the benchmark datasets ModelNet, ShapeNetCore55, and MCB. The smaller models, GMViT-simple and GMViT-mini, reduce the parameter size by 8 and 17.6 times, respectively, and improve shape recognition speed by 1.5 times on average, while preserving at least 90% of the classification and retrieval performance. The code is available at https://github.com/bigdata-graph/GMViT. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-05 |
# PEneo: エンド・ツー・エンドのドキュメントペア抽出のための行抽出、行のグループ化、エンティティリンクの統合
PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction ( http://arxiv.org/abs/2401.03472v2 ) ライセンス: Link先を確認 | Zening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei Xiong, Lianwen Jin, | (参考訳) ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
しかし、単にSERとREを直列に結合すれば、重大なエラーの伝播が起こり、実際のシナリオにおけるマルチラインエンティティのようなケースを処理できない。
これらの問題に対処するため,本研究では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだPEneo (Pair extract new decoder option) という新しいフレームワークを提案する。
このアプローチは、エラーの蓄積問題を軽減し、マルチラインエンティティのケースを処理できる。
さらに、モデルの性能をよりよく評価し、ペア抽出の今後の研究を促進するために、一般的なFUNSDとXFUNDデータセットの再注釈版であるRFUNDを導入し、より正確で現実的な状況をカバーする。
様々なベンチマークの実験では、Peneoが以前のパイプラインよりも優れていることが示され、LiLTやLayoutLMv3といった様々なバックボーンと組み合わせることで、大きなマージン(例えばRFUND-ENの19.89%-22.91%のF1スコア)で性能が向上した。
コードと新しいアノテーションは \href{https://github.com/ZeningLin/PEneo}{https://github.com/ZeningLin/PEneo} で入手できる。
Document pair extraction aims to identify key and value entities as well as their relationships from visually-rich documents. Most existing methods divide it into two separate tasks: semantic entity recognition (SER) and relation extraction (RE). However, simply concatenating SER and RE serially can lead to severe error propagation, and it fails to handle cases like multi-line entities in real scenarios. To address these issues, this paper introduces a novel framework, PEneo (Pair Extraction new decoder option), which performs document pair extraction in a unified pipeline, incorporating three concurrent sub-tasks: line extraction, line grouping, and entity linking. This approach alleviates the error accumulation problem and can handle the case of multi-line entities. Furthermore, to better evaluate the model's performance and to facilitate future research on pair extraction, we introduce RFUND, a re-annotated version of the commonly used FUNSD and XFUND datasets, to make them more accurate and cover realistic situations. Experiments on various benchmarks demonstrate PEneo's superiority over previous pipelines, boosting the performance by a large margin (e.g., 19.89%-22.91% F1 score on RFUND-EN) when combined with various backbones like LiLT and LayoutLMv3, showing its effectiveness and generality. Codes and the new annotations are available at \href{https://github.com/ZeningLin/PEneo}{https://github.com/ZeningLin/PEneo}. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-05 |
# DrawTalking: スケッチと講演によるインタラクティブな世界の構築
DrawTalking: Building Interactive Worlds by Sketching and Speaking ( http://arxiv.org/abs/2401.05631v4 ) ライセンス: Link先を確認 | Karl Toby Rosenberg, Rubaiat Habib Kazi, Li-Yi Wei, Haijun Xia, Ken Perlin, | (参考訳) そこで我々はDrawTalkingを紹介した。DrawTalkingは、ストーリーを語りながらスケッチや会話によってインタラクティブな世界を構築し、制御するアプローチである。
ユーザコントロールと柔軟性を強調し、コードを必要としないプログラミングのような機能を提供する。
プロトタイプを用いた初期のオープンエンド研究は、機械が共鳴し、多くの創造的・探索的なユースケースに適用可能であることを示している。
We introduce DrawTalking, an approach to building and controlling interactive worlds by sketching and speaking while telling stories. It emphasizes user control and flexibility, and gives programming-like capability without requiring code. An early open-ended study with our prototype shows that the mechanics resonate and are applicable to many creative-exploratory use cases, with the potential to inspire and inform research in future natural interfaces for creative exploration and authoring. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-05 |
# 生産におけるハイブリッド量子ソルバー : NISQ時代をどう成功させるか
Hybrid Quantum Solvers in Production: how to succeed in the NISQ era? ( http://arxiv.org/abs/2401.10302v7 ) ライセンス: Link先を確認 | Eneko Osaba, Esther Villar-Rodriguez, Aitor Gomez-Tejedor, Izaskun Oregi, | (参考訳) ハイブリッド量子コンピューティングは、量子コンピューティングの分野における現在と未来と考えられている。
NISQ時代のデバイスの限界に対処するためには、この傾向は単なるストップギャップとは考えられない。
両方のコンピューティングパラダイムをリンクする基盤は、今後も堅牢なままだ。
この研究の貢献は2つある: まず、文献で最近発表された2つの異なる分類体系に頼って、最も頻繁に使用されるハイブリッド・ソルバのいくつかを記述し分類する。
第二に、現在実運用にデプロイされており、実際の産業に近いことを実証している2つの解決器に特化しています。
これらの解法は、D-WaveのHybridBQMSamplerとQuantagoniaのHybrid Solverに含まれるLeapHybridBQMSamplerである。
ベンチマークを4つの組合せ最適化問題として用いて,両手法の性能を解析した。
Hybrid quantum computing is considered the present and the future within the field of quantum computing. Far from being a passing fad, this trend cannot be considered just a stopgap to address the limitations of NISQ-era devices. The foundations linking both computing paradigms will remain robust over time. The contribution of this work is twofold: first, we describe and categorize some of the most frequently used hybrid solvers, resorting to two different taxonomies recently published in the literature. Secondly, we put a special focus on two solvers that are currently deployed in real production and that have demonstrated to be near the real industry. These solvers are the LeapHybridBQMSampler contained in D-Wave's Hybrid Solver Service and Quantagonia's Hybrid Solver. We analyze the performance of both methods using as benchmarks four combinatorial optimization problems. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# $\mathbf{X}^\mathbf{T}\mathbf{X}$および$\mathbf{X}^\mathbf{T}\mathbf{Y}$に対する中心とスケーリングによる高速分割型クロスバリデーション
Fast Partition-Based Cross-Validation With Centering and Scaling for $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$ ( http://arxiv.org/abs/2401.13185v2 ) ライセンス: Link先を確認 | Ole-Christian Galbo Engstrøm, Martin Holm Jensen, | (参考訳) 行列積 $\mathbf{X}^\mathbf{T}\mathbf{X}$ および $\mathbf{X}^\mathbf{T}\mathbf{Y}$ を必要とする機械学習モデルの分割ベースのクロスバリデーションを大幅に加速するアルゴリズムを提案する。
我々のアルゴリズムは、モデル選択、例えば、主成分分析(PCA)、主成分回帰(PCR)、隆起回帰(RR)、通常最小二乗(OLS)、部分最小二乗(PLS)に応用できる。
我々のアルゴリズムは、$\mathbf{X}$と$\mathbf{Y}$のカラム単位の集中とスケーリングのすべての組み合わせをサポートします。
すなわち、計算の複雑さは $\mathbf{X}^\mathbf{T}\mathbf{X}$ と $\mathbf{X}^\mathbf{T}\mathbf{Y}$, $\mathbf{X}$, $\mathbf{X}$, $\mathbf{X}^\mathbf{T}\mathbf{X}$, $\mathbf{X}$, $\mathbf{X}^\mathbf{T}\mathbf{X}$ と $\mathbf{X}^\mathbf{T}\mathbf{Y}$ と同じである。
重要なことは、文献に見られる代替案とは異なり、前処理によるデータの漏洩を避けることである。
トレーニングパーティション間の重なり合いにおいて、冗長な計算を排除し、これらの結果を得る。
具体的には、バリデーションパーティションのサンプルのみを使用して、$\mathbf{X}^\mathbf{T}\mathbf{X}$と$\mathbf{X}^\mathbf{T}\mathbf{Y}$を操作して、プリプロセスされたトレーニングパーティションの$\mathbf{X}^\mathbf{T}\mathbf{X}$と$\mathbf{X}^\mathbf{T}\mathbf{Y}$を得る方法を示す。
私たちの知る限り、カラムワイド・センターとスケーリングの組み合わせのいずれにおいても、正確で効率的なクロスバリデーションアルゴリズムを導出したのは初めてです。
We present algorithms that substantially accelerate partition-based cross-validation for machine learning models that require matrix products $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$. Our algorithms have applications in model selection for, e.g., principal component analysis (PCA), principal component regression (PCR), ridge regression (RR), ordinary least squares (OLS), and partial least squares (PLS). Our algorithms support all combinations of column-wise centering and scaling of $\mathbf{X}$ and $\mathbf{Y}$, and we demonstrate in our accompanying implementation that this adds only a manageable, practical constant over efficient variants without preprocessing. We prove the correctness of our algorithms under a fold-based partitioning scheme and show that the running time is independent of the number of folds; that is, they have the same time complexity as that of computing $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$ and space complexity equivalent to storing $\mathbf{X}$, $\mathbf{Y}$, $\mathbf{X}^\mathbf{T}\mathbf{X}$, and $\mathbf{X}^\mathbf{T}\mathbf{Y}$. Importantly, unlike alternatives found in the literature, we avoid data leakage due to preprocessing. We achieve these results by eliminating redundant computations in the overlap between training partitions. Concretely, we show how to manipulate $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$ using only samples from the validation partition to obtain the preprocessed training partition-wise $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$. To our knowledge, we are the first to derive correct and efficient cross-validation algorithms for any of the $16$ combinations of column-wise centering and scaling, for which we also prove only $12$ give distinct matrix products. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# 信用リスクと大規模言語モデル:P2Pのローン説明からリスク指標を構築する
Credit Risk Meets Large Language Models: Building a Risk Indicator from Loan Descriptions in P2P Lending ( http://arxiv.org/abs/2401.16458v2 ) ライセンス: Link先を確認 | Mario Sanz-Guerrero, Javier Arroyo, | (参考訳) ピアツーピア(P2P)融資は、借り手と貸し手とをオンラインプラットフォームを通じて結びつける独特の融資メカニズムとして登場した。
しかしながら、P2P貸与は情報非対称性の課題に直面している。
本稿では,ローン申請プロセスにおいて,借主が提供したテキスト記述を活用することで,この問題に対処する新たなアプローチを提案する。
本手法では,テキスト内のパターンや意味を識別する強力なツールであるLarge Language Model (LLM) を用いて,これらのテキスト記述を処理する。
転送学習は、手前の特定のタスクにLLMを適用するために適用される。
筆者らは,Lending Clubデータセットの分析から,広く使用されているLCMであるBERTが生み出すリスクスコアが,信用リスク分類器の性能を著しく向上させることを示した。
しかし、LCMベースのシステムの本質的な不透明さは、潜在的なバイアスに関する不確実さと相まって、規制フレームワークに対する批判的な考察を裏付け、エンドユーザーの間で信頼関係の懸念を抱きしめ、P2P貸付と人工知能のダイナミックな景観に関する新たな研究の道を開く。
Peer-to-peer (P2P) lending has emerged as a distinctive financing mechanism, linking borrowers with lenders through online platforms. However, P2P lending faces the challenge of information asymmetry, as lenders often lack sufficient data to assess the creditworthiness of borrowers. This paper proposes a novel approach to address this issue by leveraging the textual descriptions provided by borrowers during the loan application process. Our methodology involves processing these textual descriptions using a Large Language Model (LLM), a powerful tool capable of discerning patterns and semantics within the text. Transfer learning is applied to adapt the LLM to the specific task at hand. Our results derived from the analysis of the Lending Club dataset show that the risk score generated by BERT, a widely used LLM, significantly improves the performance of credit risk classifiers. However, the inherent opacity of LLM-based systems, coupled with uncertainties about potential biases, underscores critical considerations for regulatory frameworks and engenders trust-related concerns among end-users, opening new avenues for future research in the dynamic landscape of P2P lending and artificial intelligence. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# 変分フローモデル:あなたのスタイルで流れる
Variational Flow Models: Flowing in Your Style ( http://arxiv.org/abs/2402.02977v4 ) ライセンス: Link先を確認 | Kien Do, Duc Kieu, Toan Nguyen, Dang Nguyen, Hung Le, Dung Nguyen, Thin Nguyen, | (参考訳) 本稿では,X_{t}=a_{t}X_{0}+\sigma_{t}X_{1} 方程式によって特徴づけられる「線形」確率過程の確率フローを,直列定速(SC)流に変換するための系統的学習自由手法を提案する。
この変換は、SCフローの新しいモデルを訓練することなく、Euler法による元の確率フローに沿って高速なサンプリングを容易にする。
このアプローチの柔軟性により、2つの異なる線形確率過程の2つの後流を変換する変換を拡張できる。
さらに,高次数値解法を変換SC流に容易に組み込むことができ,サンプリング精度と効率を向上させることができる。
厳密な理論的解析と広範な実験結果は,我々の枠組みの利点を裏付けるものである。
私たちのコードは、この[https://github.com/clarken92/VFM||link]で利用可能です。
We propose a systematic training-free method to transform the probability flow of a "linear" stochastic process characterized by the equation X_{t}=a_{t}X_{0}+\sigma_{t}X_{1} into a straight constant-speed (SC) flow, reminiscent of Rectified Flow. This transformation facilitates fast sampling along the original probability flow via the Euler method without training a new model of the SC flow. The flexibility of our approach allows us to extend our transformation to inter-convert two posterior flows of two distinct linear stochastic processes. Moreover, we can easily integrate high-order numerical solvers into the transformed SC flow, further enhancing the sampling accuracy and efficiency. Rigorous theoretical analysis and extensive experimental results substantiate the advantages of our framework. Our code is available at this [https://github.com/clarken92/VFM||link]. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# UniHENN:im2colを使わずに、より多彩な同型暗号化ベースのCNNを設計
UniHENN: Designing More Versatile Homomorphic Encryption-based CNNs without im2col ( http://arxiv.org/abs/2402.03060v2 ) ライセンス: Link先を確認 | Hyunmin Choi, Jihun Kim, Seungho Kim, Seonhye Park, Jeongyong Park, Wonbin Choi, Hyoungshick Kim, | (参考訳) ホモモルフィック暗号化(HE)は、復号化せずに暗号化データの計算を可能にすることによって、プライバシー保護の深層学習を可能にする。
しかし, HEによる畳み込みニューラルネットワーク(CNN)の展開は, 効率的な計算のために入力を再配置するim2col手法を用いて, 畳み込みのための2次元行列に入力データを変換する必要があるため, 困難である。
これにより、暗号化されたデータ構造が特定のモデルと互換性を持つ必要があるため、使用可能なCNNモデルのタイプが制限される。
UniHENNは、新しいHEベースのCNNアーキテクチャで、im2colの必要性を排除し、その汎用性と幅広いCNNモデルとの互換性を高める。
UniHENNは、im2colを使わずに入力データを1次元にフラット化する。
カーネルは、画像を横切ることで畳み込みを行い、インクリメンタルな回転と平坦な入力に対する構造化された乗算を用いて、ストライド間隔で結果を空間化する。
実験結果から、UniHENNはPyCrCNNという名前の最先端の2D CNN推論アーキテクチャよりも、推論時間でかなり優れていることがわかった。
例えば、LeNet-1モデルでは、UniHENNはPyCrCNNの800.591秒の約26.6倍の30.089秒の平均推論時間を達成している。
さらに、UniHENNはコンカレント画像処理において、im2col最適化CNNモデルであるTenSEALより優れている。
10個のサンプルに対して、UniHENN (16.247秒) はTenSEAL (63.706秒) よりも約3.9倍高速であった。
1D CNNと6つの2D CNNを含む、さまざまなCNNアーキテクチャへのUniHENNの適応性を実証し、プライバシ保護クラウドベースのCNNサービスの柔軟性と効率性を強調した。
Homomorphic encryption (HE) enables privacy-preserving deep learning by allowing computations on encrypted data without decryption. However, deploying convolutional neural networks (CNNs) with HE is challenging due to the need to convert input data into a two-dimensional matrix for convolution using the im2col technique, which rearranges the input for efficient computation. This restricts the types of CNN models that can be used since the encrypted data structure must be compatible with the specific model. UniHENN is a novel HE-based CNN architecture that eliminates the need for im2col, enhancing its versatility and compatibility with a broader range of CNN models. UniHENN flattens input data to one dimension without using im2col. The kernel performs convolutions by traversing the image, using incremental rotations and structured multiplication on the flattened input, with results spaced by the stride interval. Experimental results show that UniHENN significantly outperforms the state-of-the-art 2D CNN inference architecture named PyCrCNN in terms of inference time. For example, on the LeNet-1 model, UniHENN achieves an average inference time of 30.089 seconds, about 26.6 times faster than PyCrCNN's 800.591 seconds. Furthermore, UniHENN outperforms TenSEAL, an im2col-optimized CNN model, in concurrent image processing. For ten samples, UniHENN (16.247 seconds) was about 3.9 times faster than TenSEAL (63.706 seconds), owing to its support for batch processing of up to 10 samples. We demonstrate UniHENN's adaptability to various CNN architectures, including a 1D CNN and six 2D CNNs, highlighting its flexibility and efficiency for privacy-preserving cloud-based CNN services. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# ロボタクシー事故の解剖:クルーズ歩行者の事故から学んだこと
Anatomy of a Robotaxi Crash: Lessons from the Cruise Pedestrian Dragging Mishap ( http://arxiv.org/abs/2402.06046v3 ) ライセンス: Link先を確認 | Philip Koopman, | (参考訳) 2023年10月、GM Cruiseのロボタクシーとサンフランシスコの歩行者が衝突し、重傷を負っただけでなく、業界全体に持続する影響をもたらすであろう同社の劇的な不況も引き起こした。
Is-suesは、紛失事件そのものだけでなく、Cruiseがロボットタクシーで車の下に歩行者を引きずり込むのを間違えたことにも起因している。
外部調査報告は、事故を記述した資料を提供し、規制の観点から会社の対応を批判するが、安全工学の推奨事項を範囲から除外する。
外部報告資料の異なる部分を結びつけることで、イベント間の特定の事実や関係を明らかにする。
次に、近隣の不幸を認識して対応すること、複雑な状況下でいわゆる「最小リスク条件」戦略が不適切であること、不幸な事態を悪化させた過度に攻撃的な統合後の自動化選択に対処すること、不幸な組織的被害を下流で発生させることを認めること、などの安全性に関する教訓を探求する。
An October 2023 crash between a GM Cruise robotaxi and a pedestrian in San Francisco resulted not only in a severe injury, but also dramatic upheaval at that company that will likely have lasting effects throughout the industry. Is-sues stem not just from the loss events themselves, but also from how Cruise mishandled dealing with their robotaxi dragging a pedestrian under the vehicle after the initial post-crash stop. External investigation reports provide raw material describing the incident and critique the company's response from a regulatory point of view, but exclude safety engineering recommendations from scope. We highlight specific facts and relationships among events by tying together different pieces of the external report material. We then explore safety lessons that might be learned related to: recognizing and responding to nearby mishaps, building an accurate world model of a post-collision scenario, the in-adequacy of a so-called "minimal risk condition" strategy in complex situations, poor organizational discipline in responding to a mishap, overly aggressive post-collision automation choices that made a bad situation worse, and a reluctance to admit to a mishap causing much worse organizational harm down-stream. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# インコンテキスト書き換えによるブラックボックスロバストネスの改善
Improving Black-box Robustness with In-Context Rewriting ( http://arxiv.org/abs/2402.08225v3 ) ライセンス: Link先を確認 | Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen, | (参考訳) テキスト分類のための機械学習モデルは、しばしばIn-distribution (ID)データに優れるが、目に見えないout-of-distriion (OOD)入力に苦労する。
OODロバスト性を改善するほとんどのテクニックは、重みが凍結されたり、再トレーニングがコストがかかる場合や、API経由でモデルを活用する場合など、モデルが事実上ブラックボックスであるような設定には適用できない。
TTA(Test-time augmentation)は、テスト入力の複数の拡張にまたがる予測を集約することによってブラックボックス制約を傍受するロバスト性を改善する単純なポストホック手法である。
TTAは、効果的な自然言語拡張を生成することの難しさから、NLPでの使用が制限されている。
本研究では,LLM生成オーグメンテーションをTTAのオーグメンテーション関数として用いるLLM-TTAを提案する。
LLM-TTA は BERT と T5 のモデルにおいて、感情、毒性、ニュース分類といった従来の拡張機能よりも優れており、BERT の OOD の堅牢性は平均 4.48 ポイント向上している。
予測エントロピーに基づいて入力を選択的に増強し、高価なLCM増倍率を低減し、生成した増倍率の平均値を57.74\%削減しながら性能向上を維持できるようにする。
LLM-TTAはタスクモデルアーキテクチャに非依存であり、OODラベルを必要としない。
再現性のためのデータ、モデル、コードを共有しています。
Machine learning models for text classification often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.48 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.74\%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-05 |
# TinyCL: 自律システムにおける継続的な学習のための効率的なハードウェアアーキテクチャ
TinyCL: An Efficient Hardware Architecture for Continual Learning on Autonomous Systems ( http://arxiv.org/abs/2402.09780v2 ) ライセンス: Link先を確認 | Eugenio Ressa, Alberto Marchisio, Maurizio Martina, Guido Masera, Muhammad Shafique, | (参考訳) 継続的学習(CL)パラダイムは、Deep Neural Network(DNN)モデルのパラメータを継続的に進化させ、従来のタスクのパフォーマンスを低下させることなく、段階的に新しいタスクを実行することを学習する。
しかし、CLベースの自律システムにおけるDNNパラメータの更新は非常に資源不足である。
既存のDNNアクセラレータは、前方伝播の実行のみをサポートするため、直接CLに採用することはできない。
バックプロパゲーションとウェイトアップデートを実行する以前のアーキテクチャはわずかだが、CLのコントロールと管理が不足している。
そこで我々は,リソース制約された自律システム上でCLを実行するハードウェアアーキテクチャであるTinyCLを設計する。
前処理と後処理の両方を実行する処理ユニットと、メモリベースのCLワークロードを管理する制御ユニットで構成される。
メモリアクセスを最小限に抑えるため、畳み込み層の滑り窓は蛇のように動く。
さらに、Multiply-and-Accumulateユニットは実行時に再構成して異なる操作を実行することができる。
我々の知る限り、提案したTinyCLは、自律システム上でCLを実行する最初のハードウェアアクセラレータである。
我々は65nmのCMOS技術ノードでTinyCLアーキテクチャを合成し、従来のASIC設計フローと組み合わせた。
CIFAR10データセット上で1.76秒でConv + ReLU + Denseモデルのトレーニングを1周する一方、Nvidia Tesla P100 GPUを使用した同じモデルのトレーニングエポックは103秒を要し、58倍のスピードアップを実現し、4.74mm2ダイで86mWを消費する。
The Continuous Learning (CL) paradigm consists of continuously evolving the parameters of the Deep Neural Network (DNN) model to progressively learn to perform new tasks without reducing the performance on previous tasks, i.e., avoiding the so-called catastrophic forgetting. However, the DNN parameter update in CL-based autonomous systems is extremely resource-hungry. The existing DNN accelerators cannot be directly employed in CL because they only support the execution of the forward propagation. Only a few prior architectures execute the backpropagation and weight update, but they lack the control and management for CL. Towards this, we design a hardware architecture, TinyCL, to perform CL on resource-constrained autonomous systems. It consists of a processing unit that executes both forward and backward propagation, and a control unit that manages memory-based CL workload. To minimize the memory accesses, the sliding window of the convolutional layer moves in a snake-like fashion. Moreover, the Multiply-and-Accumulate units can be reconfigured at runtime to execute different operations. As per our knowledge, our proposed TinyCL represents the first hardware accelerator that executes CL on autonomous systems. We synthesize the complete TinyCL architecture in a 65 nm CMOS technology node with the conventional ASIC design flow. It executes 1 epoch of training on a Conv + ReLU + Dense model on the CIFAR10 dataset in 1.76 s, while 1 training epoch of the same model using an Nvidia Tesla P100 GPU takes 103 s, thus achieving a 58x speedup, consuming 86 mW in a 4.74 mm2 die. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# 二次リトルウッド・オフォード問題のレジリエンスについて
On the resilience of the quadratic Littlewood-Offord problem ( http://arxiv.org/abs/2402.10504v2 ) ライセンス: Link先を確認 | Elad Aigner-Horev, Daniel Rosenberg, Roi Weiss, | (参考訳) 本研究では, 逆行列雑音に面したラデマッハ多項式の反集束特性の統計的レジリエンスについて, サインフリップの形で検討した。
多重線型多項式 $f:\mathbb{R}^n \to \mathbb{R}$ と Rademacher ベクトル $\boldsymbol{\xi} \in \{\pm 1\}^n$ (独立なエントリを持つ)が与えられたとき、我々の結果は、$\boldsymbol{\xi}$ が "inflating" なしで持続できる符号フリップ数の確率的下界推定を提供する。
双線型形式と二次形式に特に重点を置いており、より強く見積もられている。
計算の観点からは、この場所における我々の結果は、二次多項式自身から直接統計的レジリエンス保証の効率的な計算を可能にするような、インスタンスバウンドである。
確率的な低拘束力保証はすべて、漸近的に厳格です。
ルート上では、ラデマッハ多重線型多項式 $f: \mathbb{R}^n \to \mathbb{R}$ を固定した新しい小球確率推定の短い証明を与える。
この除去は、我々の仮定にかかわらず、Meka-Nguyen-Vuによって可能であると推測された。
次元自由係数を持つ双線型ラデマッハ形式は、特にアロン、ヘフェッツ、クリヴェレーヴィチ、ティオムキンによって予想されるエッジ統計学予想の密度のケースで自然に生じる。
この予想のケースはクワンとソーアマンによって解決された。
クワン、スダコフ、トランの著作におけるメカ=グエン=ヴー古典的境界への上訴を、我々のすぐに証明された結果と置き換えることで、エッジ統計学予想の密接なケースのさらなる証明が得られた。
We study the statistical resilience of the anti-concentration properties of Rademacher polynomials in face of adversarial deterministic noise taking the form of sign-flips. Given a multilinear polynomial $f:\mathbb{R}^n \to \mathbb{R}$ and a Rademacher vector $\boldsymbol{\xi} \in \{\pm 1\}^n$ (with independent entries), our results provide probabilistic lower bound estimations on the number of sign-flips that $\boldsymbol{\xi}$ can sustain without ``inflating" the atom probability $\sup_{x \in \mathbb{R} } \mathbb{P}\{f(\boldsymbol{\xi}) = x\}$ otherwise resulting in an adversarially biased distribution. Special emphasis is put on bilinear and quadratic forms, for which strengthened estimates are attained. From a computational perspective, our results in this venue are instance-bound in such a way that allows for an efficient computation of the statistical resilience guarantees from the quadratic polynomial itself directly. All of our probabilistic lower bound resilience guarantees are asymptotically tight. On route, we provide a short proof for a new small-ball probability estimate fitting Rademacher multilinear polynomials $f: \mathbb{R}^n \to \mathbb{R}$ removeing a polylog-factor from the classical Meka-Nguyen-Vu bound provided the coefficients are independent of $n$ (dimension-free, hereafter). This removal was conjectured to be possible by Meka-Nguyen-Vu regardless of our assumption. Bilinear Rademacher forms with dimension-free coefficients arise naturally in Combinatorics and specifically in the dense case of the edge-statistics conjecture posed by Alon, Hefetz, Krivelevich, and Tyomkyn. This case of the conjecture was resolved by Kwan and Sauermann. Replacing the appeal to the Meka-Nguyen-Vu classical bound in the work of Kwan, Sudakov, and Tran with our shortly proved result attains an additional proof of the dense case of the edge-statistics conjecture. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# ヘイトミーム検出のためのゼロショットVLM:まだ存在するか?
Zero shot VLMs for hate meme detection: Are we there yet? ( http://arxiv.org/abs/2402.12198v2 ) ライセンス: Link先を確認 | Naquee Rizwan, Paramananda Bhaskar, Mithun Das, Swadhin Satyaprakash Majhi, Punyajoy Saha, Animesh Mukherjee, | (参考訳) ソーシャルメディア上のマルチメディアコンテンツは急速に進化しており、ミームは顕著な形式として注目されている。
残念ながら、悪意のあるユーザの中には、個人や脆弱なコミュニティをターゲットにするミームを悪用する者もいる。
ヘイトミーム検出モデルを開発することでこの問題に対処する研究が盛んに行われている。
しかし、従来の機械学習モデルの顕著な制限は、正確な分類のためのラベル付きデータセットの要求である。
近年、研究コミュニティは様々なタスクにおいて優れたパフォーマンスを示す視覚言語モデルの出現を目撃している。
本研究では,ハト・ミーム検出などの複雑なタスクに対する視覚言語モデルの有効性を検討することを目的とする。
ヘイトフル/ハームフルミームのゼロショット分類にフォーカスするために、さまざまなプロンプト設定を使用します。
分析の結果,大きなVLMは依然としてゼロショットヘイトミーム検出に弱いことが判明した。
Multimedia content on social media is rapidly evolving, with memes gaining prominence as a distinctive form. Unfortunately, some malicious users exploit memes to target individuals or vulnerable communities, making it imperative to identify and address such instances of hateful memes. Extensive research has been conducted to address this issue by developing hate meme detection models. However, a notable limitation of traditional machine/deep learning models is the requirement for labeled datasets for accurate classification. Recently, the research community has witnessed the emergence of several visual language models that have exhibited outstanding performance across various tasks. In this study, we aim to investigate the efficacy of these visual language models in handling intricate tasks such as hate meme detection. We use various prompt settings to focus on zero-shot classification of hateful/harmful memes. Through our analysis, we observe that large VLMs are still vulnerable for zero-shot hate meme detection. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# LLMが世界観を異にするとしたら? LLMをベースとしたエージェントによるエイリアン文明のシミュレーション
What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents ( http://arxiv.org/abs/2402.13184v3 ) ライセンス: Link先を確認 | Mingyu Jin, Beichen Wang, Zhaoqian Xue, Suiyuan Zhu, Wenyue Hua, Hua Tang, Kai Mei, Mengnan Du, Yongfeng Zhang, | (参考訳) 本研究では,人間と地球外文明の複雑な相互作用をシミュレートするために,大規模言語モデル(LLM)を用いた革新的な人工知能フレームワークであるCosmoAgentを紹介する。
目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の実現可能性を評価することである。
数理モデルと状態遷移行列を用いて文明の発展軌跡を定量的に評価し、成長と飽和の重要な点における将来の意思決定に関する洞察を提供する。
さらに、この論文は宇宙の潜在的な生活環境の多様性を認めており、様々な文明における独自の宇宙論、倫理的規範、世界観を育むことができる。
現在のLLM設計に固有の地球中心バイアスを認識し、多様な倫理的パラダイムを持つLLMの使用と、異なる道徳的原理を持つエンティティ間の相互作用をシミュレートする新しい概念を提案する。
この革新的な研究は、複雑な文明間ダイナミクスを理解する新しい方法を提供し、星間紛争を防ぐために不可欠な紛争解決のための新しい戦略を開拓しながら、私たちの視点を広げます。
この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットもリリースしました。
コードはhttps://github.com/MingyuJ666/Simulating-Alien-Civilizations-with-LLM-based-Agentsで公開されている。
In this study, we introduce "CosmoAgent," an innovative artificial intelligence framework utilizing Large Language Models (LLMs) to simulate complex interactions between human and extraterrestrial civilizations, with a special emphasis on Stephen Hawking's cautionary advice about not sending radio signals haphazardly into the universe. The goal is to assess the feasibility of peaceful coexistence while considering potential risks that could threaten well-intentioned civilizations. Employing mathematical models and state transition matrices, our approach quantitatively evaluates the development trajectories of civilizations, offering insights into future decision-making at critical points of growth and saturation. Furthermore, the paper acknowledges the vast diversity in potential living conditions across the universe, which could foster unique cosmologies, ethical codes, and worldviews among various civilizations. Recognizing the Earth-centric bias inherent in current LLM designs, we propose the novel concept of using LLMs with diverse ethical paradigms and simulating interactions between entities with distinct moral principles. This innovative research provides a new way to understand complex inter-civilizational dynamics, expanding our perspective while pioneering novel strategies for conflict resolution, which are crucial for preventing interstellar conflicts. We have also released the code and datasets to enable further academic investigation into this interesting area of research. The code is available at https://github.com/MingyuJ666/Simulating-Alien-Civilizations-with-LLM-based-Agents. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# 交換性を利用した高純度PAC学習
High-arity PAC learning via exchangeability ( http://arxiv.org/abs/2402.14294v2 ) ライセンス: Link先を確認 | Leonardo N. Coregliano, Maryanthe Malliaris, | (参考訳) 本研究では,「構造化相関」の存在下での統計的学習である高純度PAC学習の理論を開発する。
この理論では、仮説はグラフ、ハイパーグラフ、あるいはより一般に有限リレーショナル言語の構造であり、サンプリングは誘導された部分構造をサンプリングすることによって置き換えられ、交換可能な分布を生成する。
我々の主要な定理は、統計学習の基本的な定理の高次性(不可知性)バージョンを確立する。
We develop a theory of high-arity PAC learning, which is statistical learning in the presence of "structured correlation". In this theory, hypotheses are either graphs, hypergraphs or, more generally, structures in finite relational languages, and i.i.d. sampling is replaced by sampling an induced substructure, producing an exchangeable distribution. Our main theorems establish a high-arity (agnostic) version of the fundamental theorem of statistical learning. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# 物理インフォームド・機械学習を用いた保存法則の不連続ガレルキン近似のための人工粘度モデルの検出
Discovering Artificial Viscosity Models for Discontinuous Galerkin Approximation of Conservation Laws using Physics-Informed Machine Learning ( http://arxiv.org/abs/2402.16517v2 ) ライセンス: Link先を確認 | Matteo Caldana, Paola F. Antonietti, Luca Dede', | (参考訳) 有限要素法に基づく保存法則の高次解法は、高い精度を提供するが、ギブス現象による不連続性に近い課題に直面している。
人工粘性は、物理的洞察に基づくこの問題に対するポピュラーで効果的な解決策である。
本研究では,非教師付きパラダイムにおける人工粘性モデルの発見を自動化する物理インフォームド機械学習アルゴリズムを提案する。
このアルゴリズムは強化学習にインスパイアされ、自動微分による参照解に対する差として定義される損失を最小限に抑え、セルバイセル(粘性モデル)を作用するニューラルネットワークを訓練する。
これにより、データセットなしのトレーニング手順が可能になる。
このアルゴリズムは,最先端のルンゲ・クッタ不連続ガレルキン解法に組み込むことで有効であることを示す。
バーガーズ方程式やオイラー方程式のようなスカラーおよびベクトル問題に関するいくつかの数値実験を1次元と2次元で示す。
提案手法は,古典的粘度モデルより優れたモデルであることを示す。
さらに,学習した人工粘度モデルが,様々な問題やパラメータにわたって一般化可能であることを示す。
Finite element-based high-order solvers of conservation laws offer large accuracy but face challenges near discontinuities due to the Gibbs phenomenon. Artificial viscosity is a popular and effective solution to this problem based on physical insight. In this work, we present a physics-informed machine learning algorithm to automate the discovery of artificial viscosity models in a non-supervised paradigm. The algorithm is inspired by reinforcement learning and trains a neural network acting cell-by-cell (the viscosity model) by minimizing a loss defined as the difference with respect to a reference solution thanks to automatic differentiation. This enables a dataset-free training procedure. We prove that the algorithm is effective by integrating it into a state-of-the-art Runge-Kutta discontinuous Galerkin solver. We showcase several numerical tests on scalar and vectorial problems, such as Burgers' and Euler's equations in one and two dimensions. Results demonstrate that the proposed approach trains a model that is able to outperform classical viscosity models. Moreover, we show that the learnt artificial viscosity model is able to generalize across different problems and parameters. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-05 |
# AVS-Net:3次元シーン理解のための適応型ボクセルサイズを用いたポイントサンプリング
AVS-Net: Point Sampling with Adaptive Voxel Size for 3D Scene Understanding ( http://arxiv.org/abs/2402.17521v3 ) ライセンス: Link先を確認 | Hongcheng Yang, Dingkang Liang, Dingyuan Zhang, Zhe Liu, Zhikang Zou, Xingyu Jiang, Yingying Zhu, | (参考訳) ポイント学習の最近の進歩により、インテリジェントな車やロボットが3D環境をよりよく理解できるようになった。
しかし、大規模な3Dシーンの処理は依然として困難な問題であり、効率的なダウンサンプリング手法がポイントクラウド学習において重要な役割を果たす。
既存のダウンサンプリング手法では、計算の負担が大きいか、きめ細かい幾何学的情報を犠牲にする。
そこで本研究では,高精度かつ高効率な試料試料について述べる。
提案手法は, ボクセル・セントロイドサンプリングを基礎として利用するが, ボクセルサイズの決定と重要な幾何学的手がかりの保存に関する課題を効果的に解決する。
具体的には,Voxel Adaptation Module(Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module)を提案する。
これにより、サンプリング結果が様々な3Dオブジェクトやシーンの理解に好適な分布を示すことが保証される。
一方,高効率を維持しつつ,サンプリングおよび特徴抽出のための任意のボクセルサイズに対応するネットワークを導入する。
提案手法は3次元オブジェクト検出と3次元セマンティックセマンティックセグメンテーションを用いて実証される。
既存の最先端手法と比較して、当社の手法は、例えばWaymoやScanNetといった屋外および屋内の大規模データセットの精度を向上し、有望な効率性を実現している。
The recent advancements in point cloud learning have enabled intelligent vehicles and robots to comprehend 3D environments better. However, processing large-scale 3D scenes remains a challenging problem, such that efficient downsampling methods play a crucial role in point cloud learning. Existing downsampling methods either require a huge computational burden or sacrifice fine-grained geometric information. For such purpose, this paper presents an advanced sampler that achieves both high accuracy and efficiency. The proposed method utilizes voxel centroid sampling as a foundation but effectively addresses the challenges regarding voxel size determination and the preservation of critical geometric cues. Specifically, we propose a Voxel Adaptation Module that adaptively adjusts voxel sizes with the reference of point-based downsampling ratio. This ensures that the sampling results exhibit a favorable distribution for comprehending various 3D objects or scenes. Meanwhile, we introduce a network compatible with arbitrary voxel sizes for sampling and feature extraction while maintaining high efficiency. The proposed approach is demonstrated with 3D object detection and 3D semantic segmentation. Compared to existing state-of-the-art methods, our approach achieves better accuracy on outdoor and indoor large-scale datasets, e.g. Waymo and ScanNet, with promising efficiency. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# ハードネガティブサンプルによるマルチモーダルコントラスト学習における概念理解の促進
Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples ( http://arxiv.org/abs/2403.02875v2 ) ライセンス: Link先を確認 | Philipp J. Rösch, Norbert Oswald, Michaela Geierhos, Jindřich Libovický, | (参考訳) 対照的な学習を活用する現在のマルチモーダルモデルは、しばしば微細な概念的理解を開発する際に限界に直面している。
これは事前学習中のランダムな負のサンプルのためであり、損失関数においてほとんど全く異なる概念が比較される。
その結果、モデルは細粒度のセマンティックな違いに悩まされる。
この問題に対処するために,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
さらに、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かなアライメントを評価するための、新しい挑戦的データセットであるInpaintCOCOを紹介します。
画像が元のキャプションと一致しないように、視覚概念を変更してCOCO画像から生成的インペイントを用いてデータセットを作成しました。
InpaintCOCOデータセットを含む、広範囲の視覚言語データセットにおける詳細な概念理解の大幅な改善が得られた。
Current multimodal models leveraging contrastive learning often face limitations in developing fine-grained conceptual understanding. This is due to random negative samples during pretraining, causing almost exclusively very dissimilar concepts to be compared in the loss function. Consequently, the models struggle with fine-grained semantic differences. To address this problem, we introduce a novel pretraining method incorporating synthetic hard negative text examples. The hard negatives permute terms corresponding to visual concepts, leading to a more fine-grained visual and textual concept alignment. Further, we introduce InpaintCOCO, a new challenging dataset for assessing the fine-grained alignment of colors, objects, and sizes in vision-language models. We created the dataset using generative inpainting from COCO images by changing the visual concepts so that the images no longer match their original captions. Our results show significant improvements in fine-grained concept understanding across a wide range of vision-language datasets, including our InpaintCOCO dataset. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# トポロジカルに保護された負の絡み合い
Topologically protected negative entanglement ( http://arxiv.org/abs/2403.03259v3 ) ライセンス: Link先を確認 | Wen-Tan Xue, Ching Hua Lee, | (参考訳) 絡み合いエントロピーは量子多体系の基本的な特性を符号化し、固有状態が一般に非直交状態となる非エルミート的セッティングにおいて特に微妙である。
本研究では, 自由フェルミオン系, 特にトポロジカルフラットバンドにおいて, トポロジカルに保護された非直交エッジ状態から負の直交絡みが生じることを見出した。
例外的な隙間のない点と負の絡み合いを関連づけた以前の文献を別として, ギャップ付き系では, 頑健に負の絡み合いが生じうることを示す。
しかし、ギャップレス2次元位相平坦バンドは、システムパラメータとは独立に、逆次元$L_y$で2次スケールする新しい$S_A\sim -\frac1{2}L_y^2\log L$ Super volume-law entanglement振舞いを示す。
この劇的な負のスケーリングは、非エルミート臨界皮膚圧縮(nHCSC)と呼ばれる新しいメカニズムに遡ることができる。
我々の発見は、トポロジカルエントロピーの伝統的な概念とは無関係に、トポロジが臨界性と非エルミート的ローカライゼーションと相互作用する新しい道に光を当てている。
この位相的に保護された負の絡み合いは、SWAP演算子抽出値によって測定できる第二のR'enyiエントロピーにも現れる。
The entanglement entropy encodes fundamental characteristics of quantum many-body systems, and is particularly subtle in non-Hermitian settings where eigenstates generically become non-orthogonal. In this work, we find that negative biorthogonal entanglement generically arises from topologically-protected non-orthogonal edge states in free fermion systems, especially within topological flat bands. Departing from previous literature which associated negative entanglement with exceptional gapless points, we show that robustly negative entanglement can still occur in gapped systems. Gapless 2D topological flat bands, however, exhibits novel $S_A\sim -\frac1{2}L_y^2\log L$ super volume-law entanglement behavior which scales quadratically with the transverse dimension $L_y$, independent of system parameters. This dramatically negative scaling can be traced to a new mechanism known as non-Hermitian critical skin compression (nHCSC), where topological and skin localization in one direction produces a hierarchy of extensively many probability non-conserving entanglement eigenstates across a cut in another direction. Our discovery sheds light on new avenues where topology interplays with criticality and non-Hermitian localization, unrelated to traditional notions of topological entanglement entropy. This topologically protected negative entanglement also manifests in the second R\'enyi entropy, which can be measured through SWAP operator expecation values. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# 高い更新率でDeep RLを分離する - 価値の多様性を議論する
Dissecting Deep RL with High Update Ratios: Combatting Value Divergence ( http://arxiv.org/abs/2403.05996v3 ) ライセンス: Link先を確認 | Marcel Hussing, Claas Voelcker, Igor Gilitschenski, Amir-massoud Farahmand, Eric Eaton, | (参考訳) 本研究では, ネットワークパラメータをリセットすることなく, 深層強化学習アルゴリズムが学習能力を維持できることを示す。
大規模な更新とデータ比の下で、Nikishinらによる2022年の最近の研究は、エージェントが早期の相互作用と後期の体験に過度に適合し、学習能力を損なうという、予備主義バイアスの出現を示唆している。
本研究では,プライマリーバイアスの原因となる現象について検討する。
学習の失敗の原因と推測されたトレーニングの初期段階を調べ、一つの根本的な課題は長年の知人:値関数の発散であることを示す。
オーバーインフレーションされたQ値は分布外だけでなく分布内データにも見出され、オプティマイザ運動量によって推進される見えない動作予測の過大評価に関連付けられる。
我々は,大規模な更新率での学習を可能にし,広く使用されているdm_controlスイートで有効性を示し,モデルベースアプローチと競合する課題のドッグタスクにおいて高い性能が得られる,シンプルな単球正規化を採用している。
以上の結果から,初期データの過度な適合による準最適学習の事前説明が疑問視された。
We show that deep reinforcement learning algorithms can retain their ability to learn without resetting network parameters in settings where the number of gradient updates greatly exceeds the number of environment samples by combatting value function divergence. Under large update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the emergence of a primacy bias, in which agents overfit early interactions and downplay later experience, impairing their ability to learn. In this work, we investigate the phenomena leading to the primacy bias. We inspect the early stages of training that were conjectured to cause the failure to learn and find that one fundamental challenge is a long-standing acquaintance: value function divergence. Overinflated Q-values are found not only on out-of-distribution but also in-distribution data and can be linked to overestimation on unseen action prediction propelled by optimizer momentum. We employ a simple unit-ball normalization that enables learning under large update ratios, show its efficacy on the widely used dm_control suite, and obtain strong performance on the challenging dog tasks, competitive with model-based approaches. Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting early data. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# HAIFIT:Fashion Image Translation for Human-to-AI Style Learning and Generation
HAIFIT: Fashion Image Translation for Human-to-AI Style Learning and Generation ( http://arxiv.org/abs/2403.08651v4 ) ライセンス: Link先を確認 | Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu, | (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。
スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。
しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。
この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。
この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。
本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。
本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。
さらに,本手法は,設計者の時間的コスト低減と設計効率の向上に寄与し,モデルトレーニングと推論速度において明らかな優位性を有する。
In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications. In addition, our method also has obvious advantages in model training and inference speed, contributing to reducing designers' time costs and improving design efficiency. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# SSAP: 自律ナビゲーションアプリケーションにおける単眼深度推定の包括的破壊のための形状感応的対向パッチ
SSAP: A Shape-Sensitive Adversarial Patch for Comprehensive Disruption of Monocular Depth Estimation in Autonomous Navigation Applications ( http://arxiv.org/abs/2403.11515v2 ) ライセンス: Link先を確認 | Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, Bassem Ouni, Muhammad Shafique, | (参考訳) モノクル深度推定(MDE)は、主に畳み込みニューラルネットワーク(CNN)の統合と、最近ではTransformersによって大幅に進歩している。
しかし、特に自律運転やロボットナビゲーションといった安全上重要な分野において、敵の攻撃に対する感受性に関する懸念が浮上している。
既存のCNNに基づく深度予測手法の評価手法は、視覚系に包括的破壊を引き起こすに足りず、しばしば特定の局所領域に限られている。
本稿では,自律ナビゲーションアプリケーションにおける単眼深度推定(MDE)を包括的に破壊する新しい手法であるSSAP(Shape-Sensitive Adversarial Patch)を紹介する。
我々のパッチは、推定距離を歪ませたり、システムの観点から消える物体の錯覚を作り出すことによって、2つの異なる方法でMDEを選択的に弱体化させる。
特に、我々のパッチは形状に敏感であり、対象物の特定の形状や規模を考慮し、その影響をすぐ近くまで広げている。
さらに、我々のパッチは、カメラからの距離やスケールを効果的に扱えるように訓練されている。
実験の結果,提案手法は平均深度推定誤差が0.5を超え,CNNベースMDEモデルの目標領域の99%に影響を及ぼすことが示された。
さらに,Transformer ベースの MDE モデルのパッチベースの攻撃に対する脆弱性を調査し,SSAP が 0.59 の重大なエラーを発生し,これらのモデルに対する対象領域の 99% 以上に重大な影響を及ぼすことを明らかにした。
Monocular depth estimation (MDE) has advanced significantly, primarily through the integration of convolutional neural networks (CNNs) and more recently, Transformers. However, concerns about their susceptibility to adversarial attacks have emerged, especially in safety-critical domains like autonomous driving and robotic navigation. Existing approaches for assessing CNN-based depth prediction methods have fallen short in inducing comprehensive disruptions to the vision system, often limited to specific local areas. In this paper, we introduce SSAP (Shape-Sensitive Adversarial Patch), a novel approach designed to comprehensively disrupt monocular depth estimation (MDE) in autonomous navigation applications. Our patch is crafted to selectively undermine MDE in two distinct ways: by distorting estimated distances or by creating the illusion of an object disappearing from the system's perspective. Notably, our patch is shape-sensitive, meaning it considers the specific shape and scale of the target object, thereby extending its influence beyond immediate proximity. Furthermore, our patch is trained to effectively address different scales and distances from the camera. Experimental results demonstrate that our approach induces a mean depth estimation error surpassing 0.5, impacting up to 99% of the targeted region for CNN-based MDE models. Additionally, we investigate the vulnerability of Transformer-based MDE models to patch-based attacks, revealing that SSAP yields a significant error of 0.59 and exerts substantial influence over 99% of the target region on these models. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-05 |
# 教師学習型大規模言語モデルを用いた命令型マルチ制約分子生成
Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model ( http://arxiv.org/abs/2403.13244v3 ) ライセンス: Link先を確認 | Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Chubo Liu, Siqi Sun, Jianxin Lin, Leyi Wei, Xibao Cai, Houtim Lai, Wei Liu, Longyue Wang, Xiangxiang Zeng, Kenli Li, | (参考訳) 分子の構造と性質解析のための様々なモデルや計算ツールが提案されているが、全ての所望の構造と性質に適合する分子を生成することは依然として課題である。
本稿では,学生に類似した多制約分子生成大言語モデルであるTSMMGを紹介し,様々な小モデルやツール,すなわち「教師」の知識を取り入れた。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、様々なテキストプロンプトを通して記述に適合する新しい分子を生成することによって、大量のテキスト-分子対を構築する。
TSMMGは,2-,3-,4-制約タスクにまたがる複雑な,自然言語で規定された特性条件を満たす分子の生成において,平均分子効率が99%以上,成功率は82.58%,68.03%,67.48%であることを示す。
モデルはまたゼロショットテストを通じて適応性を示し、遭遇していない性質の組み合わせを満たす分子を生成する。
様々な言語スタイルでテキスト入力を理解でき、実験的な検証によって確認されたように、概要化されたプロンプトの区切りを超えて拡張できる。
さらに、TSMMGの知識蒸留機能は、小さなモデルの継続的な強化に寄与する一方、データセット構築における革新的なアプローチは、データ不足と品質の問題に効果的に対処し、TSMMGを医薬品発見と材料科学の領域における有望なツールとして位置づけている。
While various models and computational tools have been proposed for structure and property analysis of molecules, generating molecules that conform to all desired structures and properties remains a challenge. Here, we introduce a multi-constraint molecular generation large language model, TSMMG, which, akin to a student, incorporates knowledge from various small models and tools, namely, the 'teachers'. To train TSMMG, we construct a large set of text-molecule pairs by extracting molecular knowledge from these 'teachers', enabling it to generate novel molecules that conform to the descriptions through various text prompts. We experimentally show that TSMMG remarkably performs in generating molecules meeting complex, natural language-described property requirements across two-, three-, and four-constraint tasks, with an average molecular validity of over 99% and success ratio of 82.58%, 68.03%, and 67.48%, respectively. The model also exhibits adaptability through zero-shot testing, creating molecules that satisfy combinations of properties that have not been encountered. It can comprehend text inputs with various language styles, extending beyond the confines of outlined prompts, as confirmed through empirical validation. Additionally, the knowledge distillation feature of TSMMG contributes to the continuous enhancement of small models, while the innovative approach to dataset construction effectively addresses the issues of data scarcity and quality, which positions TSMMG as a promising tool in the domains of drug discovery and materials science. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# SocialBench:ロールプレイング会話エージェントの社会的評価
SocialBench: Sociality Evaluation of Role-Playing Conversational Agents ( http://arxiv.org/abs/2403.13679v4 ) ライセンス: Link先を確認 | Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou, | (参考訳) 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。
これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。
本稿では,ソーシャルインタラクションの個人レベルとグループレベルの両方において,ロールプレイング・会話エージェントの社会的性を体系的に評価するための最初のベンチマークであるSocialBenchを紹介する。
ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。
本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。
SocialBenchの実験結果は、ロールプレイング会話エージェントの社会的相互作用を評価するためのテストベッドとしての重要性を確認した。
ベンチマークはhttps://github.com/X-PLUG/SocialBench.comで公開されている。
Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce SocialBench, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on SocialBench confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/SocialBench. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# 機械学習における脅威、攻撃、防御 - 調査より
Threats, Attacks, and Defenses in Machine Unlearning: A Survey ( http://arxiv.org/abs/2403.13682v3 ) ライセンス: Link先を確認 | Ziyao Liu, Huanyi Ye, Chen Chen, Kwok-Yan Lam, | (参考訳) 機械学習(MU)は、トレーニングされた機械学習モデルから特定のデータの影響を取り除き、安全なAIを実現する可能性を秘めている。
このプロセスは知識除去として知られるもので、品質、感度、著作権制限、陳腐化といったトレーニングデータに関するAIガバナンス上の懸念に対処する。
この機能は、忘れられる権利のようなプライバシー規則の遵守を保証するためにも重要である。
さらに、効果的な知識の除去は有害な結果のリスクを軽減し、バイアスや誤情報、不正なデータエクスプロイトから保護し、AIシステムの安全で責任ある使用を促進する。
MUサービスは既存の機械学習・アズ・ア・サービスとの統合のために検討されており、ユーザーはトレーニング・コーパスから特定のデータを削除するためのリクエストを提出することができる。
しかし、最近の研究では、情報漏洩や悪意のある未学習要求などの機械学習システムの脆弱性が強調されており、セキュリティとプライバシの重大な懸念に繋がる可能性がある。
さらに,未学習の手法や攻撃がMUシステムにおける多様な役割を担っていることを示す。
例えば、アンラーニングはバックドアアタックからモデルを復元するメカニズムとして機能し、バックドアアタック自体がアンラーニングの有効性を評価する指標として機能する。
このことは、システム機能と安全性の維持において、これらのメカニズム間の複雑な関係と複雑な相互作用を浮き彫りにする。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究と、それらの分類、方法、解決策を分類する包括的なレビューの欠如の間のギャップを埋めることを目的としており、将来の研究の方向性や実践的な実装について貴重な洞察を提供する。
Machine Unlearning (MU) has gained considerable attention recently for its potential to achieve Safe AI by removing the influence of specific data from trained machine learning models. This process, known as knowledge removal, addresses AI governance concerns of training data such as quality, sensitivity, copyright restrictions, and obsolescence. This capability is also crucial for ensuring compliance with privacy regulations such as the Right To Be Forgotten. Furthermore, effective knowledge removal mitigates the risk of harmful outcomes, safeguarding against biases, misinformation, and unauthorized data exploitation, thereby enhancing the safe and responsible use of AI systems. Efforts have been made to design efficient unlearning approaches, with MU services being examined for integration with existing machine learning as a service, allowing users to submit requests to remove specific data from the training corpus. However, recent research highlights vulnerabilities in machine unlearning systems, such as information leakage and malicious unlearning requests, that can lead to significant security and privacy concerns. Moreover, extensive research indicates that unlearning methods and prevalent attacks fulfill diverse roles within MU systems. For instance, unlearning can act as a mechanism to recover models from backdoor attacks, while backdoor attacks themselves can serve as an evaluation metric for unlearning effectiveness. This underscores the intricate relationship and complex interplay among these mechanisms in maintaining system functionality and safety. This survey aims to fill the gap between the extensive number of studies on threats, attacks, and defenses in machine unlearning and the absence of a comprehensive review that categorizes their taxonomy, methods, and solutions, thus offering valuable insights for future research directions and practical implementations. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# 機械学習と基底状態エネルギー近似のための小型量子コンピュータの利用
Utilizing small quantum computers for machine learning and ground state energy approximation ( http://arxiv.org/abs/2403.14406v3 ) ライセンス: Link先を確認 | Stian Bilek, | (参考訳) 量子回路分割(Quantum circuit partitioning, QCP)は、小さな量子コンピュータ上の大規模量子システムをシミュレートすることを目的としたハイブリッド量子古典的アプローチである。
量子計算はより小さなサブシステムに分割され、これらのサブシステムにおける測定結果は古典的な処理で組み合わせられる。
本稿では,より小型の量子系を用いて,大規模量子系上で観測可能な観測値を測定するためのQCP戦略を提案する。
本手法は, 機械学習と変動基底状態エネルギー近似の両方に適用可能であり, 必要な計算量と勾配のばらつきを, キュービットの総数で効率的にスケールできるように調整可能であることを示す。
これにより、バレン高原のよく知られた問題を緩和することができる。
さらに,各サブシステム上でパウリ弦を簡易に測定することにより,パラメータシフト則などの一般的な手法で勾配を推定できる。
本手法は1次元横フィールドイジングモデルの基底状態エネルギーを周期的境界条件で近似し,手書き桁を分類することによって実証する。
基底状態エネルギー近似では,全ての試験システムサイズに対して0.1%の範囲で相対誤差を達成した。
桁3と6の分類に適用すると、100%精度でサンプル外データに一般化することができた。
Quantum circuit partitioning (QCP) is a hybrid quantum-classical approach that aims to simulate large quantum systems on smaller quantum computers. A quantum computation is divided into smaller subsystems and results of measurements on these subsystems are combined using classical processing. In this paper, we propose a QCP strategy to measure an observable on a large quantum system by utilizing several quantum systems of smaller size. The method can be applied to both machine learning and variational ground state energy approximation, and we show that the required calculations and the variance of the gradients can be tailored to scale efficiently with the total number of qubits. Thus it can be utilized to mitigate the well-known problem of barren plateaus. Additionally, the method can be realized by performing simple measurements of Pauli-strings on the separate subsystems, and the gradients can be estimated with common methods such as the parameter-shift rule. We demonstrate the method by approximating the ground state energy of the 1D transverse-field Ising model with periodic boundary conditions, and by classifying handwritten digits. For the ground state energy approximation, we achieved a relative error within the order of 0.1% for all the tested system sizes. When applied to the classification between the digits 3 and 6, we were able to generalize to out-of-sample data with 100% accuracy. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# LC-LLM:大規模言語モデルを用いた説明可能なレーン切替意図と軌道予測
LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models ( http://arxiv.org/abs/2403.18344v2 ) ライセンス: Link先を確認 | Mingxing Peng, Xusen Guo, Xianda Chen, Meixin Zhu, Kehua Chen, | (参考訳) ダイナミックな環境で安全な運転を確保するために、自動運転車は車線変更の意図を事前に正確に予測し、将来の軌道を予測できる能力を持つ必要がある。
既存の動き予測手法は、特に長期予測精度と解釈可能性の観点から、改善の余地が十分にある。
本稿では,Large Language Models (LLM) の強い推論能力と自己説明能力を活用する,説明可能なレーン変更予測モデルであるLC-LLMを提案する。
基本的に、車線変更予測タスクを言語モデリング問題として再編成し、車線変更予測タスクに特化してLLMの自然言語プロンプトとして異種運転シナリオ情報を処理し、教師付き微調整を用いて車線変更予測タスクを調整する。
さらに、予測透明性と信頼性を改善し、推論段階でのプロンプトに説明的要件を含めるために、CoT推論を微調整する。
そのため, LC-LLMモデルでは車線変化の意図や軌道を予測できるだけでなく, CoT の推理や説明も提供し, 解釈可能性を高めている。
大規模高次元データセットに基づく大規模実験により,車線変化予測タスクにおけるLC-LLMの性能と解釈性が向上した。
我々の知る限りでは、LLMを車線変化の予測に活用する最初の試みである。
本研究は, LLMが運転行動理解のための包括的相互作用情報を効果的にエンコードできることを示唆する。
To ensure safe driving in dynamic environments, autonomous vehicles should possess the capability to accurately predict lane change intentions of surrounding vehicles in advance and forecast their future trajectories. Existing motion prediction approaches have ample room for improvement, particularly in terms of long-term prediction accuracy and interpretability. In this paper, we address these challenges by proposing LC-LLM, an explainable lane change prediction model that leverages the strong reasoning capabilities and self-explanation abilities of Large Language Models (LLMs). Essentially, we reformulate the lane change prediction task as a language modeling problem, processing heterogeneous driving scenario information as natural language prompts for LLMs and employing supervised fine-tuning to tailor LLMs specifically for lane change prediction task. Additionally, we finetune the Chain-of-Thought (CoT) reasoning to improve prediction transparency and reliability, and include explanatory requirements in the prompts during inference stage. Therefore, our LC-LLM model not only predicts lane change intentions and trajectories but also provides CoT reasoning and explanations for its predictions, enhancing its interpretability. Extensive experiments based on the large-scale highD dataset demonstrate the superior performance and interpretability of our LC-LLM in lane change prediction task. To the best of our knowledge, this is the first attempt to utilize LLMs for predicting lane change behavior. Our study shows that LLMs can effectively encode comprehensive interaction information for driving behavior understanding. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# 実データにおけるトピックAPIの公開と再現性評価
A Public and Reproducible Assessment of the Topics API on Real Data ( http://arxiv.org/abs/2403.19577v2 ) ライセンス: Link先を確認 | Yohan Beugin, Patrick McDaniel, | (参考訳) Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。
以前の作業の結果、Googleと研究コミュニティの間で、ユーティリティとプライバシの両方をトレードオフするTopicsの能力に関する議論が続いている。
競合の中心は、これらの分析で使用されるデータセットのリアリズムとその再現性である。少数のユーザサンプルで収集されたデータを使用したり、合成データセットを生成する研究者が、Googleの結果はプライベートデータセットから推測される。
本稿では,リアルタイム閲覧履歴の最大かつ一般公開されたデータセット上で,最新のトピックスAPIの再現可能な評価を行うことにより,先行研究を補完する。
まず、時間とともに実際のユーザの興味がいかにユニークで安定したかを測定する。
そこで,従来のプライバシ研究の方法論を応用して,これらの実際のブラウジングトレースからユーザをフィンガープリントできるかどうかを評価する。
最後に,Webアクターに,匿名分布を公開して再現可能な評価を行うよう呼びかける。
データセット内の127ユーザのうち、2%、3%、4%が、広告主によるトピックのそれぞれ1, 2, 3の観察の後、ウェブサイト間でユニークに識別されていることがわかった。
本稿では,Topicsがすべてのユーザに対して同一のプライバシ保証を提供していないこと,情報漏洩が時間とともに悪化していること,さらに新たなWeb提案によるクレームの公開および再現可能な評価の必要性を強調した実データについて述べる。
The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that 2%, 3%, and 4% of the 1207 users in the dataset are uniquely re-identified across websites after only 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users and that the information leakage worsens over time, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# バナッハ空間値ガウス確率変数の条件付け:マルティンガレスに基づく近似的アプローチ
Conditioning of Banach Space Valued Gaussian Random Variables: An Approximation Approach Based on Martingales ( http://arxiv.org/abs/2404.03453v2 ) ライセンス: Link先を確認 | Ingo Steinwart, | (参考訳) 本稿では,2つのバナッハ空間の条件分布について検討する。
これらの条件分布は再びガウス的であり、それらの手段と共分散は、マルティンゲールアプローチに基づく一般的な有限次元近似スキームによって決定されることを示す。
特に、このスキームで生じる共分散作用素は核ノルムに関して収束し、条件確率は弱収束する。
さらに、RKHSや$C(T)$といった重要なバナッハ空間のいくつかのクラスにおいて、我々の近似スキームをどのように実装できるかを詳細に議論する。
例えば、連続経路が部分的だが無限的な経路の観測に条件付けられたガウス過程の場合には、一般結果を適用する。
ここでは、十分リッチな有限個の観測の集合に対する条件付けが、平均関数と共分散関数の両方が一様に収束するという意味で、一貫した近似をもたらすことを示す。
さらに,機械学習におけるガウス過程の理解を深める方法について考察する。
In this paper we investigate the conditional distributions of two Banach space valued, jointly Gaussian random variables. We show that these conditional distributions are again Gaussian and that their means and covariances are determined by a general finite dimensional approximation scheme based upon a martingale approach. In particular, it turns out that the covariance operators occurring in this scheme converge with respect to the nuclear norm and that the conditional probabilities converge weakly. Moreover, we discuss in detail, how our approximation scheme can be implemented in several classes of important Banach spaces such as RKHSs and $C(T)$. As an example, we then apply our general results to the case of Gaussian processes with continuous paths conditioned to partial but infinite observations of their paths. Here we show that conditioning on sufficiently rich, increasing sets of finitely many observations leads to consistent approximations, in the sense that both the mean and covariance functions converge uniformly. Moreover, we discuss how these results improve our understanding of the popular Gaussian processes for machine learning. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# 医学文献からのインテント検出とエンティティ抽出
Intent Detection and Entity Extraction from BioMedical Literature ( http://arxiv.org/abs/2404.03598v2 ) ライセンス: Link先を確認 | Ankan Mullick, Mukur Gupta, Pawan Goyal, | (参考訳) バイオメディカルクエリは、Web検索においてますます普及し、バイオメディカル文献へのアクセスに対する関心が高まりつつあることを反映している。
近年の大規模言語モデル(LLM)の研究は、一般化された知性を達成するための努力によって動機付けられているが、タスクやドメイン固有の自然言語理解アプローチを置き換える効果は疑問視されている。
本稿では,バイオメディカルテキストから意図検出と名前付きエンティティ認識(NER)タスクを包括的に評価することにより,この問題に対処する。
スーパーバイザード・ファイン・チューン(Supervised Fine Tuned)アプローチは, 汎用LLMよりも有用であり, 有効であることを示す。
PubMedBERTのようなバイオメディカルトランスフォーマーモデルは、NERタスクでChatGPTを超えることができる。
Biomedical queries have become increasingly prevalent in web searches, reflecting the growing interest in accessing biomedical literature. Despite recent research on large-language models (LLMs) motivated by endeavours to attain generalized intelligence, their efficacy in replacing task and domain-specific natural language understanding approaches remains questionable. In this paper, we address this question by conducting a comprehensive empirical evaluation of intent detection and named entity recognition (NER) tasks from biomedical text. We show that Supervised Fine Tuned approaches are still relevant and more effective than general-purpose LLMs. Biomedical transformer models such as PubMedBERT can surpass ChatGPT on NER task with only 5 supervised examples. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-05 |
# 文字位置確率を用いた単語複雑度の評価
Using Letter Positional Probabilities to Assess Word Complexity ( http://arxiv.org/abs/2404.07768v4 ) ライセンス: Link先を確認 | Michael Dalvean, | (参考訳) 単語の複雑さは、様々な方法で定義されます。
心理言語学、形態学、語彙のプロキシがよく用いられる。
人間の格付けも用いられる。
ここでの問題は、これらのプロキシが直接複雑性を測定しておらず、人間の評価は主観的偏見に影響を受けやすいことである。
本研究では, 単純かつ複雑な単語のサンプルを用いて, ある種の「ラテント複雑性」を近似できることを論じる。
小学校の絵本からの「単純な」単語のサンプルと、高校や学界の「複雑な」単語のサンプルを用いる。
これらのクラスの違いを分析するために,文字位置確率(LPP)について検討する。
いくつかのLPPと複雑性の間には強い統計的関連性がある。
例えば、単純な単語はw, b, s, h, g, k, t, y, f で始まる傾向が強く(p<.001)、複雑な単語は i, a, e, r, v, u, d で始まる傾向が強い(p<.001)。
後続の文字位置に関しては同様の強い相関関係がみられ、最初の6位では84の文字位置変数がp<.001レベルで有意である。
次に LPP を変数として2つのクラスを 83% の精度で分類できる分類器を作成する。
両データセットに共通する第1の6つの位置において66個のLPP(p<.001)を有する第2のデータセットを用いてこれらの結果を検証した。
これらの66変数を使用して、第3のデータセットを70%の精度で分類できる分類器を作成します。
最後に、第1の3つのデータセット上に構築された3つの分類器によって生成された極端に高い評価語と低い評価語を組み合わせて第4のサンプルを作成し、このサンプルを使用して精度97%の分類器を構築する。
これを用いて、ESLプログラムから英語の単語群の4つのレベルをスコアリングする。
Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are susceptible to subjective bias. In this study we contend that some form of 'latent complexity' can be approximated by using samples of simple and complex words. We use a sample of 'simple' words from primary school picture books and a sample of 'complex' words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find strong statistical associations between several LPPs and complexity. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g, k, j, t, y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# 一般化可能なガウススプレイティングによる強化学習
Reinforcement Learning with Generalizable Gaussian Splatting ( http://arxiv.org/abs/2404.07950v2 ) ライセンス: Link先を確認 | Jiaxu Wang, Qiang Zhang, Jingkai Sun, Jiahang Cao, Gang Han, Wen Zhao, Weining Zhang, Yecheng Shao, Yijie Guo, Renjing Xu, | (参考訳) 優れた表現は強化学習(RL)のパフォーマンス、特に視覚に基づく強化学習において重要である。
環境表現の質は学習課題の達成に直接影響を及ぼす。
従来の視覚ベースのRLは、画像、点、ボクセル、神経放射場などの環境を表現するために、明示的または暗黙的な方法を使用するのが一般的である。
しかし、これらの表現にはいくつかの欠点がある。
複雑な局所的な地形を記述することも、見えない場面によく一般化することも、正確な前景マスクを必要とすることもできない。
さらに、これらの暗黙的な神経表現は『ブラックボックス』に似たものであり、解釈可能性を大幅に妨げている。
3D Gaussian Splatting (3DGS) は、その明示的なシーン表現と微分可能なレンダリング特性を持ち、再構築と表現方法の革新的変化と見なされている。
本稿では、GSRLと呼ばれるRLタスクを表現するための新しい一般化可能なガウス分割フレームワークを提案する。
提案手法は,RoboMimic環境での検証により,複数のタスクにおいて他のベースラインよりも優れた結果が得られ,最も難しいタスクのベースラインに比べて10%,44%,15%の性能向上が達成される。
この研究は、RLの表現として一般化可能な3DGSを活用する最初の試みである。
An excellent representation is crucial for reinforcement learning (RL) performance, especially in vision-based reinforcement learning tasks. The quality of the environment representation directly influences the achievement of the learning task. Previous vision-based RL typically uses explicit or implicit ways to represent environments, such as images, points, voxels, and neural radiance fields. However, these representations contain several drawbacks. They cannot either describe complex local geometries or generalize well to unseen scenes, or require precise foreground masks. Moreover, these implicit neural representations are akin to a ``black box", significantly hindering interpretability. 3D Gaussian Splatting (3DGS), with its explicit scene representation and differentiable rendering nature, is considered a revolutionary change for reconstruction and representation methods. In this paper, we propose a novel Generalizable Gaussian Splatting framework to be the representation of RL tasks, called GSRL. Through validation in the RoboMimic environment, our method achieves better results than other baselines in multiple tasks, improving the performance by 10%, 44%, and 15% compared with baselines on the hardest task. This work is the first attempt to leverage generalizable 3DGS as a representation for RL. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# OpenBias: テキストから画像への生成モデルにおけるオープンセットバイアス検出
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models ( http://arxiv.org/abs/2404.07990v2 ) ライセンス: Link先を確認 | Moreno D'Incà, Elia Peruzzo, Massimiliano Mancini, Dejia Xu, Vidit Goel, Xingqian Xu, Zhangyang Wang, Humphrey Shi, Nicu Sebe, | (参考訳) テキスト・ツー・イメージ・ジェネレーティブ・モデルが一般大衆に普及し、アクセスしやすくなっている。
これらのモデルは大規模な展開を見込んでいるため、あらゆる種類のバイアスを分散させ、永続させないように、彼らの安全性と公正性を深く調査する必要がある。
しかし、既存の研究は偏見の閉集合の検出に重点を置いており、研究をよく知られた概念に限定している。
本稿では,プリコンパイルされた集合にアクセスすることなく,バイアスの重大さを不可知的に識別し,定量化する新しいパイプラインであるOpenBiasを提示するテキスト・ツー・イメージ生成モデルにおいて,オープン・セットバイアス検出の課題に取り組む。
OpenBiasには3つのステージがある。
第1フェーズでは,大言語モデル(LLM)を用いて,一組のキャプションが与えられた場合のバイアスを提案する。
第二に、ターゲット生成モデルは、同じキャプションセットを使用して画像を生成する。
最後に、視覚質問回答モデルは、これまで提案されたバイアスの存在と範囲を認識する。
本研究では, 安定拡散1.5, 2, XLの挙動について検討した。
定量的実験により、OpenBiasは現在のクローズドセットバイアス検出法と人間の判断と一致することを示した。
Text-to-image generative models are becoming increasingly popular and accessible to the general public. As these models see large-scale deployments, it is necessary to deeply investigate their safety and fairness to not disseminate and perpetuate any kind of biases. However, existing works focus on detecting closed sets of biases defined a priori, limiting the studies to well-known concepts. In this paper, we tackle the challenge of open-set bias detection in text-to-image generative models presenting OpenBias, a new pipeline that identifies and quantifies the severity of biases agnostically, without access to any precompiled set. OpenBias has three stages. In the first phase, we leverage a Large Language Model (LLM) to propose biases given a set of captions. Secondly, the target generative model produces images using the same set of captions. Lastly, a Vision Question Answering model recognizes the presence and extent of the previously proposed biases. We study the behavior of Stable Diffusion 1.5, 2, and XL emphasizing new biases, never investigated before. Via quantitative experiments, we demonstrate that OpenBias agrees with current closed-set bias detection methods and human judgement. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# 実効理論におけるワームホールと因子化
Wormholes and Factorization in Exact Effective Theory ( http://arxiv.org/abs/2404.10035v2 ) ライセンス: Link先を確認 | Sergio Hernández-Cuenca, | (参考訳) 我々は、その自由度のあるセクターに関する完備理論の正確な経路積分を通じて得られる有効理論の一般的な枠組みについて研究する。
この方法で構築された理論には、フィールドを任意に分離する多重積分や、空間のパス切断されたコンポーネントでさえある特定の設定を含む。
これらは単に絡み合いではなく、量子ワームホールを掘る真の非局所的な相互作用である。
そのような有効理論の経路積分の任意の状態は、統合アウトセクター上の完備理論の状態の部分的トレースであることが示される。
結果として生じる密度の低下演算子は一般にブラケットワームホールによって混合される。
同じ有効状態を与える完備理論の純粋状態の無限族が特定される。
これにより、任意の有効状態が理論の集合によって準備されていると等価に解釈できる。
エントロピー量を計算する際、ブラケットワームホールは複製ワームホールを引き起こす。
これにより、実効理論のレプリカパス積分は、混合によって予想されるような基礎多様体が成立しても分解されない。
対照的に、微分展開によって得られる効果的な理論は、量子ワームホールを持たず、純粋な状態を作る。
純粋状態と混同できる実効理論の代数には作用素があり、十分複雑な可観測性に対する非実効的実効理論の分解を示唆している。
この枠組みは、ワームホールとユニタリティの相互作用、バルク効果理論の分解、分解パズル、状態アンサンブル、理論アンサンブル、量子エラー補正、ベビー宇宙など、量子重力で観測される現象の多くを統一し、新たな洞察を提供する。
いくつかの興味深い教訓は、IR/UV混合とカルザ・クライン還元に関する重力の特徴的な側面についても説明されている。
We study the general framework of effective theories obtained via exact path integration of a complete theory over some sector of its degrees of freedom. Theories constructed this way contain multi-integrals which couple fields arbitrarily far apart, and in certain settings even on path-disconnected components of the space. These are not just entanglement, but genuine non-local interactions that we dub quantum wormholes. Any state the path integral of such an effective theory prepares is shown to be a partial trace of a state of the complete theory over the integrated-out sector. The resulting reduced density operator is generally mixed due to bra-ket wormholes. An infinite family of ensembles of pure states of the complete theory giving the same effective state is identified. These allow one to equivalently interpret any effective state as being prepared by an ensemble of theories. When computing entropic quantities, bra-ket wormholes give rise to replica wormholes. This causes replica path integrals for the effective theory to not factorize even when the underlying manifold does, as expected from mixing. In contrast, effective theories obtained by derivative expansions have no quantum wormholes and prepare pure states. There exist operators in the algebra of effective theories which can distinguish mixed from pure states, implying a breakdown of non-exact effective theories for sufficiently complex observables. This framework unifies and provides new insights into much of the phenomena observed in quantum gravity, including the interplay between wormholes and unitarity, the breakdown of bulk effective theory, the factorization puzzle, state ensembles, theory ensembles, quantum error correction, and baby universes. Some interesting lessons are drawn accounting also for characteristic aspects of gravity concerning IR/UV mixing and Kaluza-Klein reductions. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# Fading ergodicity (複数形 Fading ergodicities)
Fading ergodicity ( http://arxiv.org/abs/2407.16773v2 ) ライセンス: Link先を確認 | Maksymilian Kliczkowski, Rafał Świętek, Miroslav Hopjan, Lev Vidmar, | (参考訳) 固有状態熱化仮説(ETH)は、物理可観測物の熱化とランダム行列理論(RMT)の適用性を結びつけることができるため、多体物理学におけるブレークスルーである。
近年は、積分性、単一粒子カオス、多体局在化、多体傷、ヒルベルト空間の破片化など、熱化への反例の可能性を探る上でも非常に有益であった。
これらの場合、従来のETHは違反される。
しかしながら、従来のETHがエルゴード性の境界に近づくとどのように崩壊するか、また従来のETHの有効範囲がRTTのようなスペクトル統計値の妥当性と一致しているかは、いまだ解明されていない。
ここでは、このギャップを埋め、従来のETHと非エルゴード的挙動のリンクを確立する、フェードエルゴード性体制と呼ばれる、多体量子系におけるETH分解のシナリオを導入する。
我々は、このシナリオがエルゴード性の境界における有限多体系の記述に関係していると推測し、エルゴード性破壊相転移の量子太陽モデルにおいて、その妥当性に関する数値的および解析的な議論を提供する。
後者については、従来のETHの分解はRTTのようなスペクトル統計の分解とは関係がないことを示す。
Eigenstate thermalization hypothesis (ETH) represents a breakthrough in many-body physics since it allows to link thermalization of physical observables with the applicability of random matrix theory (RMT). Recent years were also extremely fruitful in exploring possible counterexamples to thermalization, ranging, among others, from integrability, single-particle chaos, many-body localization, many-body scars, to Hilbert-space fragmentation. In all these cases the conventional ETH is violated. However, it remains elusive how the conventional ETH breaks down when one approaches the boundaries of ergodicity, and whether the range of validity of the conventional ETH coincides with the validity of RMT-like spectral statistics. Here we bridge this gap and we introduce a scenario of the ETH breakdown in many-body quantum systems, dubbed fading ergodicity regime, which establishes a link between the conventional ETH and non-ergodic behavior. We conjecture this scenario to be relevant for the description of finite many-body systems at the boundaries of ergodicity, and we provide numerical and analytical arguments for its validity in the quantum sun model of ergodicity breaking phase transition. For the latter, we provide evidence that the breakdown of the conventional ETH is not associated with the breakdown of the RMT-like spectral statistics. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# ニューズフローを用いたストックリターン予測のための微調整大言語モデル
Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow ( http://arxiv.org/abs/2407.18103v2 ) ライセンス: Link先を確認 | Tian Guo, Emmanuel Hauptmann, | (参考訳) 大規模言語モデル(LLM)とその微調整技術は、様々な言語理解および生成タスクにおいて優れた性能を示している。
本稿では,金融ニュースフローを用いた株価リターン予測のための微調整LDMについて検討する。
量的投資において、リターン予測は、株式の選定やポートフォリオの最適化といったその後のタスクに不可欠である。
テキスト表現と予測モジュールを含むようにモデルを定式化する。
本稿では,エンコーダのみのLLMとデコーダのみのLLMを比較し,異なる方法でテキスト表現を生成することを提案する。
これらの異なる表現が予測性能に与える影響は、まだ明らかな疑問である。
一方、LLMのトークンレベルの表現を予測モジュールに統合する2つの簡単な方法を比較する。
1) LLMのトークンレベルの埋め込みから集約された表現は、一般的には、長短のポートフォリオと長短のポートフォリオのパフォーマンスを高めるリターン予測を生成する。(2) 比較的大きな投資宇宙では、デコーダのLSMベースの予測モデルがより強力なポートフォリオをもたらすのに対し、小さな宇宙では、一貫した勝者は存在しない。
研究された3つのLSM(DeBERTa, Mistral, Llama)のうち、Mistralは異なる宇宙でより堅牢に動作し、(3) LLMのテキスト表現から導かれる戻り予測はポートフォリオ構築の強いシグナルであり、従来の感情スコアよりも優れている。
Large language models (LLMs) and their fine-tuning techniques have demonstrated superior performance in various language understanding and generation tasks. This paper explores fine-tuning LLMs for stock return forecasting with financial newsflow. In quantitative investing, return forecasting is fundamental for subsequent tasks like stock picking, portfolio optimization, etc. We formulate the model to include text representation and forecasting modules. We propose to compare the encoder-only and decoder-only LLMs, considering they generate text representations in distinct ways. The impact of these different representations on forecasting performance remains an open question. Meanwhile, we compare two simple methods of integrating LLMs' token-level representations into the forecasting module. The experiments on real news and investment universes reveal that: (1) aggregated representations from LLMs' token-level embeddings generally produce return predictions that enhance the performance of long-only and long-short portfolios; (2) in the relatively large investment universe, the decoder LLMs-based prediction model leads to stronger portfolios, whereas in the small universes, there are no consistent winners. Among the three LLMs studied (DeBERTa, Mistral, Llama), Mistral performs more robustly across different universes; (3) return predictions derived from LLMs' text representations are a strong signal for portfolio construction, outperforming conventional sentiment scores. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# 偏微分方程式における定常状態の分岐・線形安定解析のためのニューラルネットワーク
Neural networks for bifurcation and linear stability analysis of steady states in partial differential equations ( http://arxiv.org/abs/2407.19707v3 ) ライセンス: Link先を確認 | Muhammad Luthfi Shahab, Hadi Susanto, | (参考訳) 本研究では、非線形偏微分方程式(PDE)の解法にニューラルネットワークを応用した。
パラメータ化された非線形PDEから分岐図を構築するために、擬弧継続と組み合わせたニューラルネットワークを提案する。
さらに、解の線形安定性を分析するために固有値問題を解くニューラルネットワークアプローチも提示され、最大の固有値の同定に焦点が当てられている。
提案したニューラルネットワークの有効性は、ブラトゥー方程式とバーガース方程式の実験を通して検証される。
有限差分法の結果も比較として示す。
各ケースにおいて、ニューラルネットワークと有限差分法の両方の挙動と精度を評価するために、格子点のバリアリング数を用いる。
実験の結果、提案したニューラルネットワークはより良い解を生成し、より正確な分岐図を生成し、合理的な計算時間を持ち、線形安定性解析に有効であることを証明した。
This research introduces an extended application of neural networks for solving nonlinear partial differential equations (PDEs). A neural network, combined with a pseudo-arclength continuation, is proposed to construct bifurcation diagrams from parameterized nonlinear PDEs. Additionally, a neural network approach is also presented for solving eigenvalue problems to analyze solution linear stability, focusing on identifying the largest eigenvalue. The effectiveness of the proposed neural network is examined through experiments on the Bratu equation and the Burgers equation. Results from a finite difference method are also presented as comparison. Varying numbers of grid points are employed in each case to assess the behavior and accuracy of both the neural network and the finite difference method. The experimental results demonstrate that the proposed neural network produces better solutions, generates more accurate bifurcation diagrams, has reasonable computational times, and proves effective for linear stability analysis. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# AIによるエネルギーアルゴリズム取引:隠れマルコフモデルとニューラルネットワークの統合
AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks ( http://arxiv.org/abs/2407.19858v2 ) ライセンス: Link先を確認 | Tiago Monteiro, | (参考訳) 定量的ファイナンスにおいては、機械学習手法はアルファ生成に不可欠である。
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。
新型コロナウイルス(2019-2022)の期間、この二重モデルアプローチはシャープ比0.992で97%のリターンを達成した。
リスク管理を強化するために2つのリスクモデルが組み込まれており、揮発性の期間に効率性を示す。
この方法論は、堅牢なフレームワークと実験的な再現性のために選択されたQuantConnectプラットフォーム上で実装された。
将来の価格変動を予測するこのシステムは、適切なアルゴリズム機能を保証するために3年間のウォームアップを含む。
ブローカーの支払いも検討しながら、安定的で予測可能なパフォーマンスを確保するため、高流動で大容量のエネルギー株をターゲットにしている。
デュアルモデルアルファシステムは、ログリターンを使用して、過去のパフォーマンスに基づいて最適な状態を選択する。
状態予測と過去のデータに基づくニューラルネットワーク出力を組み合わせて、トレーディング信号を生成する。
本研究では,トレーディングシステムのアーキテクチャ,データ前処理,トレーニング,パフォーマンスについて検討した。
完全なコードとバックテストデータは、MITライセンス下で利用可能だ。
In quantitative finance, machine learning methods are essential for alpha generation. This study introduces a new approach that combines Hidden Markov Models (HMM) and neural networks, integrated with Black-Litterman portfolio optimization. During the COVID period (2019-2022), this dual-model approach achieved a 97% return with a Sharpe ratio of 0.992. It incorporates two risk models to enhance risk management, showing efficiency during volatile periods. The methodology was implemented on the QuantConnect platform, which was chosen for its robust framework and experimental reproducibility. The system, which predicts future price movements, includes a three-year warm-up to ensure proper algorithm function. It targets highly liquid, large-cap energy stocks to ensure stable and predictable performance while also considering broker payments. The dual-model alpha system utilizes log returns to select the optimal state based on the historical performance. It combines state predictions with neural network outputs, which are based on historical data, to generate trading signals. This study examined the architecture of the trading system, data pre-processing, training, and performance. The full code and backtesting data are available under the MIT license. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# 2成分量子回路における固有状態相関:部分スペクトル形状因子
Eigenstate Correlations in Dual-Unitary Quantum Circuits: Partial Spectral Form Factor ( http://arxiv.org/abs/2407.19929v2 ) ライセンス: Link先を確認 | Felix Fritzsch, Maximilian F. I. Kieler, Arnd Bäcker, | (参考訳) 量子カオスの概念はランダムマトリクスのスペクトル相関と結びついているが、カオス系の固有状態の性質もしばしばランダムマトリクス理論によって説明される。
固有状態相関の解析的な洞察は、最近導入された部分スペクトル形状因子によって得られる。
本稿では,熱力学限界におけるカオス二重単位量子回路における部分スペクトル形状因子について検討する。
ブロックワーク回路における有限部分系に対して後者を計算し、無限補数に結合する。
初期時間において、サブシステムのサイズ、空間的局所性、(双対)ユニタリ性は、ランダム行列予測の線形ランプから明らかに逸脱した、一定の部分的なスペクトル形成因子を意味する。
対照的に、より大きな時間において、偏スペクトル形状因子がランダム行列に従うことが指数関数的に抑制された補正をもたらすことが証明される。
熱力学の限界における半解析計算と有限サイズ系の数値計算により, 正確な解析結果を補足する。
While the notion of quantum chaos is tied to random matrix spectral correlations, also eigenstate properties in chaotic systems are often assumed to be described by random matrix theory. Analytic insights into eigenstate correlations can be obtained by the recently introduced partial spectral form factor. Here, we study the partial spectral form factor in chaotic dual-unitary quantum circuits in the thermodynamic limit. We compute the latter for a finite subsystem in a brickwork circuit coupled to an infinite complement. For initial times, shorter than the subsystem's size, spatial locality and (dual) unitarity implies a constant partial spectral form factor, clearly deviating from the linear ramp of the random matrix prediction. In contrast, for larger times we prove, that the partial spectral form factor follows the random matrix result up to exponentially suppressed corrections. We supplement our exact analytical results by semi-analytic computations performed in the thermodynamic limit as well as with numerics for finite-size systems. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-05 |
# Sky-GVIO:都市キャニオンにおけるFCNに基づくスカイセグメンテーションによるGNSS/INS/Visionナビゲーションの強化
Sky-GVIO: an enhanced GNSS/INS/Vision navigation with FCN-based sky-segmentation in urban canyon ( http://arxiv.org/abs/2404.11070v2 ) ライセンス: Link先を確認 | Jingrong Wang, Bo Xu, Ronghe Jin, Shoujian Zhang, Kefu Gao, Jingnan Liu, | (参考訳) 正確な、継続的な、信頼性の高い位置決めは、自律運転を実現する上で重要な要素である。
しかし、複雑な都市キャニオン環境では、高層建築物、樹木、高層構造物によるスタンドアロンセンサと非視線(NLOS)の脆弱性は、位置決め結果に深刻な影響を及ぼす。
これらの課題に対処するために、GNSS NLOS検出のために、FCN(Fully Convolutional Network)に基づくスカイビュー画像分割アルゴリズムを提案する。
これに基づいて、新しいNLOS検出・緩和アルゴリズム(S-NDM)が、都市キャニオン環境で連続的かつ正確な位置決めを実現するために、密結合したグローバルナビゲーション衛星システム(GNSS)、慣性計測ユニット(IMU)、およびSky-GVIOと呼ばれる視覚特徴システムに拡張されている。
さらに,SPP(Single Point Positioning)とRTK(Real-Time Kinematic)の方法論を調和させて,運用の汎用性とレジリエンスを高める。
都市キャニオン環境では,S-NDMアルゴリズムの位置決め性能をSPP関連モデルとRTK関連モデルで評価した。
その結果,Sky-GVIO システムは,S-NDM のない GNSS/INS/Vision フレームワークの性能を上回り,SPP モードと RTK によるサブ精度でパラメータレベルの精度を実現することができた。
さらに、トレーニングと評価のサブセットを含むSky-viewイメージデータセットは、https://github.com/whuwangjr/sky-view-imagesで学術的な調査のために公開されている。
Accurate, continuous, and reliable positioning is a critical component of achieving autonomous driving. However, in complex urban canyon environments, the vulnerability of a stand-alone sensor and non-line-of-sight (NLOS) caused by high buildings, trees, and elevated structures seriously affect positioning results. To address these challenges, a sky-view images segmentation algorithm based on Fully Convolutional Network (FCN) is proposed for GNSS NLOS detection. Building upon this, a novel NLOS detection and mitigation algorithm (named S-NDM) is extended to the tightly coupled Global Navigation Satellite Systems (GNSS), Inertial Measurement Units (IMU), and visual feature system which is called Sky-GVIO, with the aim of achieving continuous and accurate positioning in urban canyon environments. Furthermore, the system harmonizes Single Point Positioning (SPP) with Real-Time Kinematic (RTK) methodologies to bolster its operational versatility and resilience. In urban canyon environments, the positioning performance of S-NDM algorithm proposed in this paper is evaluated under different tightly coupled SPP-related and RTK-related models. The results exhibit that Sky-GVIO system achieves meter-level accuracy under SPP mode and sub-decimeter precision with RTK, surpassing the performance of GNSS/INS/Vision frameworks devoid of S-NDM. Additionally, the sky-view image dataset, inclusive of training and evaluation subsets, has been made publicly accessible for scholarly exploration at https://github.com/whuwangjr/sky-view-images . | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-05 |
# Fact : 忠実で簡潔で伝達可能な論理型MLLMの教育
Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales ( http://arxiv.org/abs/2404.11129v2 ) ライセンス: Link先を確認 | Minghe Gao, Shuang Chen, Liang Pang, Yuan Yao, Jisheng Dang, Wenqiao Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang, Tat-Seng Chua, | (参考訳) MLLM(Multimodal Large Language Models)の顕著な性能は、広範囲の視覚的タスクを扱う上で、その熟練した理解能力を明白に実証している。
それでも、ブラックボックスの推論プロセスの不透明な性質はエニグマとして存続し、解釈不能で幻覚に苦しむ。
複雑な構成的推論タスクを実行する能力も制約され、これらのモデルに対する学習の進行の停滞に終止符を打つ。
本研究では,MLLMの学習に忠実で簡潔で伝達しやすい多モーダルな論理を創出するための新しいパラダイムであるFactを紹介する。
このパラダイムは、検証可能なビジュアルプログラミングを使用して、忠実さと精度を保証する実行可能なコードを生成する。
その後、プルーニング、マージング、ブリッジングを含む一連の操作によって、合理的性はその簡潔性を高める。
さらに,プログラミングパラダイムからエンド・ツー・エンドのパラダイムに移行可能な有理性をフィルタリングし,転送可能性を保証する。
実験から得られた実証的な証拠は,パラメータサイズの異なるモデルにまたがる手法の優位性を証明し,それらの構成的推論と一般化能力を大幅に向上させる。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
The remarkable performance of Multimodal Large Language Models (MLLMs) has unequivocally demonstrated their proficient understanding capabilities in handling a wide array of visual tasks. Nevertheless, the opaque nature of their black-box reasoning processes persists as an enigma, rendering them uninterpretable and struggling with hallucination. Their ability to execute intricate compositional reasoning tasks is also constrained, culminating in a stagnation of learning progression for these models. In this work, we introduce Fact, a novel paradigm designed to generate multimodal rationales that are faithful, concise, and transferable for teaching MLLMs. This paradigm utilizes verifiable visual programming to generate executable code guaranteeing faithfulness and precision. Subsequently, through a series of operations including pruning, merging, and bridging, the rationale enhances its conciseness. Furthermore, we filter rationales that can be transferred to end-to-end paradigms from programming paradigms to guarantee transferability. Empirical evidence from experiments demonstrates the superiority of our method across models of varying parameter sizes, significantly enhancing their compositional reasoning and generalization ability. Our approach also reduces hallucinations owing to its high correlation between images and text. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-05 |
# 非相互作用可積分モデルにおける開系固有状態熱化
Open-system eigenstate thermalization in a noninteracting integrable model ( http://arxiv.org/abs/2404.11360v2 ) ライセンス: Link先を確認 | Krzysztof Ptaszynski, Massimiliano Esposito, | (参考訳) 個々の固有状態による孤立量子配置における可観測物の熱化問題に注目が集まっている。
ここでは, この問題をオープンな量子システムの観点から, マクロな入浴に結合した小さなシステムからなる孤立したセットアップを考慮し, この問題にアプローチする。
このような場合、完全可積分モデルにおいても、システム・バス・セットアップがハミルトニアンの典型的な固有状態(弱固有状態熱化(英語版)と呼ばれる)にあるとき、システム・オブザーバブルは熱化を示すと論じる。
これは、強いカップリングによる局所化によって熱化が抑制されない限り起こる。
非相互作用性フェミオン浴に結合した1つのフェミオンレベルの主張について述べる。
さらに、ハミルトニアン系を焼成すると、系占有率は通常、新しいハミルトニアンに対応する熱的値に緩和されることを示す。
最後に、ハミルトニアンの典型的な固有状態で初期化された入浴に結合した系にも、系熱化が生じることを示した。
以上の結果から,カオスと非可積分性が熱化の唯一の要因ではないことが示唆された。
Notable attention has been devoted to the problem of thermalization of observables in isolated quantum setups by individual eigenstates. Here, we approach this issue from an open quantum system perspective, by considering isolated setups which consists of a small system coupled to a macroscopic bath. We argue that in such a case, even in fully integrable models, the system observables exhibit thermalization when the system-bath setup is in a typical eigenstate of its Hamiltonian (which is called weak eigenstate thermalization). This occurs unless thermalization is suppressed by localization due to strong coupling. We illustrate our claim for a single fermionic level coupled to a noninteracting fermionic bath. We further show that upon quenching the system Hamiltonian, the system occupancy typically relaxes to the thermal value corresponding to the new Hamiltonian. Finally, we demonstrate that system thermalization also arises for a system coupled to a bath initialized in a typical eigenstate of its Hamiltonian. Our findings suggest that chaos and nonintegrability are not the sole drivers of thermalization and complementary approaches are needed to offer a more comprehensive understanding of how statistical mechanics emerges. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-05 |
# ラストライブラリにおける外部関数境界の未定義挙動に関する研究
A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries ( http://arxiv.org/abs/2404.11671v3 ) ライセンス: Link先を確認 | Ian McCormack, Joshua Sunshine, Jonathan Aldrich, | (参考訳) 開発者はセキュアでパフォーマンスの高いアプリケーションを記述するために、Rust言語の静的安全性保証を頼りにしている。
しかしながら、Rustは、Rustのエイリアスモデルと矛盾するデザインパターンを許容する、他の言語との相互運用に頻繁に使用される。
Miriはこれらのモデルに対してアプリケーションを検証できる唯一の動的解析ツールだが、外部機能をサポートしていない。
そこで我々は,この文脈でMiriの動的解析が有用かどうかを判断するために,外部関数を呼び出すRustライブラリの大規模評価を行った。
MiriとLLVMインタプリタを使って外部関数を呼び出すアプリケーションを共同で実行しました。
その中には、観測期間中に平均1万回以上ダウンロードされたライブラリからの3つのバグと、Rustプロジェクトによってメンテナンスされたライブラリからの1つが含まれている。
しかしRustの最新のTree Borrowsエイリアスモデルは、以前のStacked Borrowsモデルよりもはるかに寛容だった。
Rustコミュニティは、開発者がこれらのエラーを検出できるように、複数言語アプリケーション用の新しいプロダクション対応ツールに投資する必要がある。
Developers rely on the Rust programming language's static safety guarantees to write secure and performant applications. However, Rust is frequently used to interoperate with other languages which allow design patterns that conflict with Rust's aliasing models. Miri is the only dynamic analysis tool capable of validating applications against these models, but it does not support foreign functions, indicating that there may be a critical correctness gap at the heart of the Rust ecosystem. We conducted a large-scale evaluation of Rust libraries that call foreign functions to determine whether Miri's dynamic analyses remain useful in this context. We used Miri and an LLVM interpreter to jointly execute applications that call foreign functions, where we found 48 instances of undefined or undesired behavior. These include three bugs from libraries that had over 10,000 daily downloads on average during our observation period and one from a library maintained by the Rust Project. Many of the errors we found involved incompatible aliasing patterns, but Rust's latest Tree Borrows aliasing model was significantly more permissive than the earlier Stacked Borrows model. The Rust community must invest in new, production-ready tooling for multi-language applications to ensure that developers can detect these errors. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-05 |
# 非識別ガウスモデルからの非巡回グラフ学習のための整数計画法
Integer Programming for Learning Directed Acyclic Graphs from Non-identifiable Gaussian Models ( http://arxiv.org/abs/2404.12592v2 ) ライセンス: Link先を確認 | Tong Xu, Armeen Taeb, Simge Küçükyavuz, Ali Shojaie, | (参考訳) 線形ガウス構造方程式モデルに基づいて連続観測データから有向非巡回グラフを学習する問題について検討する。
この設定のための最先端構造学習手法には、以下の欠点の少なくとも1つがある。
一 最適性を保証することができず、かつ、準最適モデルの学習に苦しむことができること。
二 ノイズが均等であるという厳密な仮定に依拠し、従って、基礎となるモデルは、完全に識別可能である。
我々はこれらの欠点を克服し、任意の異方性雑音を考慮に入れた中規模の問題を学習するための計算効率の良い混合整数プログラミングフレームワークを開発する。
本稿では, 漸近的に最適解を達成し, この近似解の整合性を確立するために, 分岐とバウンドの手続きを終了できる早期停止基準を提案する。
さらに,本手法が最先端のアルゴリズムより優れ,ノイズの不均一性に頑健であることを示す数値実験を行った。
このメソッドのソフトウェア実装は、Pythonパッケージ \emph{micodag} として利用可能である。
We study the problem of learning directed acyclic graphs from continuous observational data, generated according to a linear Gaussian structural equation model. State-of-the-art structure learning methods for this setting have at least one of the following shortcomings: i) they cannot provide optimality guarantees and can suffer from learning sub-optimal models; ii) they rely on the stringent assumption that the noise is homoscedastic, and hence the underlying model is fully identifiable. We overcome these shortcomings and develop a computationally efficient mixed-integer programming framework for learning medium-sized problems that accounts for arbitrary heteroscedastic noise. We present an early stopping criterion under which we can terminate the branch-and-bound procedure to achieve an asymptotically optimal solution and establish the consistency of this approximate solution. In addition, we show via numerical experiments that our method outperforms state-of-the-art algorithms and is robust to noise heteroscedasticity, whereas the performance of some competing methods deteriorates under strong violations of the identifiability assumption. The software implementation of our method is available as the Python package \emph{micodag}. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-05 |
# 2次元超伝導量子ビットアレイにおける合成磁気ベクトルポテンシャルの実装
Implementing a synthetic magnetic vector potential in a 2D superconducting qubit array ( http://arxiv.org/abs/2405.00873v3 ) ライセンス: Link先を確認 | Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, Arkya Chatterjee, Max Hays, Michael DeMarco, Amir Karamlou, David Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, | (参考訳) 超伝導量子プロセッサは、ハードウェア固有の精度制御、高速動作、サイトの解決された読み出しにより、アナログ量子シミュレーションの魅力的なプラットフォームである。
結合した超伝導量子ビットの配列は、Bose-Hubbardモデルに従って相互作用する粒子の力学を自然にエミュレートする。
しかし、多くの興味深い凝縮マター現象は電磁場の存在によってのみ現れる。
ここでは超伝導量子シミュレータを用いて電磁場における荷電粒子の動力学をエミュレートする。
すべての量子ビットに連続変調音を印加することにより、広範に調整可能な合成磁気ベクトルポテンシャルを実現する。
空間変化ベクトルポテンシャルは時間反転対称性を破り、ゲージ不変の合成磁場を生成し、時間変化ベクトルポテンシャルは合成電場を生成する。
電界中を伝播する荷電粒子の逆偏向であるホール効果が, 合成電磁場の存在下では存在することを実証する。
Superconducting quantum processors are a compelling platform for analog quantum simulation due to the precision control, fast operation, and site-resolved readout inherent to the hardware. Arrays of coupled superconducting qubits natively emulate the dynamics of interacting particles according to the Bose-Hubbard model. However, many interesting condensed-matter phenomena emerge only in the presence of electromagnetic fields. Here, we emulate the dynamics of charged particles in an electromagnetic field using a superconducting quantum simulator. We realize a broadly adjustable synthetic magnetic vector potential by applying continuous modulation tones to all qubits. We verify that the synthetic vector potential obeys requisite properties of electromagnetism: a spatially-varying vector potential breaks time-reversal symmetry and generates a gauge-invariant synthetic magnetic field, and a temporally-varying vector potential produces a synthetic electric field. We demonstrate that the Hall effect--the transverse deflection of a charged particle propagating in an electromagnetic field--exists in the presence of the synthetic electromagnetic field. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-05 |
# FRACTAL: 横ランドスケープの3次元セマンティックセマンティックセグメンテーションのための超大規模空中ライダーデータセット
FRACTAL: An Ultra-Large-Scale Aerial Lidar Dataset for 3D Semantic Segmentation of Diverse Landscapes ( http://arxiv.org/abs/2405.04634v3 ) ライセンス: Link先を確認 | Charles Gaydon, Michel Daab, Floryne Roche, | (参考訳) マッピング機関は、領域を監視し、公共政策をサポートするための新しいツールとして、Aerial Lidar Scanning(ALS)をますます採用している。
ALSデータを大規模に処理するには、高度に多様な領域でよく機能する効率的なポイント分類方法が必要である。
それらを評価するには、研究者は大きな注釈付きLidarデータセットが必要であるが、現在のLidarベンチマークデータセットはスコープが制限されており、しばしば1つの都市領域をカバーする。
このデータギャップを埋めるために、FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: Ultra-large-scale air Lidar dataset of 100,000 dense point clouds with high-quality labels for 7 semantic class and spaning 250 km$^2$。
FRACTALはフランスの全国的オープンライダーデータに基づいて構築されている。
サンプリングスキームによって空間的・意味的な多様性を達成し、5つのフランス地域からの希少なクラスと挑戦的な景観を明示的に集中させる。
大規模土地モニタリングのための3次元深層学習手法の開発を支援する必要がある。
本稿では,ソースデータの性質,サンプリングワークフロー,得られたデータセットの内容について述べるとともに,実演型3Dニューラルアーキテクチャを用いたセグメンテーション性能の初期評価を行う。
Mapping agencies are increasingly adopting Aerial Lidar Scanning (ALS) as a new tool to monitor territory and support public policies. Processing ALS data at scale requires efficient point classification methods that perform well over highly diverse territories. To evaluate them, researchers need large annotated Lidar datasets, however, current Lidar benchmark datasets have restricted scope and often cover a single urban area. To bridge this data gap, we present the FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: an ultra-large-scale aerial Lidar dataset made of 100,000 dense point clouds with high-quality labels for 7 semantic classes and spanning 250 km$^2$. FRACTAL is built upon France's nationwide open Lidar data. It achieves spatial and semantic diversity via a sampling scheme that explicitly concentrates rare classes and challenging landscapes from five French regions. It should support the development of 3D deep learning approaches for large-scale land monitoring. We describe the nature of the source data, the sampling workflow, the content of the resulting dataset, and provide an initial evaluation of segmentation performance using a performant 3D neural architecture. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-05 |
# LLM標識データの選択的微調整は人間のアノテーションの信頼性を低下させる:スケジュール・オブ・イベント・テーブル検出を用いたケーススタディ
Selective Fine-tuning on LLM-labeled Data May Reduce Reliance on Human Annotation: A Case Study Using Schedule-of-Event Table Detection ( http://arxiv.org/abs/2405.06093v2 ) ライセンス: Link先を確認 | Bhawesh Kumar, Jonathan Amar, Eric Yang, Nan Li, Yugang Jia, | (参考訳) 大規模言語モデル(LLM)は、医療アプリケーションにおける幅広いタスクでその効果を実証している。
しかし、多くの場合、LCMはタスク固有の専門家アノテートされたデータに基づいて微調整され、最適なパフォーマンスを達成する必要がある。
本研究では,ジェミニプロ1.0から得られたノイズラベルを用いて,パラメータ効率のよいPALM-2を微調整し,臨床治験におけるケアプランを指定する。
本稿では,この表分類タスクに対して高信頼ラベルを選択するためのフィルタリング機構を導入し,自動生成ラベルのノイズを低減する。
これらのラベルを微調整した PaLM-2 は gemini-pro 1.0 や他の LLM を超える性能が得られることを示す。
さらに、その性能は、熟練していないアノテータから得られたラベルに微調整されたPaLM-2に近い。
この結果から,ジェミニプロのような強力なモデルによるLCM生成ラベルの活用は,特に専門家のアノテーションが不足し,高価で,時間を要する領域において,専門的なタスクの微調整を通じてLCM性能を向上させる上で有効な戦略となる可能性が示唆された。
Large Language Models (LLMs) have demonstrated their efficacy across a broad spectrum of tasks in healthcare applications. However, often LLMs need to be fine-tuned on task-specific expert annotated data to achieve optimal performance, which can be expensive and time consuming. In this study, we fine-tune PaLM-2 with parameter efficient fine-tuning (PEFT) using noisy labels obtained from gemini-pro 1.0 for the detection of Schedule-of-Event (SoE) tables, which specify care plan in clinical trial protocols. We introduce a filtering mechanism to select high-confidence labels for this table classification task, thereby reducing the noise in the auto-generated labels. We show that fine-tuned PaLM-2 with those labels achieves performance that exceeds the gemini-pro 1.0 and other LLMs. Furthermore, its performance is close to a PaLM-2 fine-tuned on labels obtained from non-expert annotators. Our results show that leveraging LLM-generated labels through powerful models like gemini-pro can potentially serve as a viable strategy for improving LLM performance through fine-tuning in specialized tasks, particularly in domains where expert annotations are scarce, expensive, or time-consuming to obtain. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-05 |
# 畳み込みニューラルネットワーク圧縮のためのストレージ直接テンソルリング分解
Reduced storage direct tensor ring decomposition for convolutional neural networks compression ( http://arxiv.org/abs/2405.10802v2 ) ライセンス: Link先を確認 | Mateusz Gabor, Rafał Zdunek, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類などのコンピュータビジョンタスクにおいて最も広く使われている機械学習モデルの一つである。
CNNの効率を改善するために、多くのCNN圧縮手法が開発されている。
低ランク法は、元の畳み込みカーネルとより小さな畳み込みカーネルのシーケンスを近似し、ストレージと時間の複雑さを減少させる。
本研究では,記憶率の低下した直接テンソルリング分解(RSDTR)に基づく,新しい低ランクCNN圧縮手法を提案する。
提案手法は,圧縮ネットワークの分類精度を良好に保ちながら,大きなパラメータとFLOPS圧縮率を特徴とする,高い円モード置換柔軟性を提供する。
CIFAR-10とImageNetデータセットで実施された実験は、他の最先端のCNN圧縮アプローチと比較して、RSDTRの効率を明らかに示している。
Convolutional neural networks (CNNs) are among the most widely used machine learning models for computer vision tasks, such as image classification. To improve the efficiency of CNNs, many CNNs compressing approaches have been developed. Low-rank methods approximate the original convolutional kernel with a sequence of smaller convolutional kernels, which leads to reduced storage and time complexities. In this study, we propose a novel low-rank CNNs compression method that is based on reduced storage direct tensor ring decomposition (RSDTR). The proposed method offers a higher circular mode permutation flexibility, and it is characterized by large parameter and FLOPS compression rates, while preserving a good classification accuracy of the compressed network. The experiments, performed on the CIFAR-10 and ImageNet datasets, clearly demonstrate the efficiency of RSDTR in comparison to other state-of-the-art CNNs compression approaches. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-05 |
# 理由を教えてください:人間の嗜好とステップレベルの説明による嗜好に基づくRLのトレーニング
Tell me why: Training preferences-based RL with human preferences and step-level explanations ( http://arxiv.org/abs/2405.14244v2 ) ライセンス: Link先を確認 | Jakob Karalus, | (参考訳) ヒューマン・イン・ザ・ループ強化学習は、専門家でない人間であっても、様々なインタフェースを通してエージェントの訓練を可能にする。
近年,より直接的なフィードバックが難しい領域でのトレーニングが許されているため,ヒトが2つの軌道を優先的に選択しなければならないPbRLが人気を博している。
しかしながら、現在のPBRLメソッドには制限があり、フィードバックを与えるための表現力のあるインターフェースは提供されていない。
そこで本研究では,より表現力に富んだインタフェースを人間に提供し,軌道上での嗜好と事実的説明(あるいはなぜこの嗜好を持つのかの注釈)を提供する,新たな嗜好に基づく学習手法を提案する。
これらの説明により、人は軌道のどの部分が好みに最も関係しているかを説明できる。
我々は個々の軌道上の説明の表現を許容する。
シミュレーションにおいて,本手法をシミュレーションで評価した結果,学習速度の向上が期待できることがわかった。
Human-in-the-loop reinforcement learning allows the training of agents through various interfaces, even for non-expert humans. Recently, preference-based methods (PbRL), where the human has to give his preference over two trajectories, increased in popularity since they allow training in domains where more direct feedback is hard to formulate. However, the current PBRL methods have limitations and do not provide humans with an expressive interface for giving feedback. With this work, we propose a new preference-based learning method that provides humans with a more expressive interface to provide their preference over trajectories and a factual explanation (or annotation of why they have this preference). These explanations allow the human to explain what parts of the trajectory are most relevant for the preference. We allow the expression of the explanations over individual trajectory steps. We evaluate our method in various simulations using a simulated human oracle (with realistic restrictions), and our results show that our extended feedback can improve the speed of learning. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-05 |
# ベクトルネットワークのための二重動的ISACプリコーディング:制約付き深部強化学習(CDRL)アプローチ
Doubly-Dynamic ISAC Precoding for Vehicular Networks: A Constrained Deep Reinforcement Learning (CDRL) Approach ( http://arxiv.org/abs/2405.14347v2 ) ライセンス: Link先を確認 | Zonghui Yang, Shijian Gao, Xiang Cheng, | (参考訳) 車両ネットワークの実現にはISAC技術が不可欠である。
しかし、このシナリオにおける通信チャネルは時間的特性を示し、潜在的なターゲットは急速に移動し、二重力学現象を生じさせる。
この性質は、リアルタイムプリコーダ設計に挑戦する。
最適化ベースのソリューションは広く研究されているが、それらは複雑であり、完全な事前情報に大きく依存している。
この課題に対処するため,ISACプリコーダ設計の動的更新を容易にするために制約付き強化学習(CDRL)を提案する。
さらに、プリミティブなデュアルディープ決定論的ポリシー勾配(PD-DDPG)とWolpertingerアーキテクチャは、複雑な制約とユーザの変数数の下でアルゴリズムを効率的に訓練するように調整されている。
提案手法は, 観測に基づく力学に適応するだけでなく, 環境情報を活用し, 性能の向上と複雑性の低減を図る。
既存の候補よりも優れていることが実験によって検証されている。
Integrated sensing and communication (ISAC) technology is essential for enabling the vehicular networks. However, the communication channel in this scenario exhibits time-varying characteristics, and the potential targets may move rapidly, creating a doubly-dynamic phenomenon. This nature poses a challenge for real-time precoder design. While optimization-based solutions are widely researched, they are complex and heavily rely on perfect prior information, which is impractical in double dynamics. To address this challenge, we propose using constrained deep reinforcement learning (CDRL) to facilitate dynamic updates to the ISAC precoder design. Additionally, the primal dual-deep deterministic policy gradient (PD-DDPG) and Wolpertinger architecture are tailored to efficiently train the algorithm under complex constraints and variable numbers of users. The proposed scheme not only adapts to the dynamics based on observations but also leverages environmental information to enhance performance and reduce complexity. Its superiority over existing candidates has been validated through experiments. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-05 |
# 翻訳品質測定のマルチランジ理論:MQMスコアリングモデルと統計的品質制御
The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control ( http://arxiv.org/abs/2405.16969v5 ) ライセンス: Link先を確認 | Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik, Katerina Gasova, Angelika Vaasa, Andy Benzo, Romina Marazzato Sparano, Monica Foresi, Johani Innis, Lifeng Han, Goran Nenadic, | (参考訳) 2024年は、分析翻訳品質評価のためのMultidimensional Quality Metrics(MQM)フレームワークの10周年である。
MQMエラー型は翻訳とローカライゼーション産業の実践者によって広く使われ、多くの派生プロジェクトの基盤となっている。
毎年開催される機械翻訳会議(WMT)は、MQMエラータイプロジを用いた人的および自動翻訳品質評価のタスクを共有した。
計量は2つの柱の上にあり、エラーのタイプロジーとスコアリングモデルである。
スコアリングモデルは、アノテーションデータから品質スコアを算出し、エラータイプと重大度数を数値スコアに変換して、コンテンツが仕様を満たしているかどうかを判断する。
以前は、生のスコアリングモデルのみが発表されていた。
今年4月、MQM評議会はリニア・キャリブレーション・スコーリング・モデル(Linear Calibrated Scoring Model)を発表し、非線形・スコーリング・モデル(Non-Linear Scoring Model)も発表した。
本稿では,最新のMQM開発について詳述し,3つのサンプルサイズ範囲にわたる翻訳品質測定への普遍的アプローチを示す。
また、統計品質制御が、単一の文から始まる非常に小さなサンプルサイズに使用されるべき理由も説明している。
The year 2024 marks the 10th anniversary of the Multidimensional Quality Metrics (MQM) framework for analytic translation quality evaluation. The MQM error typology has been widely used by practitioners in the translation and localization industry and has served as the basis for many derivative projects. The annual Conference on Machine Translation (WMT) shared tasks on both human and automatic translation quality evaluations used the MQM error typology. The metric stands on two pillars: error typology and the scoring model. The scoring model calculates the quality score from annotation data, detailing how to convert error type and severity counts into numeric scores to determine if the content meets specifications. Previously, only the raw scoring model had been published. This April, the MQM Council published the Linear Calibrated Scoring Model, officially presented herein, along with the Non-Linear Scoring Model, which had not been published before. This paper details the latest MQM developments and presents a universal approach to translation quality measurement across three sample size ranges. It also explains why Statistical Quality Control should be used for very small sample sizes, starting from a single sentence. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-05 |
# WRDScore: 自然言語生成モデル評価のための新しい指標
WRDScore: New Metric for Evaluation of Natural Language Generation Models ( http://arxiv.org/abs/2405.19220v4 ) ライセンス: Link先を確認 | Ravil Mussabayev, | (参考訳) 自然言語生成モデルの評価、特にメソッド名予測は、大きな課題となっている。
堅牢な計量は、意味的および統語的バリエーションの両方を考慮して、メソッド命名の汎用性を考慮する必要がある。
従来の重複ベースのメトリクスは、これらのニュアンスをキャプチャできない。
既存の埋め込みベースのメトリクスは、しばしば不均衡な精度とリコール、正規化されたスコアの欠如、シーケンスに関する非現実的な仮定に悩まされる。
これらの制約に対処するため、単純さと有効性のバランスをとる新しい指標であるWRDScoreを提案する。
我々の計量は軽量で、正規化され、精度の高いリコール指向であり、非現実的な仮定を避けつつ、人間の判断とうまく一致している。
Evaluating natural language generation models, particularly for method name prediction, poses significant challenges. A robust metric must account for the versatility of method naming, considering both semantic and syntactic variations. Traditional overlap-based metrics fail to capture these nuances. Existing embedding-based metrics often suffer from imbalanced precision and recall, lack normalized scores, or make unrealistic assumptions about sequences. To address these limitations, we propose WRDScore, a novel metric that strikes a balance between simplicity and effectiveness. Our metric is lightweight, normalized, and precision-recall-oriented, avoiding unrealistic assumptions while aligning well with human judgments. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-05 |
# 強化学習に基づく量子機械学習のためのアーキテクチャ探索
Reinforcement learning-based architecture search for quantum machine learning ( http://arxiv.org/abs/2406.02717v3 ) ライセンス: Link先を確認 | Frederic Rapp, David A. Kreplin, Marco F. Huber, Marco Roth, | (参考訳) 量子機械学習モデルは符号化回路を使用して、データを量子ヒルベルト空間にマッピングする。
これらの回路のアーキテクチャが結果モデルのコア特性に大きな影響を与えることはよく知られているが、しばしばヒューリスティックに選択される。
本研究では,量子機械学習モデルの性能向上のために,強化学習技術を用いて問題固有符号化回路を生成する手法を提案する。
モデルに基づく強化学習アルゴリズムを特に利用することにより、探索に必要な回路評価の回数を削減し、サンプル効率のよいフレームワークを提供する。
従来のサーチアルゴリズムとは対照的に,本手法はサーチスペースを大幅に削減する階層回路構造を用いる。
さらに,本手法は,ソリューションの品質,ハードウェアの制約,回路深さなど,複数の目的を考慮に入れることができる。
問題に依存しない回路モデルや古典モデルなど、様々な参照モデルに対して、調整された回路をベンチマークする。
本研究は,QMLモデルの性能向上における問題固有符号化回路の有効性を強調した。
Quantum machine learning models use encoding circuits to map data into a quantum Hilbert space. While it is well known that the architecture of these circuits significantly influences core properties of the resulting model, they are often chosen heuristically. In this work, we present a novel approach using reinforcement learning techniques to generate problem-specific encoding circuits to improve the performance of quantum machine learning models. By specifically using a model-based reinforcement learning algorithm, we reduce the number of necessary circuit evaluations during the search, providing a sample-efficient framework. In contrast to previous search algorithms, our method uses a layered circuit structure that significantly reduces the search space. Additionally, our approach can account for multiple objectives such as solution quality, hardware restrictions and circuit depth. We benchmark our tailored circuits against various reference models, including models with problem-agnostic circuits and classical models. Our results highlight the effectiveness of problem-specific encoding circuits in enhancing QML model performance. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# 言語モデルは文脈で何を学ぶか? : 構造的タスク仮説
What Do Language Models Learn in Context? The Structured Task Hypothesis ( http://arxiv.org/abs/2406.04216v3 ) ライセンス: Link先を確認 | Jiaoda Li, Yifan Hou, Mrinmaya Sachan, Ryan Cotterell, | (参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する興味深い能力を示す。
当然のことながら、ICLの根底にある理論の解明に多くの研究が費やされている。
一般的な仮説の一つは、タスク選択によるICLの説明である。
LLMはデモに基づいてタスクを特定し、それをプロンプトに一般化する。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
最後に、第3の仮説では、LCMは実演を使用してICLを実行するために事前学習中に学んだタスクの合成を選択する。
本稿では,これら3つの仮説を実証的に検証し,LLMが文脈で学習する能力を説明する。
我々は、最初の2つの仮説を反例で無効化し、最後の仮説を支持する証拠を提供する。
この結果から,LLMは事前学習中に学習したタスクを合成することで,文脈において新しいタスクを学習できる可能性が示唆された。
Large language models (LLMs) exhibit an intriguing ability to learn a novel task from in-context examples presented in a demonstration, termed in-context learning (ICL). Understandably, a swath of research has been dedicated to uncovering the theories underpinning ICL. One popular hypothesis explains ICL by task selection. LLMs identify the task based on the demonstration and generalize it to the prompt. Another popular hypothesis is that ICL is a form of meta-learning, i.e., the models learn a learning algorithm at pre-training time and apply it to the demonstration. Finally, a third hypothesis argues that LLMs use the demonstration to select a composition of tasks learned during pre-training to perform ICL. In this paper, we empirically explore these three hypotheses that explain LLMs' ability to learn in context with a suite of experiments derived from common text classification tasks. We invalidate the first two hypotheses with counterexamples and provide evidence in support of the last hypothesis. Our results suggest an LLM could learn a novel task in context via composing tasks learned during pre-training. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# GenAI Arena: 生成モデルのためのオープンな評価プラットフォーム
GenAI Arena: An Open Evaluation Platform for Generative Models ( http://arxiv.org/abs/2406.04485v2 ) ライセンス: Link先を確認 | Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen, | (参考訳) 生成AIは、画像やビデオ生成などの分野に革命を起こすために、目覚ましい努力をしてきた。
これらの進歩は革新的なアルゴリズム、アーキテクチャ、データによって駆動される。
しかし、生成モデルの急速な普及は、信頼に値する評価指標の欠如という重大なギャップを浮き彫りにした。
FID、CLIP、FVDなどの現在の自動評価は、生成出力に関連する微妙な品質とユーザの満足度を捉えるのに失敗することが多い。
本稿では,様々な画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、ユーザからのフィードバックと投票の集合を利用して、より民主的で正確なモデルパフォーマンス測定を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのアリーナをカバーしている。
現在、27のオープンソース生成モデルをカバーしています。
GenAI-Arenaは4ヶ月前から運営しており、コミュニティから6000票以上を集めている。
当社のプラットフォームを記述し、データを解析し、モデルランキングの統計手法を説明します。
モデルに基づく評価指標の構築に関する研究をさらに促進するため,GenAI-Benchという3つのタスクの選好データのクリーン化版をリリースする。
GeminiやGPT-4oのような既存のマルチモーダルモデルに、人間の投票を模倣するよう促します。
モデル投票と人投票の相関関係を計算し,その判断能力について考察する。
GPT-4oの最適モデルでさえ、品質サブスコアの0.22のピアソン相関を達成でき、他人のランダムな推測のように振る舞う。
Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# 深層学習駆動型リモートセンシング画像検索のための注釈コスト効率の良いアクティブラーニング
Annotation Cost-Efficient Active Learning for Deep Metric Learning Driven Remote Sensing Image Retrieval ( http://arxiv.org/abs/2406.10107v2 ) ライセンス: Link先を確認 | Genc Hoxha, Gencer Sumbul, Julia Henkel, Lars Möllenbrok, Begüm Demir, | (参考訳) 深度計測学習(DML)は,リモートセンシング(RS)において,コンテンツベース画像検索(CBIR)に有効であることが示されている。
CBIRのDML手法の多くは、ディープニューラルネットワーク(DNN)のモデルパラメータを正確に学習するために、大量の注釈付き画像に依存している。
しかし、そのようなデータの収集には時間と費用がかかります。
そこで本研究では,DML駆動型CBIRに適合したアノテーションコスト効率のアクティブラーニング(ANNEAL)手法を提案する。
ANNEALは、メートル法空間を正確に学習するために使用される、類似した、異種のイメージペアからなる、小さくて情報的なトレーニングセットを作成することを目的としている。
不確実性と多様性の基準を組み合わせることにより、画像対の情報性を評価する。
画像対の不確実性を評価するために,2つのアルゴリズムを導入する。
1)計量誘導不確実性推定(MGUE)及び
2)バイナリ分類器は不確実性推定(BCGUE)を導いた。
MGUEアルゴリズムは、距離空間の距離に基づいて、類似画像対と異画像対の境界として機能する閾値を自動的に推定する。
画像対の類似性が近いほど、その不確かさは推定しきい値に近づく。
BCGUEアルゴリズムは、正しい類似性ラベルを割り当てる際の分類器の信頼性に基づいて、画像対の不確かさを推定する。
多様性基準はクラスタリングベースの戦略によって評価される。
ANNEALは、MGUEアルゴリズムまたはBCGUEアルゴリズムとクラスタリングベースの戦略を組み合わせて、最も情報性の高いイメージペアを選択し、専門家アノテータによって類似または異種としてラベル付けされる。
このアノテート方式は、ランド・ユース・ランド・カバー・クラスラベルによるアノテート画像と比較して、アノテーションコストを著しく削減する。
2つのRSベンチマークデータセットの実験結果から,本手法の有効性が示された。
この作業のコードは、 \url{https://git.tu-berlin.de/rsim/anneal_tgrs} で公開されている。
Deep metric learning (DML) has shown to be effective for content-based image retrieval (CBIR) in remote sensing (RS). Most of DML methods for CBIR rely on a high number of annotated images to accurately learn model parameters of deep neural networks (DNNs). However, gathering such data is time-consuming and costly. To address this, we propose an annotation cost-efficient active learning (ANNEAL) method tailored to DML-driven CBIR in RS. ANNEAL aims to create a small but informative training set made up of similar and dissimilar image pairs to be utilized for accurately learning a metric space. The informativeness of image pairs is evaluated by combining uncertainty and diversity criteria. To assess the uncertainty of image pairs, we introduce two algorithms: 1) metric-guided uncertainty estimation (MGUE); and 2) binary classifier guided uncertainty estimation (BCGUE). MGUE algorithm automatically estimates a threshold value that acts as a boundary between similar and dissimilar image pairs based on the distances in the metric space. The closer the similarity between image pairs is to the estimated threshold value the higher their uncertainty. BCGUE algorithm estimates the uncertainty of the image pairs based on the confidence of the classifier in assigning correct similarity labels. The diversity criterion is assessed through a clustering-based strategy. ANNEAL combines either MGUE or BCGUE algorithm with the clustering-based strategy to select the most informative image pairs, which are then labelled by expert annotators as similar or dissimilar. This way of annotating images significantly reduces the annotation cost compared to annotating images with land-use land-cover class labels. Experimental results on two RS benchmark datasets demonstrate the effectiveness of our method. The code of this work is publicly available at \url{https://git.tu-berlin.de/rsim/anneal_tgrs}. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# BSRBF-KAN:コルモゴロフ・アルノルドネットワークにおけるB-スプラインと放射基本関数の組み合わせ
BSRBF-KAN: A combination of B-splines and Radial Basic Functions in Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.11173v3 ) ライセンス: Link先を確認 | Hoang-Thang Ta, | (参考訳) 本稿では,Bsplines と radial basis function (RBFs) を組み合わせたコルモゴロフ・アーノルドネットワーク (KAN) である BSRBF-KAN を紹介する。
我々は、MNISTおよびFashion-MNISTデータセット上で、BSRBF-KAN、MLP、およびEfficientKAN、FastKan、FasterKan、GottliebKANなどの人気のあるkansを用いて実験を行った。
BSRBF-KANは、MNISTで97.55%、FashionMNISTで89.33%の競争平均精度を持つ5つのトレーニングセッションで安定性を示し、他のネットワークよりもコンバージェンスを得る。
我々は,BSRBF-KANが数理関数の組み合わせを多数開き,kanを設計することを期待している。
私たちのリポジトリは、https://github.com/hoangthangta/BSRBF-KAN.comで公開されています。
In this paper, we introduce BSRBF-KAN, a Kolmogorov Arnold Network (KAN) that combines Bsplines and radial basis functions (RBFs) to fit input vectors in data training. We perform experiments with BSRBF-KAN, MLP, and other popular KANs, including EfficientKAN, FastKAN, FasterKAN, and GottliebKAN over the MNIST and Fashion-MNIST datasets. BSRBF-KAN shows stability in 5 training sessions with a competitive average accuracy of 97.55% on MNIST and 89.33% on FashionMNIST and obtains convergence better than other networks. We expect BSRBF-KAN to open many combinations of mathematical functions to design KANs. Our repo is publicly available at: https://github.com/hoangthangta/BSRBF-KAN. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# 疎チャネル(YOAS)のみを取得する:Dense-channel EEG 生成のための統一フレームワーク
You Only Acquire Sparse-channel (YOAS): A Unified Framework for Dense-channel EEG Generation ( http://arxiv.org/abs/2406.15269v2 ) ライセンス: Link先を確認 | Hongyu Chen, Weiming Zeng, Luhui Cai, Lei Wang, Jia Lu, Yueyang Li, Hongjie Yan, Wai Ting Siok, Nizhuan Wang, | (参考訳) 密度チャネル脳波(EEG)信号の高精度取得は、しばしば設備のコストと可搬性の欠如によって妨げられる。
対照的に、疎チャネルから効果的に高密度チャネル脳波信号を生成することは、約束と経済的生存性を示す。
しかし、スパースチャネル脳波は、空間分解能の低下、情報損失、信号混合、ノイズや干渉に対する感受性の増大といった課題を生んでいる。
これらの課題に対処するために、我々はまず、一組のチャネル横断脳波信号生成問題を最適化することにより、密チャネル脳波発生問題を理論的に定式化する。
そこで我々は,疎チャネル脳波信号から高密度チャネルデータを生成するためのYOASフレームワークを提案する。
YOASは、データ準備、データ前処理、バイアス-EEG生成、合成EEG生成の4段階からなる。
データ作成と前処理は、脳波電極の分布と脳波信号の低信号-雑音比問題を慎重に検討する。
Biased-EEG 生成には BiasEEGanFormer と BiasEEGDiffFormer のサブモジュールが含まれる。
合成脳波生成は最終信号を合成し、マルチチャネル脳波生成のための導出パラダイムを用いる。
大規模な実験により、YOASの有効性、効率性、理論上の妥当性が確認され、データの識別性も著しく向上した。
疎チャネルデータから高密度チャネルEEG信号を生成するこのブレークスルーは、EEG信号処理と応用の新たな道を開く。
High-precision acquisition of dense-channel electroencephalogram (EEG) signals is often impeded by the costliness and lack of portability of equipment. In contrast, generating dense-channel EEG signals effectively from sparse channels shows promise and economic viability. However, sparse-channel EEG poses challenges such as reduced spatial resolution, information loss, signal mixing, and heightened susceptibility to noise and interference. To address these challenges, we first theoretically formulate the dense-channel EEG generation problem as by optimizing a set of cross-channel EEG signal generation problems. Then, we propose the YOAS framework for generating dense-channel data from sparse-channel EEG signals. The YOAS totally consists of four sequential stages: Data Preparation, Data Preprocessing, Biased-EEG Generation, and Synthetic EEG Generation. Data Preparation and Preprocessing carefully consider the distribution of EEG electrodes and low signal-to-noise ratio problem of EEG signals. Biased-EEG Generation includes sub-modules of BiasEEGGanFormer and BiasEEGDiffFormer, which facilitate long-term feature extraction with attention and generate signals by combining electrode position alignment with diffusion model, respectively. Synthetic EEG Generation synthesizes the final signals, employing a deduction paradigm for multi-channel EEG generation. Extensive experiments confirmed YOAS's feasibility, efficiency, and theoretical validity, even remarkably enhancing data discernibility. This breakthrough in dense-channel EEG signal generation from sparse-channel data opens new avenues for exploration in EEG signal processing and application. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# 大規模ビジョンランゲージモデルのための混合実験におけるToken Gradient Conflictの解法
Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model ( http://arxiv.org/abs/2406.19905v2 ) ライセンス: Link先を確認 | Longrong Yang, Dong Shen, Chaoxiang Cai, Fan Yang, Size Li, Di Zhang, Xi Li, | (参考訳) The Mixture-of-Experts (MoE)は、LVLM(Large Vision-Language Models)の研究において注目を集めている。
厳密なモデルを置き換えるためにスパースモデルを使用し、推論中に少ないパラメータをアクティベートしながら同等のパフォーマンスを実現し、推論コストを大幅に削減する。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。
しかし、予測はサンプル機能のみに基づいており、トークンの最適化方向を真に明らかにしていない。
これにより、専門家に割り当てられた異なるトークン間の厳しい最適化の干渉につながる可能性がある。
この問題に対処するために,トークンレベルの勾配解析に基づく新しい手法,すなわちSolving Token Gradient Conflict (STGC)を提案する。
具体的には、まずトークンレベルの勾配を使用して、専門家の矛盾するトークンを特定します。
その後、各専門家内のトークン間の衝突を排除するように調整された、特別な損失を追加します。
本手法は多種多様な視覚・言語モデルのためのプラグインとして機能し,その効果を実験的に検証した。
コードはhttps://github.com/longrongyang/STGCで公開されている。
The Mixture-of-Experts (MoE) has gained increasing attention in studying Large Vision-Language Models (LVLMs). It uses a sparse model to replace the dense model, achieving comparable performance while activating fewer parameters during inference, thus significantly reducing the inference cost. Existing MoE methods in LVLMs encourage different experts to handle different tokens, and they usually employ a router to predict the routing of each token. However, the predictions are based solely on sample features and do not truly reveal the optimization directions of tokens. This may lead to severe optimization interference between different tokens assigned to an expert. To address this problem, this paper proposes a novel method based on token-level gradient analysis, i.e., Solving Token Gradient Conflict (STGC). Specifically, we first use token-level gradients to identify conflicting tokens in experts. After that, we add a specialized loss tailored to eliminate conflicts among tokens within each expert. Our method can serve as a plug-in for diverse Large Vision-Language Models, and extensive experimental results demonstrate its effectiveness. The code will be publicly available at https://github.com/longrongyang/STGC. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-05 |
# ブリジング・スムースネスと近似:グラフニューラルネットワークにおけるオーバー・スムース化の理論的考察
Bridging Smoothness and Approximation: Theoretical Insights into Over-Smoothing in Graph Neural Networks ( http://arxiv.org/abs/2407.01281v2 ) ライセンス: Link先を確認 | Guangrui Yang, Jianfei Li, Ming Li, Han Feng, Ding-Xuan Zhou, | (参考訳) 本稿では,グラフ上で定義される関数の近似理論について検討する。
本研究は,K$関数の近似結果に基づく。
我々は,グラフ畳み込みネットワーク(GCN)を用いて,対象関数に対する下界の近似を評価するための理論的枠組みを確立し,これらのネットワークでよく見られる過度に平滑な現象について検討する。
当初、グラフ上の$K$-函数の概念を導入し、滑らかさのモジュラリティに同値性を確立する。
次に、典型的なGCNを分析し、出力の高周波エネルギーがどのように減衰するかを示す。
この分析はGCN内の過剰な平滑化の性質に関する理論的洞察を与える。
さらに、これらの関数の滑らかさのモジュラリティによって支配されるGCNによる対象関数の近似の下位境界を確立する。
この発見はGCNの近似能力に関する新たな視点を提供する。
数値実験では, 広範囲に応用されたGCNを解析し, エネルギー減衰現象を観察した。
これらの観測は、指数的崩壊次数の理論結果を裏付ける。
In this paper, we explore the approximation theory of functions defined on graphs. Our study builds upon the approximation results derived from the $K$-functional. We establish a theoretical framework to assess the lower bounds of approximation for target functions using Graph Convolutional Networks (GCNs) and examine the over-smoothing phenomenon commonly observed in these networks. Initially, we introduce the concept of a $K$-functional on graphs, establishing its equivalence to the modulus of smoothness. We then analyze a typical type of GCN to demonstrate how the high-frequency energy of the output decays, an indicator of over-smoothing. This analysis provides theoretical insights into the nature of over-smoothing within GCNs. Furthermore, we establish a lower bound for the approximation of target functions by GCNs, which is governed by the modulus of smoothness of these functions. This finding offers a new perspective on the approximation capabilities of GCNs. In our numerical experiments, we analyze several widely applied GCNs and observe the phenomenon of energy decay. These observations corroborate our theoretical results on exponential decay order. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# Faux Polyglot:多言語大言語モデルにおける情報格差に関する研究
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models ( http://arxiv.org/abs/2407.05502v2 ) ライセンス: Link先を確認 | Nikhil Sharma, Kenton Murray, Ziang Xiao, | (参考訳) Retrieval Augmented Generation (RAG)により、Large Language Models (LLM) は情報検索において重要な役割を担い、世界中で採用されている。
LLMの多言語能力は言語障壁を橋渡しする新たな機会を提供するが、これらの能力は言語分割と多言語ソース間の知識衝突が既知の実生活シナリオに変換されるのか?
本稿では,RAGに基づく情報検索におけるLLMの言語的嗜好について検討した。
その結果,LLMは問合せ言語と同一言語における情報に対して,情報検索と回答生成の両方において,体系的な偏りを示した。
さらに、クエリの言語にはほとんど情報がないシナリオでは、LLMは高ソース言語でのドキュメントを好んで、支配的なビューを補強する。
このようなバイアスは、事実と意見に基づくクエリの両方に存在します。
本研究は,情報検索システムにおける多言語 LLM の言語的分割に注目した。
LLMの一見有益と思われる多言語能力は、低リソースのビューをさらにマージする言語固有の情報コクーンやフィルタバブルを強化することで、情報平準性に反する可能性がある。
With Retrieval Augmented Generation (RAG), Large Language Models (LLMs) are playing a pivotal role in information search and are being adopted globally. Although the multilingual capability of LLMs offers new opportunities to bridge the language barrier, do these capabilities translate into real-life scenarios where linguistic divide and knowledge conflicts between multilingual sources are known occurrences? In this paper, we studied LLM's linguistic preference in a RAG-based information search setting. We found that LLMs displayed systemic bias towards information in the same language as the query language in both information retrieval and answer generation. Furthermore, in scenarios where there is little information in the language of the query, LLMs prefer documents in high-resource languages, reinforcing the dominant views. Such bias exists for both factual and opinion-based queries. Our results highlight the linguistic divide within multilingual LLMs in information search systems. The seemingly beneficial multilingual capability of LLMs may backfire on information parity by reinforcing language-specific information cocoons or filter bubbles further marginalizing low-resource views. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# 小型医用物体の分別におけるスケール・ヴァリアント留意点の検討
Exploiting Scale-Variant Attention for Segmenting Small Medical Objects ( http://arxiv.org/abs/2407.07720v4 ) ライセンス: Link先を確認 | Wei Dai, Rui Liu, Zixuan Wu, Tianyi Wu, Min Wang, Junxian Zhou, Yixuan Yuan, Jun Liu, | (参考訳) 早期発見と正確な診断は悪性疾患の再発のリスクを予測し、効果的治療の確率を高めることができる。
軽度症候群を小さな病理領域で同定することは、異常な警告であり、疾患の早期診断に必須である。
深層学習アルゴリズム、特に畳み込みニューラルネットワーク(CNN)は、医療オブジェクトのセグメンテーションにおいて有望であるが、医療画像の小さな領域を分析することは依然として困難である。
この困難は、情報損失とCNNにおける畳み込みとプール操作による圧縮欠陥によって生じる。
これらの課題に対処するために,医療画像中の小型物体を正確にセグメント化するための,新しいスケール可変アテンションベースネットワーク(SvANet)を提案する。
SvANetは、スケールの異なる注意、クロススケールガイダンス、モンテカルロの注意、およびビジョントランスフォーマーで構成されており、小さな医療オブジェクトの識別を強化するために、クロススケールな特徴を取り入れ、圧縮アーティファクトを緩和している。
定量的実験の結果、SvANetは96.12%、96.11%、89.79%、84.15%、80.25%、73.05%、および72.58%を達成し、それぞれKiTS23、ISIC 2018、ATLAS、PolypGen、TioNet、FIVES、SpermHealthの各データセットの画像領域の1%未満を占める腎臓腫瘍、皮膚病変、肝腫瘍、ポリープ、外科切除細胞、網膜血管、精子の分画係数を推定した。
Early detection and accurate diagnosis can predict the risk of malignant disease transformation, thereby increasing the probability of effective treatment. Identifying mild syndrome with small pathological regions serves as an ominous warning and is fundamental in the early diagnosis of diseases. While deep learning algorithms, particularly convolutional neural networks (CNNs), have shown promise in segmenting medical objects, analyzing small areas in medical images remains challenging. This difficulty arises due to information losses and compression defects from convolution and pooling operations in CNNs, which become more pronounced as the network deepens, especially for small medical objects. To address these challenges, we propose a novel scale-variant attention-based network (SvANet) for accurately segmenting small-scale objects in medical images. The SvANet consists of scale-variant attention, cross-scale guidance, Monte Carlo attention, and vision transformer, which incorporates cross-scale features and alleviates compression artifacts for enhancing the discrimination of small medical objects. Quantitative experimental results demonstrate the superior performance of SvANet, achieving 96.12%, 96.11%, 89.79%, 84.15%, 80.25%, 73.05%, and 72.58% in mean Dice coefficient for segmenting kidney tumors, skin lesions, hepatic tumors, polyps, surgical excision cells, retinal vasculatures, and sperms, which occupy less than 1% of the image areas in KiTS23, ISIC 2018, ATLAS, PolypGen, TissueNet, FIVES, and SpermHealth datasets, respectively. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# 言語モデル復号化のためのオートマタによる制約
Automata-based constraints for language model decoding ( http://arxiv.org/abs/2407.08103v3 ) ライセンス: Link先を確認 | Terry Koo, Frederick Liu, Luheng He, | (参考訳) 言語モデル(LM)は、構造化データ、API呼び出し、コードスニペットなど、いくつかの形式言語で文字列を生成することがしばしば期待されている。
LMは形式構文への適合性を改善するために調整できるが、特に大規模展開に適した小型のLMでは適合性は保証されない。
加えて、チューニングにはかなりのリソースが必要であるため、一般的でないフォーマットやタスク固有のフォーマットでは実用的ではない。
下流のパースエラーを防ぐためには、LMが有効な出力のみを生成することを理想的に制限するが、これはトークン化によって非常に複雑になる。
APIコールやスキーマ誘導JSON,YAMLなど,多くの実用的なアプリケーションを備えた多種多様な形式言語である,正規言語に対する効率的なクローズドフォームソリューションを導出する,オートマトン理論の適用により,これらの問題を解決する。
また,高分岐係数問題に対処するための実用的拡張についても論じ,その手法を決定論的文脈自由言語に拡張する。
このトピックに関する以前の研究(Willard and Louf, 2023)は、ソリューションをオートマトンに吹き飛ばし、スピード、正確性、拡張性の問題を引き起こした。
代わりに、タスク全体をオートマトンで再構成し、よく研究され、最適化されたアルゴリズムを活用できるようにします。
我々のシステムは制約を約7,000倍早くコンパイルし、確実に正確であり、モジュール方式で拡張することができる。
Language models (LMs) are often expected to generate strings in some formal language; for example, structured data, API calls, or code snippets. Although LMs can be tuned to improve their adherence to formal syntax, this does not guarantee conformance, especially with smaller LMs suitable for large-scale deployment. In addition, tuning requires significant resources, making it impractical for uncommon or task-specific formats. To prevent downstream parsing errors we would ideally constrain the LM to only produce valid output, but this is severely complicated by tokenization, which is typically both ambiguous and misaligned with the formal grammar. We solve these issues through the application of automata theory, deriving an efficient closed-form solution for the regular languages, a broad class of formal languages with many practical applications, including API calls or schema-guided JSON and YAML. We also discuss pragmatic extensions for coping with the issue of high branching factor, and extend our techniques to deterministic context-free languages, which similarly admit an efficient closed-form solution. Previous work on this topic (Willard and Louf, 2023) layers bespoke solutions onto automata, leading to problems with speed, correctness, and extensibility. Instead, we reformulate the entire task in terms of automata so we can leverage well-studied and well-optimized algorithms. Our system compiles constraints ~7,000x faster, is provably correct, and can be extended in a modular fashion. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# 大規模言語モデルを用いた説明可能な進化戦略に向けて
Towards Explainable Evolution Strategies with Large Language Models ( http://arxiv.org/abs/2407.08331v2 ) ライセンス: Link先を確認 | Jill Baumann, Oliver Kramer, | (参考訳) 本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合し,複雑な最適化プロセスの説明可能性を高めるアプローチを提案する。
再起動機構を備えた自己適応ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートし、最適化過程の詳細なログをキャプチャする。
ログには、フィットネスの進化、ステップサイズの調整、停滞によるイベントの再スタートが含まれている。
LLMはこれらのログを処理するために利用され、収束挙動、最適適合達成、局所最適点との遭遇といった重要な側面を強調する簡潔でユーザフレンドリーな要約を生成する。
ラストリギン関数のケーススタディは、我々のアプローチがES最適化の複雑さを透過的にする方法を示している。
本研究は,高度な最適化アルゴリズムと解釈可能性とのギャップを埋めるためにLLMを使うことの可能性を明らかにする。
This paper introduces an approach that integrates self-adaptive Evolution Strategies (ES) with Large Language Models (LLMs) to enhance the explainability of complex optimization processes. By employing a self-adaptive ES equipped with a restart mechanism, we effectively navigate the challenging landscapes of benchmark functions, capturing detailed logs of the optimization journey. The logs include fitness evolution, step-size adjustments and restart events due to stagnation. An LLM is then utilized to process these logs, generating concise, user-friendly summaries that highlight key aspects such as convergence behavior, optimal fitness achievements, and encounters with local optima. Our case study on the Rastrigin function demonstrates how our approach makes the complexities of ES optimization transparent. Our findings highlight the potential of using LLMs to bridge the gap between advanced optimization algorithms and their interpretability. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# データとマルチモーダル大言語モデルの相乗効果:共同開発の視点から
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective ( http://arxiv.org/abs/2407.08583v2 ) ライセンス: Link先を確認 | Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng, | (参考訳) 大規模言語モデル(LLM)の急速な発展は近年観察されている。
強力なLLMに基づいて、マルチモーダルLLM(MLLM)はテキストから広い範囲のドメインにモダリティを拡張し、幅広いアプリケーションシナリオのために広く注目を集めている。
LLMとMLLMは、創発的な能力を達成するために大量のモデルパラメータとデータに依存しているため、データの重要性はますます注目を集め、認識されている。
MLLMの最近のデータ指向処理の追跡と解析により、モデルとデータの開発は2つの別々の経路ではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
マルチモーダルデータとMLLMの共同開発には明確な視点が必要である
1)MLLMの開発段階において、特定のデータ中心のアプローチを用いて、特定のMLLM能力を向上させることができる。
2)MLLMは,これらの機能を活用することで,特定の役割におけるマルチモーダルデータに寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
この調査に関連する定期的なプロジェクトはhttps://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.mdで見ることができる。
The rapid development of large language models (LLMs) has been witnessed in recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the modality from text to a broader spectrum of domains, attracting widespread attention due to the broader range of application scenarios. As LLMs and MLLMs rely on vast amounts of model parameters and data to achieve emergent capabilities, the importance of data is receiving increasingly widespread attention and recognition. Tracing and analyzing recent data-oriented works for MLLMs, we find that the development of models and data is not two separate paths but rather interconnected. On the one hand, vaster and higher-quality data contribute to better performance of MLLMs; on the other hand, MLLMs can facilitate the development of data. The co-development of multi-modal data and MLLMs requires a clear view of 1) at which development stages of MLLMs specific data-centric approaches can be employed to enhance certain MLLM capabilities, and 2) how MLLMs, utilizing those capabilities, can contribute to multi-modal data in specific roles. To promote the data-model co-development for MLLM community, we systematically review existing works related to MLLMs from the data-model co-development perspective. A regularly maintained project associated with this survey is accessible at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# 人間の行動決定の予測と理解:大規模言語モデルと認知事例に基づく学習から
Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning ( http://arxiv.org/abs/2407.09281v2 ) ライセンス: Link先を確認 | Thuy Ngoc Nguyen, Kasturi Jamale, Cleotilde Gonzalez, | (参考訳) 大きな言語モデル(LLM)は、言語翻訳から複雑な推論まで、様々なタスクでその能力を実証している。
人間の行動とバイアスの理解と予測は、人工知能(AI)支援システムに有用な支援を提供する上で不可欠である。
本稿では,LLMの推論と生成能力を活用して,2つの逐次意思決定タスクにおける人間の行動を予測することによって,このギャップを解消する。
これらのタスクには、搾取行動と探索行動のバランスをとることと、実際の意思決定プロセスのシミュレーションに不可欠な遅延フィードバックを扱うことが含まれる。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習(IBL)モデルと比較した。
以上の結果から,LLMはフィードバックを迅速に取り入れて予測精度を向上させることが示唆された。
対照的に、認知的IBLモデルは、人間の探索行動をよりよく説明し、損失回避バイアスを効果的に捉えている。
その結果,LLMを認知的アーキテクチャに統合することで,複雑な人間の意思決定パターンのモデリングと理解が促進される可能性が示唆された。
Large Language Models (LLMs) have demonstrated their capabilities across various tasks, from language translation to complex reasoning. Understanding and predicting human behavior and biases are crucial for artificial intelligence (AI) assisted systems to provide useful assistance, yet it remains an open question whether these models can achieve this. This paper addresses this gap by leveraging the reasoning and generative capabilities of the LLMs to predict human behavior in two sequential decision-making tasks. These tasks involve balancing between exploitative and exploratory actions and handling delayed feedback, both essential for simulating real-life decision processes. We compare the performance of LLMs with a cognitive instance-based learning (IBL) model, which imitates human experiential decision-making. Our findings indicate that LLMs excel at rapidly incorporating feedback to enhance prediction accuracy. In contrast, the cognitive IBL model better accounts for human exploratory behaviors and effectively captures loss aversion bias, i.e., the tendency to choose a sub-optimal goal with fewer step-cost penalties rather than exploring to find the optimal choice, even with limited experience. The results highlight the benefits of integrating LLMs with cognitive architectures, suggesting that this synergy could enhance the modeling and understanding of complex human decision-making patterns. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# 絵画としての変圧器層
Transformer Layers as Painters ( http://arxiv.org/abs/2407.09298v2 ) ライセンス: Link先を確認 | Qi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones, | (参考訳) 大きな言語モデルにほぼ普遍的に採用されているにもかかわらず、トランスフォーマーの内部動作はよく理解されていない。
我々は、事前訓練されたトランスフォーマーのレイヤ全体を通して、情報の削除や再編成の影響をよりよく理解することを目的としている。
このような理解は、既存モデルのより良い利用と、新しいバリエーションを生み出すためのアーキテクチャの改善をもたらす可能性がある。
本研究では, 凍結モデルに関する実験的検討を行い, 未学習変圧器の下部層と最終層は中間層と異なるが, 中間層は驚くほど均一であることを示した。
さらに、問題のクラスによっては、レイヤをスキップしたり、トレーニング方法と異なる順序でレイヤを実行したり、並列にレイヤを実行することに対して堅牢性があることも示しています。
我々の観察では、凍結した事前学習モデルでさえ、レイヤをスキップしたり、並列にレイヤを走らせることで、遅延の正確さを優雅に交換できる可能性が示唆されている。
Despite their nearly universal adoption for large language models, the internal workings of transformers are not well understood. We aim to better understand the impact of removing or reorganizing information throughout the layers of a pretrained transformer. Such an understanding could both yield better usage of existing models as well as to make architectural improvements to produce new variants. We present a series of empirical studies on frozen models that show that the lower and final layers of pretrained transformers differ from middle layers, but that middle layers have a surprising amount of uniformity. We further show that some classes of problems have robustness to skipping layers, running the layers in an order different from how they were trained, or running the layers in parallel. Our observations suggest that even frozen pretrained models may gracefully trade accuracy for latency by skipping layers or running layers in parallel. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-05 |
# ファレイ列の最大平均誤差
Maximum mean discrepancies of Farey sequences ( http://arxiv.org/abs/2407.10214v2 ) ライセンス: Link先を確認 | Toni Karvonen, Anatoly Zhigljavsky, | (参考訳) ファレイ列の最大平均不一致の多項式収束率をリーマン予想と等価とする、正の半無限核の大規模なクラスを同定する。
このクラスは、少なくとも 1-半の順序のすべての Mat\'ern カーネルを含む。
We identify a large class of positive-semidefinite kernels for which a certain polynomial rate of convergence of maximum mean discrepancies of Farey sequences is equivalent to the Riemann hypothesis. This class includes all Mat\'ern kernels of order at least one-half. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-05 |
# Think-on-Graph 2.0:知識グラフ誘導検索による深層および解釈可能な大規模言語モデル推論
Think-on-Graph 2.0: Deep and Interpretable Large Language Model Reasoning with Knowledge Graph-guided Retrieval ( http://arxiv.org/abs/2407.10805v2 ) ライセンス: Link先を確認 | Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Jian Guo, | (参考訳) Retrieval-augmented Generation (RAG) は、動的情報検索により、生成コンテンツにおける知識ギャップと幻覚を軽減することにより、かなり高度な大規模言語モデル(LLM)を持つ。
しかし、これらのシステムは様々なクエリにまたがる複雑な推論と一貫性に悩まされることが多い。
本稿では,知識グラフと質問を一致させてナビゲーションツールとして使用する拡張RAGフレームワークであるThink-on-Graph 2.0について紹介する。
KG誘導ナビゲーションは、論理的一貫性を保ち、精度と相互運用性の検索範囲を最適化するために、深い、長距離の関連を奨励する。
協調して、事実整合性は、厳密な指示によって導かれる意味的類似性によってより確実にすることができる。
ToG${2.0}$は、LLMの応答の精度と信頼性を向上させるだけでなく、LLM推論を大幅に進歩させるハイブリッド構造化知識システムの可能性を示し、人間に近い性能に近づける。
提案手法の利点をベースラインと比較し,4つの公開データセットについて広範な実験を行った。
Retrieval-augmented generation (RAG) has significantly advanced large language models (LLMs) by enabling dynamic information retrieval to mitigate knowledge gaps and hallucinations in generated content. However, these systems often falter with complex reasoning and consistency across diverse queries. In this work, we present Think-on-Graph 2.0, an enhanced RAG framework that aligns questions with the knowledge graph and uses it as a navigational tool, which deepens and refines the RAG paradigm for information collection and integration. The KG-guided navigation fosters deep and long-range associations to uphold logical consistency and optimize the scope of retrieval for precision and interoperability. In conjunction, factual consistency can be better ensured through semantic similarity guided by precise directives. ToG${2.0}$ not only improves the accuracy and reliability of LLMs' responses but also demonstrates the potential of hybrid structured knowledge systems to significantly advance LLM reasoning, aligning it closer to human-like performance. We conducted extensive experiments on four public datasets to demonstrate the advantages of our method compared to the baseline. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-05 |
# 量子化グローバルオートエンコーダ:ビジュアルデータ表現のための全体論的アプローチ
Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data ( http://arxiv.org/abs/2407.11913v2 ) ライセンス: Link先を確認 | Tim Elsner, Paula Usinger, Victor Czech, Gregor Kobsik, Yanjiang He, Isaak Lim, Leif Kobbelt, | (参考訳) 量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。
この表現は、その領域の視覚情報の内容に関係なく、同じ数のトークンが各領域に費やされているという意味では冗長である。
クアッドツリーのような適応的な離散化スキームは、異なる大きさのパッチに対するトークンの割り当てに適用されるが、それでもローカルな記述子のままであるトークンに対する影響の領域だけを変える。
現代のアーキテクチャでは、ローカルトークンにある程度のグローバル情報を注入するオートエンコーダにアテンションメカニズムが追加されている。
グローバルなコンテキストにもかかわらず、トークンは依然としてローカルイメージ領域と関連付けられている。
対照的に、本手法は入力信号を大域周波数重畳に変換するスペクトル分解に着想を得たものである。
データ駆動の観点から、VQ-VAEセットアップのコードブックエントリに対応するカスタムベース関数を学習する。
さらに、デコーダはこれらの基底関数を非線形に結合し、スペクトル分解の単純な線型重ね合わせを超越する。
このグローバルな記述は,機能とチャネル間の効率的な変換操作によって実現し,圧縮性能を実証することができる。
In quantised autoencoders, images are usually split into local patches, each encoded by one token. This representation is redundant in the sense that the same number of tokens is spend per region, regardless of the visual information content in that region. Adaptive discretisation schemes like quadtrees are applied to allocate tokens for patches with varying sizes, but this just varies the region of influence for a token which nevertheless remains a local descriptor. Modern architectures add an attention mechanism to the autoencoder which infuses some degree of global information into the local tokens. Despite the global context, tokens are still associated with a local image region. In contrast, our method is inspired by spectral decompositions which transform an input signal into a superposition of global frequencies. Taking the data-driven perspective, we learn custom basis functions corresponding to the codebook entries in our VQ-VAE setup. Furthermore, a decoder combines these basis functions in a non-linear fashion, going beyond the simple linear superposition of spectral decompositions. We can achieve this global description with an efficient transpose operation between features and channels and demonstrate our performance on compression. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-05 |
# マルチモーダルな知識を付加した完全すべり病基盤モデル
A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model ( http://arxiv.org/abs/2407.15362v2 ) ライセンス: Link先を確認 | Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Shu Yang, Huangjing Lin, Xin Wang, Jiguang Wang, Li Liang, Anjia Han, Ronald Cheong Kin Chan, Hao Chen, | (参考訳) 計算病理学における顕著な進歩は、幅広い下流臨床タスクのパフォーマンスを向上するタスクに依存しない基礎モデルにおいてなされている。
有望なパフォーマンスにもかかわらず、まだいくつかの課題があります。
第一に、以前の研究は視覚のみまたは視覚のみのデータに頼っており、有意義な病理報告や、多彩な臨床応用のための異なる知識を提供する遺伝子発現プロファイルを無視している。
第2に、FMの現在の進歩はパッチレベルに集中しており、パッチレベルの事前トレーニングの制限されたコンテキストは、スライディング全体のパターンをキャプチャできない。
今回我々は,32種類の癌患者10,275名を対象に,H&E画像と関連病態報告とRNA-Seqデータからなる最大マルチモーダルデータセットを収集した。
CPath におけるこれらのデータを活用するために,Multimodal Self-Taught PRetraining (mSTAR) と呼ばれる,Multimodal FM (Multimodal Self-Taught PRetraining) にマルチモーダル知識を注入する新たな事前学習パラダイムを提案する。
提案したパラダイムはCPathの事前トレーニングのワークフローに革命をもたらす。
我々の知る限り、このことは、マルチモーダル知識をスライドレベルに組み込んだ最初の試みであり、病的FMの強化、モデリングコンテキストの非モーダルからマルチモーダル知識への拡張、パッチレベルからスライドレベルへの拡張である。
mSTARの能力を体系的に評価するために, 43のサブタスクで7種類のタスクにまたがって, ダウンストリームタスクのスペクトルが最も大きい。
様々なスライドレベルのアプリケーションにおける平均性能は、SOTA FMと比較してmSTARの大幅な性能向上を示す。
Remarkable strides in computational pathology have been made in the task-agnostic foundation model that advances the performance of a wide array of downstream clinical tasks. Despite the promising performance, there are still several challenges. First, prior works have resorted to either vision-only or vision-captions data, disregarding invaluable pathology reports and gene expression profiles which respectively offer distinct knowledge for versatile clinical applications. Second, the current progress in pathology FMs predominantly concentrates on the patch level, where the restricted context of patch-level pretraining fails to capture whole-slide patterns. Here we curated the largest multimodal dataset consisting of H\&E diagnostic whole slide images and their associated pathology reports and RNA-Seq data, resulting in 26,169 slide-level modality pairs from 10,275 patients across 32 cancer types. To leverage these data for CPath, we propose a novel whole-slide pretraining paradigm which injects multimodal knowledge at the whole-slide context into the pathology FM, called Multimodal Self-TAught PRetraining (mSTAR). The proposed paradigm revolutionizes the workflow of pretraining for CPath, which enables the pathology FM to acquire the whole-slide context. To our knowledge, this is the first attempt to incorporate multimodal knowledge at the slide level for enhancing pathology FMs, expanding the modelling context from unimodal to multimodal knowledge and from patch-level to slide-level. To systematically evaluate the capabilities of mSTAR, extensive experiments including slide-level unimodal and multimodal applications, are conducted across 7 diverse types of tasks on 43 subtasks, resulting in the largest spectrum of downstream tasks. The average performance in various slide-level applications consistently demonstrates significant performance enhancements for mSTAR compared to SOTA FMs. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-05 |
# 機械学習における量子アドバンテージと高速リトレーニングの火花
Sparks of Quantum Advantage and Rapid Retraining in Machine Learning ( http://arxiv.org/abs/2407.16020v4 ) ライセンス: Link先を確認 | William Troy, | (参考訳) 量子コンピューティングの出現は、古典的コンピュータよりも複雑な問題を効率的に解くことによって、様々な分野に革命をもたらす可能性を秘めている。
この約束にもかかわらず、実用的な量子優位性は、現在のハードウェアの制限、特に少数の量子ビットと高いノイズレベルによって妨げられている。
本研究では,低パラメータで複雑な関数を表現するためのニューラルネットワークアーキテクチャであるKolmogorov-Arnold Networksを最適化するために,断熱量子コンピュータを活用する。
ネットワークをベージエ曲線を基底関数として用いるように修正し、最適化問題を擬似非制約二項最適化問題に定式化することにより、トレーニングサンプル数に依存しない固定サイズの解空間を創出する。
この戦略は、単一のトレーニングイテレーションでニューラルネットワーク全体の最適化を可能にし、オペレーションの順序により、ほとんどの処理はトレーニングデータセットの崩壊バージョンを使用して行われる。
これは本質的に非常に高速なトレーニング速度を生み出し、Adam、Stochastic Gradient Descent、Adaptive Gradient、simulated annealingといった古典的なオプティマイザと比較して実験的に検証されている。
さらに,新しい高速リトレーニング機能を導入し,古いサンプルを再処理することなくネットワークを新しいデータで再トレーニングし,動的環境における学習効率を向上させる。
再トレーニングの実験では、勾配降下に基づく最適化よりも断熱的量子コンピューティングによる最適化により、100倍のスピードアップが実証されている。
量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルは様々な領域にまたがって幅広い応用が可能となり、当初は高速リトレーニングに重点を置いていた。
The advent of quantum computing holds the potential to revolutionize various fields by solving complex problems more efficiently than classical computers. Despite this promise, practical quantum advantage is hindered by current hardware limitations, notably the small number of qubits and high noise levels. In this study, we leverage adiabatic quantum computers to optimize Kolmogorov-Arnold Networks, a powerful neural network architecture for representing complex functions with minimal parameters. By modifying the network to use Bezier curves as the basis functions and formulating the optimization problem into a Quadratic Unconstrained Binary Optimization problem, we create a fixed-sized solution space, independent of the number of training samples. This strategy allows for the optimization of an entire neural network in a single training iteration in which, due to order of operations, a majority of the processing is done using a collapsed version of the training dataset. This inherently creates extremely fast training speeds, which are validated experimentally, compared to classical optimizers including Adam, Stochastic Gradient Descent, Adaptive Gradient, and simulated annealing. Additionally, we introduce a novel rapid retraining capability, enabling the network to be retrained with new data without reprocessing old samples, thus enhancing learning efficiency in dynamic environments. Experiments on retraining demonstrate a hundred times speed up using adiabatic quantum computing based optimization compared to that of the gradient descent based optimizers, with theoretical models allowing this speed up to be much larger! Our findings suggest that with further advancements in quantum hardware and algorithm optimization, quantum-optimized machine learning models could have broad applications across various domains, with initial focus on rapid retraining. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-05 |
# 商品検索をライブストリーミングする時空間グラフガイド型マルチモーダルネットワーク
Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval ( http://arxiv.org/abs/2407.16248v3 ) ライセンス: Link先を確認 | Xiaowan Hu, Yiyi Chen, Yan Li, Minquan Wang, Haoqian Wang, Quan Chen, Han Li, Peng Jiang, | (参考訳) 電子商取引の急速な拡大に伴い、より多くの消費者がライブストリーミングによる購入に慣れるようになった。
営業担当者が販売している商品、すなわちライブストリーミング製品検索(LPR)を正確に識別することは、根本的な挑戦である。
LPRタスクは、現実世界のシナリオにおける3つの主要なジレンマを含む。
1) 背景に存在する邪魔品から意図した商品の認識
2 ライブストリームに展示されている商品の外観が店内の標準化商品画像から大きく逸脱することも多いビデオ画像の不均一性
3)店内には微妙な視覚的ニュアンスのある混乱した製品が多数ある。
これらの課題に対処するために、時空間グラフマルチモーダルネットワーク(SGMN)を提案する。
まず、営業担当者の音声コンテンツを活用したテキスト誘導型アテンションメカニズムを用いて、モデルを意図した製品に向け、散らばったバックグラウンド製品に対する彼らのサリエンスを強調する。
第二に、長距離時空間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を実現し、ビデオ画像の不均一性に起因する不整合を解決するために、さらに設計されている。
第3に,マルチモーダルなハードサンプルマイニングを提案し,ビデオ画像テキスト領域にまたがる微細な特徴を持つ非常に類似した製品を識別するモデルを支援する。
定量的および定性的な実験を通じて,提案したSGMNモデルの優れた性能を実証し,最先端の手法を実質的なマージンで上回った。
コードはhttps://github.com/Huxiaowan/SGMN.comで公開されている。
With the rapid expansion of e-commerce, more consumers have become accustomed to making purchases via livestreaming. Accurately identifying the products being sold by salespeople, i.e., livestreaming product retrieval (LPR), poses a fundamental and daunting challenge. The LPR task encompasses three primary dilemmas in real-world scenarios: 1) the recognition of intended products from distractor products present in the background; 2) the video-image heterogeneity that the appearance of products showcased in live streams often deviates substantially from standardized product images in stores; 3) there are numerous confusing products with subtle visual nuances in the shop. To tackle these challenges, we propose the Spatiotemporal Graphing Multi-modal Network (SGMN). First, we employ a text-guided attention mechanism that leverages the spoken content of salespeople to guide the model to focus toward intended products, emphasizing their salience over cluttered background products. Second, a long-range spatiotemporal graph network is further designed to achieve both instance-level interaction and frame-level matching, solving the misalignment caused by video-image heterogeneity. Third, we propose a multi-modal hard example mining, assisting the model in distinguishing highly similar products with fine-grained features across the video-image-text domain. Through extensive quantitative and qualitative experiments, we demonstrate the superior performance of our proposed SGMN model, surpassing the state-of-the-art methods by a substantial margin. The code is available at https://github.com/Huxiaowan/SGMN. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# クォータ相互作用と量子カオスを持つ高調波振動子の3次摂動OTOC
Third-Order Perturbative OTOC of the Harmonic Oscillator with Quartic Interaction and Quantum Chaos ( http://arxiv.org/abs/2407.17500v3 ) ライセンス: Link先を確認 | Wung-Hong Huang, | (参考訳) 本研究では,第2量子化法を用いて,高調波発振器の3次時間外相関器(OTOC)を付加的なクォート相互作用で計算する。
我々は、座標のスペクトル、フォック空間状態、行列要素の分析関係を求め、OTOCを数値的に計算する。
衝突後、OTOCは後に一定の値に飽和し、カオスを示す系における量子カオスの振る舞いと関連することが観察された。
OTOCの早期特性を解析し, カオスを示す指数的成長が3次摂動において明らかであることを示す。
We calculate the third-order out-of-time-order correlator (OTOC) of a simple harmonic oscillator with an additional quartic interaction using the second quantization method. We obtain analytic relations for the spectrum, Fock space states, and matrix elements of the coordinate, which are then used to numerically calculate the OTOC. We observe that, after the scrambling, the OTOC saturates to a constant value at later times, which is associated with quantum chaotic behavior in systems that exhibit chaos. We analyze the early-time properties of OTOC and find that the exponential growth, which indicates chaos, is evident in the third-order perturbation. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# データと知識の組み合わせの力:GPT-4oは肺癌リンパ節転移の予測に機械学習モデルを効果的に解釈する
The Power of Combining Data and Knowledge: GPT-4o is an Effective Interpreter of Machine Learning Models in Predicting Lymph Node Metastasis of Lung Cancer ( http://arxiv.org/abs/2407.17900v4 ) ライセンス: Link先を確認 | Danqing Hu, Bing Liu, Xiaofeng Zhu, Nan Wu, | (参考訳) リンパ節転移 (LNM) は肺癌患者の早期治療を決定する重要な因子であるが, 正確な術前診断は困難である。
近年,大きな言語モデル (LLM) が注目されている。
巨大なコーパスから学んだ広範な医学知識を活用して、LLMは臨床上の問題に対する確率を推定できるが、その性能は歴史的にデータ駆動機械学習モデルよりも劣っている。
本稿では,LNM予測性能を向上させるために,LLMが取得した医療知識と機械学習モデルが同定した潜伏パターンを組み合わせた新しいアンサンブル手法を提案する。
当初,患者データを用いた機械学習モデルを開発した。
次に、患者データを機械学習モデルから予測される確率と統合するプロンプトテンプレートを設計した。
その後,OpenAIが開発した最も先進的なLCMであるGPT-4oに,患者データに基づいてLNMの確率を推定し,機械学習出力を用いて推定を調整するように指示した。
最後に,同じプロンプトを用いてGPT-4oから3つのアウトプットを収集し,これらの結果を最終予測としてアンサンブルした。
提案手法を用いて,LNM予測におけるAUC値0.778,AP値0.426を達成し,ベースライン機械学習モデルと比較して予測性能を著しく向上させた。
実験の結果, GPT-4oは, より正確なLNM予測を実現するために, 機械学習モデルによって予測される医療知識と確率を効果的に活用できることが示唆された。
これらの結果から,LSMは臨床リスク予測タスクにおいて良好に機能し,臨床リスク予測に医療知識と患者データを統合するための新たなパラダイムを提供することが明らかとなった。
Lymph node metastasis (LNM) is a crucial factor in determining the initial treatment for patients with lung cancer, yet accurate preoperative diagnosis of LNM remains challenging. Recently, large language models (LLMs) have garnered significant attention due to their remarkable text generation capabilities. Leveraging the extensive medical knowledge learned from vast corpora, LLMs can estimate probabilities for clinical problems, though their performance has historically been inferior to data-driven machine learning models. In this paper, we propose a novel ensemble method that combines the medical knowledge acquired by LLMs with the latent patterns identified by machine learning models to enhance LNM prediction performance. Initially, we developed machine learning models using patient data. We then designed a prompt template to integrate the patient data with the predicted probability from the machine learning model. Subsequently, we instructed GPT-4o, the most advanced LLM developed by OpenAI, to estimate the likelihood of LNM based on patient data and then adjust the estimate using the machine learning output. Finally, we collected three outputs from the GPT-4o using the same prompt and ensembled these results as the final prediction. Using the proposed method, our models achieved an AUC value of 0.778 and an AP value of 0.426 for LNM prediction, significantly improving predictive performance compared to baseline machine learning models. The experimental results indicate that GPT-4o can effectively leverage its medical knowledge and the probabilities predicted by machine learning models to achieve more accurate LNM predictions. These findings demonstrate that LLMs can perform well in clinical risk prediction tasks, offering a new paradigm for integrating medical knowledge and patient data in clinical predictions. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# ゴールデンコードフィードバックを用いた対話生成のための大規模言語モデル
Large Language Model for Verilog Generation with Golden Code Feedback ( http://arxiv.org/abs/2407.18271v2 ) ライセンス: Link先を確認 | Ning Wang, Bingkun Yao, Jie Zhou, Xi Wang, Zhe Jiang, Nan Guan, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語命令からレジスタ・トランスファー・レベル(RTL)コード、特にVerilogの自動生成に大きな関心を喚起している。
ChatGPTのような商用のLLMがこの領域を支配しているが、オープンソースの代替製品は、この新興技術の柔軟性とデータプライバシを制限して、大幅にパフォーマンスを低下させている。
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
オープンソースデータとベースモデルを活用することで、最先端のSOTA(State-of-the-art)の成果をかなりのマージンで達成しました。
特に、我々の6.7Bパラメータモデル \ours{} は、現在の13Bおよび16Bモデルと比較して優れた性能を示す。
さらに、直接微調整の限界と強化学習の訓練力学を包括的に分析することにより、Verilogのコード固有の並列セマンティクスと整合した包括的な監視信号の開発が、効果的な生成に不可欠であると仮定する。
この研究に関連するコードとデータは、 \url{https://github.com/CatIIIIIIII/veriseek}で公開されている。
モデルウェイトは \url{https://huggingface.co/WANGNingroci/VeriSeek} でアクセスすることができる。
Recent advancements in large language models (LLMs) have catalyzed significant interest in the automatic generation of Register-Transfer Level (RTL) code, particularly Verilog, from natural language instructions. While commercial LLMs like ChatGPT have dominated this domain, open-source alternatives have lagged considerably in performance, limiting the flexibility and data privacy of this emerging technology. This study introduces a novel approach utilizing reinforcement learning with golden code feedback to enhance the performance of pre-trained models. Leveraging open-source data and base models, we have achieved state-of-the-art (SOTA) results with a substantial margin. Notably, our 6.7B parameter model \ours{} demonstrates superior performance compared to current best-in-class 13B and 16B models. Furthermore, through a comprehensive analysis of the limitations in direct fine-tuning and the training dynamics of reinforcement learning, we posit that the development of comprehensive supervisory signals, which are align with the inherent parallel semantics of Verilog code, is critical to effective generation. The code and data associated with this research are publicly available at \url{https://github.com/CatIIIIIIII/veriseek}. The model weights can be accessed at \url{https://huggingface.co/WANGNingroci/VeriSeek}. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# 多対象追跡における知識蒸留による基礎モデルの活用:DINOv2特徴のFairMOTへの蒸留
Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT ( http://arxiv.org/abs/2407.18288v2 ) ライセンス: Link先を確認 | Niels G. Faber, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Nejadasl, | (参考訳) Multi Object Tracking (MOT) はコンピュータビジョンタスクであり、様々な分野に採用されている。
MOTの一般的な制限は、様々なオブジェクトの外観、オクルージョン、または混雑したシーンである。
これらの課題に対処するため、機械学習手法は広範囲にデプロイされ、大規模なデータセット、洗練されたモデル、および相当量の計算資源を活用している。
現実的な制限のため、上記へのアクセスは必ずしもオプションではない。
しかし、著名なAI企業による最近のファンデーションモデルのリリースにより、事前訓練されたモデルは最先端の手法を使用して膨大なデータセットとリソースで訓練されている。
この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。
DINOv2は教師、FairMOTのバックボーンHRNetv2 W18は学生である。
その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。
これらの知見は知識に基礎モデルを適用する可能性と限界を浮き彫りにする。
Multiple Object Tracking (MOT) is a computer vision task that has been employed in a variety of sectors. Some common limitations in MOT are varying object appearances, occlusions, or crowded scenes. To address these challenges, machine learning methods have been extensively deployed, leveraging large datasets, sophisticated models, and substantial computational resources. Due to practical limitations, access to the above is not always an option. However, with the recent release of foundation models by prominent AI companies, pretrained models have been trained on vast datasets and resources using state-of-the-art methods. This work tries to leverage one such foundation model, called DINOv2, through using knowledge distillation. The proposed method uses a teacher-student architecture, where DINOv2 is the teacher and the FairMOT backbone HRNetv2 W18 is the student. The results imply that although the proposed method shows improvements in certain scenarios, it does not consistently outperform the original FairMOT model. These findings highlight the potential and limitations of applying foundation models in knowledge | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# MARINE - 動物ビデオにおける希少な捕食者・捕食者の相互作用を検出するコンピュータビジョンモデル
MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos ( http://arxiv.org/abs/2407.18289v2 ) ライセンス: Link先を確認 | Zsófia Katona, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Nejadasl, | (参考訳) 捕食者と獲物の交尾は生態系において重要な役割を担っているが、その希少性はビデオ記録における検出を困難にしている。
行動認識(AR)と時間的行動検出(AD)の進歩、特にトランスフォーマーベースモデルと視覚基盤モデルは、人間の行動データセット上で高いパフォーマンスを達成しているが、動物ビデオは比較的研究が進んでいない。
この論文は、高速動物行動用に設計されたモーションベースのフレーム選択とDINOv2特徴抽出と、訓練可能な分類ヘッドを用いて行動認識を行うモデルであるMARINEを提案することで、このギャップに対処する。
MARINEは、小さなサンゴ礁のサンゴ礁のデータセット (81.53\%対52.64\%) と、より広範な動物王国のデータセット (94.86\%対83.14\%) のサブセットにおいて、魚の動画における捕食者攻撃の識別において、ビデオMAEを上回っている。
動物王国の代表標本のマルチラベル設定では、MARINEは23.79 % mAPを獲得し、既存のベンチマークの中間に位置する。
さらに、サンゴ礁データセットのADタスクでは、MARINEは80.78 % AP(VideoMAEの34.89 %)を達成しているが、t-IoU閾値は25 %である。
したがって、改善の余地はあるものの、MARINEは、動物記録におけるARおよびADタスクに適用するための効果的なスターターフレームワークを提供し、それによって自然生態系の研究に寄与する。
Encounters between predator and prey play an essential role in ecosystems, but their rarity makes them difficult to detect in video recordings. Although advances in action recognition (AR) and temporal action detection (AD), especially transformer-based models and vision foundation models, have achieved high performance on human action datasets, animal videos remain relatively under-researched. This thesis addresses this gap by proposing the model MARINE, which utilizes motion-based frame selection designed for fast animal actions and DINOv2 feature extraction with a trainable classification head for action recognition. MARINE outperforms VideoMAE in identifying predator attacks in videos of fish, both on a small and specific coral reef dataset (81.53\% against 52.64\% accuracy), and on a subset of the more extensive Animal Kingdom dataset (94.86\% against 83.14\% accuracy). In a multi-label setting on a representative sample of Animal Kingdom, MARINE achieves 23.79\% mAP, positioning it mid-field among existing benchmarks. Furthermore, in an AD task on the coral reef dataset, MARINE achieves 80.78\% AP (against VideoMAE's 34.89\%) although at a lowered t-IoU threshold of 25\%. Therefore, despite room for improvement, MARINE offers an effective starter framework to apply to AR and AD tasks on animal recordings and thus contribute to the study of natural ecosystems. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# 2次元変圧器の蒸留前処理による分岐点分類の高速化
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers ( http://arxiv.org/abs/2407.18534v2 ) ライセンス: Link先を確認 | Longkun Zou, Wanru Zhu, Ke Chen, Lihua Guo, Kailing Guo, Kui Jia, Yaowei Wang, | (参考訳) オブジェクト・ポイント・クラウドのセマンティック・パターンは、その局所的ジオメトリの位相的構成によって決定される。
識別表現の学習は、局所領域における点集合と大域的な視点における不完全曲面の大きな形状変化のために困難であり、非教師なし領域適応(UDA)の文脈でさらに深刻にすることができる。
特定の3Dネットワークでは、主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視し、領域間の一般化を大幅に制限する。
近年、トランスフォーマーベースのモデルでは、ローカルパッチ間の長距離相関をキャプチャすることによる、強力な一般化能力とスケーラビリティの恩恵を受け、画像ベースのタスクにおいて、目覚ましいパフォーマンス向上を実現している。
このような視覚変換器の成功に触発されて,大規模画像上のよく訓練された変換器から関係事前を抽出するRPD(Relational Priors Distillation)法を提案する。
そこで我々は,2次元教師モデルと3次元学生モデルの間で共有されるパラメータフリーズ事前学習トランスフォーマーモジュールを構築し,オンライン知識蒸留戦略を補完し,3次元学生モデルを意味論的に正規化する。
さらに,マスク付き多視点画像特徴を用いたマスク付き点雲パッチの再構築を中心にした,新たな自己教師型タスクを導入する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
この作業のソースコードはhttps://github.com/zou-longkun/RPD.gitで公開されている。
Semantic pattern of an object point cloud is determined by its topological configuration of local geometries. Learning discriminative representations can be challenging due to large shape variations of point sets in local regions and incomplete surface in a global perspective, which can be made even more severe in the context of unsupervised domain adaptation (UDA). In specific, traditional 3D networks mainly focus on local geometric details and ignore the topological structure between local geometries, which greatly limits their cross-domain generalization. Recently, the transformer-based models have achieved impressive performance gain in a range of image-based tasks, benefiting from its strong generalization capability and scalability stemming from capturing long range correlation across local patches. Inspired by such successes of visual transformers, we propose a novel Relational Priors Distillation (RPD) method to extract relational priors from the well-trained transformers on massive images, which can significantly empower cross-domain representations with consistent topological priors of objects. To this end, we establish a parameter-frozen pre-trained transformer module shared between 2D teacher and 3D student models, complemented by an online knowledge distillation strategy for semantically regularizing the 3D student model. Furthermore, we introduce a novel self-supervised task centered on reconstructing masked point cloud patches using corresponding masked multi-view image features, thereby empowering the model with incorporating 3D geometric information. Experiments on the PointDA-10 and the Sim-to-Real datasets verify that the proposed method consistently achieves the state-of-the-art performance of UDA for point cloud classification. The source code of this work is available at https://github.com/zou-longkun/RPD.git. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-05 |
# より現実的:LSMエージェントと個人プロファイルを用いた旅行日記生成
Be More Real: Travel Diary Generation Using LLM Agents and Individual Profiles ( http://arxiv.org/abs/2407.18932v2 ) ライセンス: Link先を確認 | Xuchuan Li, Fei Huang, Jianrong Lv, Zhixiong Xiao, Guolong Li, Yang Yue, | (参考訳) 人間の移動性は交通渋滞、エネルギー消費、公衆衛生といった社会的問題と密接に関連している。
近年,LLMが個人の移動行動の違いを理解し,現実の文脈に適合した現実的な軌跡を生成することが課題となっている。
本研究は,LLMエージェントベースフレームワーク(MobAgent)の理解に基づくモビリティパターン抽出と推論に基づく軌道生成という,異なる個人プロファイルを考慮した都市規模での実際の走行日誌生成を可能にする2つのフェーズを構成することで,この問題に対処する。
MobAgentは、特定のモビリティ傾向と属性の影響の背後にある理由を抽出し、信頼性のあるパターンを提供する; コンテキスト要因とモビリティの基本的な動機との関係を推測する; そしてパターンと再帰的推論プロセスに基づいて、MobAgentは最終的に、個人差と現実の制約の両方を反映した、より本物でパーソナライズされたモビリティを生成する。
当フレームワークを0.2万回の旅行調査データで検証し,個人化された正確な旅行日記を作成する上での有効性を実証した。
本研究は、実世界の移動データを通して、人間の移動性に関する詳細かつ洗練された理解を提供するLLMの能力を強調した。
Human mobility is inextricably linked to social issues such as traffic congestion, energy consumption, and public health; however, privacy concerns restrict access to mobility data. Recently, research have utilized Large Language Models (LLMs) for human mobility generation, in which the challenge is how LLMs can understand individuals' mobility behavioral differences to generate realistic trajectories conforming to real world contexts. This study handles this problem by presenting an LLM agent-based framework (MobAgent) composing two phases: understanding-based mobility pattern extraction and reasoning-based trajectory generation, which enables generate more real travel diaries at urban scale, considering different individual profiles. MobAgent extracts reasons behind specific mobility trendiness and attribute influences to provide reliable patterns; infers the relationships between contextual factors and underlying motivations of mobility; and based on the patterns and the recursive reasoning process, MobAgent finally generates more authentic and personalized mobilities that reflect both individual differences and real-world constraints. We validate our framework with 0.2 million travel survey data, demonstrating its effectiveness in producing personalized and accurate travel diaries. This study highlights the capacity of LLMs to provide detailed and sophisticated understanding of human mobility through the real-world mobility data. | 翻訳日:2024-08-06 19:59:41 公開日:2024-08-05 |
# 都市安全知覚評価の革新化:ストリートビュー画像による多モーダル大言語モデルの統合
Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images ( http://arxiv.org/abs/2407.19719v2 ) ライセンス: Link先を確認 | Jiaxin Zhang, Yunqin Li, Tomohiro Fukuda, Bowen Wang, | (参考訳) 都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。
このプロセスには、広範囲にわたるフィールドサーベイ、手動データ収集、主観的評価が含まれており、時間を要する、コストがかかる、時には矛盾することもある。
ストリートビュー画像(SVI)は、ディープラーニング手法とともに、大規模な都市安全検出を実現する手段を提供する。
しかし、この目標を達成するには、安全ランキングモデルをトレーニングするための広範囲な人的アノテーションが必要であることが多く、都市間の建築的差異は、これらのモデルの転送可能性を妨げる。
したがって,安全性評価を行う完全自動化手法が不可欠である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。
カットエッジモデル、例えば、GPT-4は、多くのタスクにおいて驚くべきパフォーマンスを示している。
これらのモデルを用いて、人間の注釈付きアンカーセット上での安全性評価を行い、MLLMの結果が人間の知覚と密接に一致していることを検証する。
さらに, 都市全体の安全指標を迅速に評価するために, CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
実験の結果,提案手法は既存の学習方法よりも優れており,効率的かつ正確な都市安全評価を実現することができることがわかった。
都市安全認識評価のための自動化は、都市計画者、政策立案者、都市環境改善を目的とした研究者にとって貴重なツールである。
Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-05 |
# 高性能かつエネルギー効率の高い物体検出のための整数値トレーニングとスパイク駆動型推論スパイクニューラルネットワーク
Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection ( http://arxiv.org/abs/2407.20708v3 ) ライセンス: Link先を確認 | Xinhao Luo, Man Yao, Yuhong Chou, Bo Xu, Guoqi Li, | (参考訳) 脳にインスパイアされたスパイキングニューラルネット(SNN)は、ANN(Artificial Neural Networks)に対して、バイオ楽観性と低パワーのアドバンテージを持っている。
SNNの応用は、その性能が劣っているため、現時点では単純な分類タスクに限られている。
本研究では,オブジェクト検出におけるANNとSNNのパフォーマンスギャップを埋めることに焦点を当てる。
私たちの設計はネットワークアーキテクチャとスパイクニューロンを中心に展開しています。
まず、過剰に複雑なモジュール設計は、YOLOシリーズが対応するスパイクバージョンに変換されたときにスパイク劣化を引き起こす。
我々は,バニラYOLOを単純化し,メタSNNブロックを組み込むことで,この問題を解決するためにSpikeYOLOアーキテクチャを設計する。
第二に、物体検出は、スパイクニューロンによる膜電位のバイナリスパイクへの変換における量子化誤差に対してより敏感である。
この課題に対処するために、推論中に仮想タイムステップを拡張してスパイク駆動を維持しながら、トレーニング中にInteger値を活性化する新しいスパイクニューロンを設計する。
提案手法は静的およびニューロモルフィックな物体検出データセットの両方で検証される。
静的COCOデータセットでは、66.2%のmAP@50と48.9%のmAP@50:95が得られる。
ニューロモルフィックなGen1データセットでは67.2%のmAP@50が得られ、これは同等のアーキテクチャを持つANNよりも+2.5%大きく、エネルギー効率は5.7*向上する。
コード:https://github.com/BICLab/SpikeYOLO
Brain-inspired Spiking Neural Networks (SNNs) have bio-plausibility and low-power advantages over Artificial Neural Networks (ANNs). Applications of SNNs are currently limited to simple classification tasks because of their poor performance. In this work, we focus on bridging the performance gap between ANNs and SNNs on object detection. Our design revolves around network architecture and spiking neuron. First, the overly complex module design causes spike degradation when the YOLO series is converted to the corresponding spiking version. We design a SpikeYOLO architecture to solve this problem by simplifying the vanilla YOLO and incorporating meta SNN blocks. Second, object detection is more sensitive to quantization errors in the conversion of membrane potentials into binary spikes by spiking neurons. To address this challenge, we design a new spiking neuron that activates Integer values during training while maintaining spike-driven by extending virtual timesteps during inference. The proposed method is validated on both static and neuromorphic object detection datasets. On the static COCO dataset, we obtain 66.2% mAP@50 and 48.9% mAP@50:95, which is +15.0% and +18.7% higher than the prior state-of-the-art SNN, respectively. On the neuromorphic Gen1 dataset, we achieve 67.2% mAP@50, which is +2.5% greater than the ANN with equivalent architecture, and the energy efficiency is improved by 5.7*. Code: https://github.com/BICLab/SpikeYOLO | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-05 |
# EAR:両平面X線画像からの3次元椎骨構造のエッジアウェア再構成
EAR: Edge-Aware Reconstruction of 3-D vertebrae structures from bi-planar X-ray images ( http://arxiv.org/abs/2407.20937v2 ) ライセンス: Link先を確認 | Lixing Tan, Shuang Song, Yaofeng He, Kangneng Zhou, Tong Lu, Ruoxiu Xiao, | (参考訳) X線画像は、画像の高速化と高解像度化により、診断と治療のプロセスが簡単になる。
しかし、X線画像の投影過程により、多くの空間情報が失われている。
2次元X線画像から脊椎の3次元構造を再構築することが不可欠である、効率的な脊椎形態及び構造情報を高精度に提供すること。
現状の再建法では、非対称の椎骨構造の縁情報と局所的な形状を保存することは困難である。
本研究では,新しいエッジ・アウェア・コンストラクション・ネットワーク(EAR)を提案する。
本稿では,自動エンコーダアーキテクチャをバックボーンとして,エッジアテンションモジュールと周波数拡張モジュールを提案する。
また、再建損失、エッジ損失、周波数損失、投射損失の4つの損失項を組み合わせる。
提案手法は3つの公開データセットを用いて評価し、4つの最先端モデルと比較した。
提案手法は, MSE, MAE, Dice, SSIM, PSNR, 周波数距離に関して, 25.32%, 15.32%, 86.44%, 80.13%, 23.7612, 0.3014 である。
エンドツーエンドで正確な再建プロセスのため、EARは十分な3次元空間情報と正確な手術計画ガイダンスを提供することができる。
X-ray images ease the diagnosis and treatment process due to their rapid imaging speed and high resolution. However, due to the projection process of X-ray imaging, much spatial information has been lost. To accurately provide efficient spinal morphological and structural information, reconstructing the 3-D structures of the spine from the 2-D X-ray images is essential. It is challenging for current reconstruction methods to preserve the edge information and local shapes of the asymmetrical vertebrae structures. In this study, we propose a new Edge-Aware Reconstruction network (EAR) to focus on the performance improvement of the edge information and vertebrae shapes. In our network, by using the auto-encoder architecture as the backbone, the edge attention module and frequency enhancement module are proposed to strengthen the perception of the edge reconstruction. Meanwhile, we also combine four loss terms, including reconstruction loss, edge loss, frequency loss and projection loss. The proposed method is evaluated using three publicly accessible datasets and compared with four state-of-the-art models. The proposed method is superior to other methods and achieves 25.32%, 15.32%, 86.44%, 80.13%, 23.7612 and 0.3014 with regard to MSE, MAE, Dice, SSIM, PSNR and frequency distance. Due to the end-to-end and accurate reconstruction process, EAR can provide sufficient 3-D spatial information and precise preoperative surgical planning guidance. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-05 |
# 線形ポテンシャルを有するタイト結合鎖におけるデファス化支援輸送
Dephasing-assisted transport in a tight-binding chain with a linear potential ( http://arxiv.org/abs/2407.21715v2 ) ライセンス: Link先を確認 | Samuel L. Jacob, Laetitia P. Bettmann, Artur M. Lacerda, Krissia Zawadzki, Stephen R. Clark, John Goold, Juan José Mendoza-Arenas, | (参考訳) 量子システムと相互作用する環境は、局在化に関与する量子効果の抑制を通じて輸送を強化することができる。
本稿では,境界駆動型強結合鎖におけるバルクデファスティングと線形ポテンシャルの相互作用について検討する。
線形ポテンシャルはノイズがないときにワニエ・スタークの局在を誘導し、デフォーカスは傾きがないときに拡散輸送を誘導する。
本研究では, 定常電流の近似式を, 幅広いパラメータの正確な解と密に一致する, 偏差と傾きの両方の関数として導出する。
そこから、ワニエ・スターク局在系におけるブロッホ振動の周期に等しい減圧速度で最大電流が発生することが分かる。
また、チェーンを横切る全電位傾きが一定であることから、電流がシステムサイズの関数として最大値を示すことも見出した。
この結果は, 現状の実験プラットフォームで検証可能であり, 環境支援輸送に関する分析研究の一歩となる。
An environment interacting with a quantum system can enhance transport through the suppression of quantum effects responsible for localization. In this paper, we study the interplay between bulk dephasing and a linear potential in a boundary-driven tight-binding chain. A linear potential induces Wannier-Stark localization in the absence of noise, while dephasing induces diffusive transport in the absence of a tilt. We derive an approximate expression for the steady-state current as a function of both dephasing and tilt which closely matches the exact solution for a wide range of parameters. From it, we find that the maximum current occurs for a dephasing rate equal to the period of Bloch oscillations in the Wannier-Stark localized system. We also find that the current displays a maximum as a function of the system size, provided that the total potential tilt across the chain remains constant. Our results can be verified in current experimental platforms and represents a step forward in analytical studies of environment-assisted transport. | 翻訳日:2024-08-06 19:49:47 公開日:2024-08-05 |
# X.509 ポスト量子暗号に基づく情報セキュリティ認証
X.509 Information Security Certification Based on Post-Quantum Cryptography ( http://arxiv.org/abs/2408.02179v1 ) ライセンス: Link先を確認 | Abel C. H. Chen, | (参考訳) 近年、量子コンピューティングの進歩に伴い、現在のPublic Key Infrastructure(PKI)システムにおける主流の非対称暗号手法が徐々に脅かされている。
そこで本研究では,ポスト量子暗号(PQC)に基づくX.509のセキュリティ証明書を調査し,実装されたソリューションについて議論する。
本研究では、RSAおよび楕円曲線デジタル署名アルゴリズム(ECDSA)を含む主流非対称暗号法と、標準的なPQC法(Falcon、Dilithium、SPHINCS+を含む)を比較し、証明書生成、署名生成、署名検証の効率を比較した。
最後に、X.509セキュリティ証明書のPQCに基づくソリューションの提案を行う。
In recent years, with the advancement of quantum computing, mainstream asymmetric cryptographic methods in the current Public Key Infrastructure (PKI) systems are gradually being threatened. Therefore, this study explores X.509 security certificates based on Post-Quantum Cryptography (PQC) and discusses implemented solutions. This study compares mainstream asymmetric cryptographic methods (including RSA and Elliptic Curve Digital Signature Algorithm (ECDSA)) with standard PQC methods (including Falcon, Dilithium, SPHINCS+), comparing the efficiency of certificate generation, signature generation, and signature verification. Finally, recommendations for a solution based on PQC for X.509 security certificates are proposed. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# AssemAI:製造パイプラインの解釈可能な画像ベース異常検出
AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines ( http://arxiv.org/abs/2408.02181v1 ) ライセンス: Link先を確認 | Renjith Prasad, Chathurangi Shyalika, Ramtin Zand, Fadi El Kalach, Revathy Venkataramanan, Ramy Harik, Amit Sheth, | (参考訳) 製造パイプラインにおける異常検出は、産業環境の複雑さと変動性によって強化され、依然として重要な課題である。
本稿では,スマート製造パイプラインに適した解釈可能な画像ベース異常検出システムAssemAIを紹介する。
我々の主な貢献は、調整済み画像データセットの作成と、製造組立環境における異常検出のために明示的に設計されたカスタムオブジェクト検出モデル、YOLO-FFの開発である。
産業向けロケット組立パイプラインから得られた前処理画像データセットを利用することで、不均衡な画像データの課題に対処し、異常検出における画像ベース手法の重要性を実証する。
提案手法は、データ準備、モデル開発、推論におけるドメイン知識を活用する。
CNNやカスタムVisual Transformer(ViT)モデルなど,いくつかのベースラインと比較し,カスタムデータ作成の有効性と事前学習したCNN統合の有効性を示す。
さらに、ユーザフレンドリな説明のためのオントロジーと、詳細な特徴とモデル解析のためのSCORE-CAMを利用して、ユーザレベルとモデルレベルの両方に説明可能性手法を組み込んだ。
最後に、モデルはリアルタイムでデプロイされる。
本研究の結果は,ベースラインのアブレーション研究を含み,提案システムに対する総合的な評価を提供する。
この研究は、スマート製造プロセスの信頼性と効率を高めるために、高度な画像ベース異常検出の幅広い影響を強調している。
Anomaly detection in manufacturing pipelines remains a critical challenge, intensified by the complexity and variability of industrial environments. This paper introduces AssemAI, an interpretable image-based anomaly detection system tailored for smart manufacturing pipelines. Our primary contributions include the creation of a tailored image dataset and the development of a custom object detection model, YOLO-FF, designed explicitly for anomaly detection in manufacturing assembly environments. Utilizing the preprocessed image dataset derived from an industry-focused rocket assembly pipeline, we address the challenge of imbalanced image data and demonstrate the importance of image-based methods in anomaly detection. The proposed approach leverages domain knowledge in data preparation, model development and reasoning. We compare our method against several baselines, including simple CNN and custom Visual Transformer (ViT) models, showcasing the effectiveness of our custom data preparation and pretrained CNN integration. Additionally, we incorporate explainability techniques at both user and model levels, utilizing ontology for user-friendly explanations and SCORE-CAM for in-depth feature and model analysis. Finally, the model was also deployed in a real-time setting. Our results include ablation studies on the baselines, providing a comprehensive evaluation of the proposed system. This work highlights the broader impact of advanced image-based anomaly detection in enhancing the reliability and efficiency of smart manufacturing processes. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# 画像インポーティング・ローカライゼーションのためのDense Feature Interaction Network
Dense Feature Interaction Network for Image Inpainting Localization ( http://arxiv.org/abs/2408.02191v1 ) ライセンス: Link先を確認 | Ye Yao, Tingfeng Han, Shan Jia, Siwei Lyu, | (参考訳) 画像中の欠落箇所を埋める作業である画像インペインティングは、一般的な画像編集技術である。
画像の悪質な操作において、画像内容の隠蔽や改ざんが可能であるため、画像の塗布検出の研究の必要性が増す。
既存の手法は、主に基本的なエンコーダ・デコーダ構造に依存しており、特に様々な意味論やスケールのターゲットを扱う場合、多くの場合、多くの偽陽性が生じる。
さらに、境界アーティファクトをキャプチャするための効果的なアプローチがないため、エッジローカライゼーションの精度は低下する。
本稿では,Dense Feature Interaction Network (DeFI-Net) に基づく検出手法を提案する。
DeFI-Netは、様々なステージにわたるマルチスケール表現のキャプチャと増幅に、新しい特徴ピラミッドアーキテクチャを使用し、特徴レベルの相互作用をよりよく明らかにすることで、画像のインパインティングの検出を改善する。
さらに、エッジ情報や形状情報を含む低レベルの特徴を適応的に指示することで、高レベルの意味的特徴を統合しつつ、操作された領域の局所化を洗練することができる。
そこで我々は,DeFI-Netを用いて相補表現を組み合わせる手法を開発した。
5つの画像インパインティングデータセットの評価により,多種多様なモデルのインパインティング検出における最先端性能を実現するアプローチの有効性が示された。
Image inpainting, which is the task of filling in missing areas in an image, is a common image editing technique. Inpainting can be used to conceal or alter image contents in malicious manipulation of images, driving the need for research in image inpainting detection. Existing methods mostly rely on a basic encoder-decoder structure, which often results in a high number of false positives or misses the inpainted regions, especially when dealing with targets of varying semantics and scales. Additionally, the absence of an effective approach to capture boundary artifacts leads to less accurate edge localization. In this paper, we describe a new method for inpainting detection based on a Dense Feature Interaction Network (DeFI-Net). DeFI-Net uses a novel feature pyramid architecture to capture and amplify multi-scale representations across various stages, thereby improving the detection of image inpainting by better revealing feature-level interactions. Additionally, the network can adaptively direct the lower-level features, which carry edge and shape information, to refine the localization of manipulated regions while integrating the higher-level semantic features. Using DeFI-Net, we develop a method combining complementary representations to accurately identify inpainted areas. Evaluation on five image inpainting datasets demonstrate the effectiveness of our approach, which achieves state-of-the-art performance in detecting inpainting across diverse models. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# 教師なしドメイン適応ハラスメントビジョンランゲージ事前学習
Unsupervised Domain Adaption Harnessing Vision-Language Pre-training ( http://arxiv.org/abs/2408.02192v1 ) ライセンス: Link先を確認 | Wenlve Zhou, Zhiheng Zhou, | (参考訳) 本稿では,Unsupervised Domain Adaptation(UDA)における2つの重要な課題について,ビジョンランゲージ事前学習(VLP)モデルのパワーを活用することに焦点を当てた。
第一に、UDAは主にImageNetの事前訓練モデルに依存している。
しかし、UDAにおけるVLPモデルの可能性はほとんど未解明のままである。
VLPモデルの豊かな表現は、UDAタスクの強化に大きく貢献する。
そこで本研究では,教師モデルとしてVLPモデルを活用して,対象領域における学習プロセスを指導し,最先端のパフォーマンスを実現する,Cross-Modal Knowledge Distillation (CMKD) という新しい手法を提案する。
第2に、現在のUDAパラダイムでは、各タスクごとに別々のモデルをトレーニングすることで、転送タスクの数が増加するにつれて、大きなストレージオーバーヘッドと非現実的なモデルデプロイメントが発生します。
この課題を克服するために、我々は、VLPモデルパラメータの最小調整(約0.1\%$\sim$0.5\%)を必要とする、VLPの広範な事前トレーニングによる利点を生かしたResidual Sparse Training (RST)を導入する。
CMKDとRTTを組み合わせることで、UDAタスクのVLPモデルを効果的に活用し、モデル展開のストレージオーバーヘッドを低減できる包括的ソリューションを提案する。
さらに、CMKDはFixMatchのような他のメソッドとともにベースラインとして機能し、UDAのパフォーマンスを向上させることができる。
提案手法は,従来のベンチマーク手法よりも優れている。
私たちのコードは、https://github.com/Wenlve-Zhou/VLP-UDA.comで公開されます。
This paper addresses two vital challenges in Unsupervised Domain Adaptation (UDA) with a focus on harnessing the power of Vision-Language Pre-training (VLP) models. Firstly, UDA has primarily relied on ImageNet pre-trained models. However, the potential of VLP models in UDA remains largely unexplored. The rich representation of VLP models holds significant promise for enhancing UDA tasks. To address this, we propose a novel method called Cross-Modal Knowledge Distillation (CMKD), leveraging VLP models as teacher models to guide the learning process in the target domain, resulting in state-of-the-art performance. Secondly, current UDA paradigms involve training separate models for each task, leading to significant storage overhead and impractical model deployment as the number of transfer tasks grows. To overcome this challenge, we introduce Residual Sparse Training (RST) exploiting the benefits conferred by VLP's extensive pre-training, a technique that requires minimal adjustment (approximately 0.1\%$\sim$0.5\%) of VLP model parameters to achieve performance comparable to fine-tuning. Combining CMKD and RST, we present a comprehensive solution that effectively leverages VLP models for UDA tasks while reducing storage overhead for model deployment. Furthermore, CMKD can serve as a baseline in conjunction with other methods like FixMatch, enhancing the performance of UDA. Our proposed method outperforms existing techniques on standard benchmarks. Our code will be available at: https://github.com/Wenlve-Zhou/VLP-UDA. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# CodeACT: コードLLMのためのコード適応型コンピュータ効率チューニングフレームワーク
CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs ( http://arxiv.org/abs/2408.02193v1 ) ライセンス: Link先を確認 | Weijie Lv, Xuan Xia, Sheng-Jun Huang, | (参考訳) 大規模言語モデル(LLM)は、コード関連のタスクにおいて大きな可能性を示していますが、オープンソースモデルは、クローズドソースモデルよりも遅れています。
この性能ギャップを埋めるために、既存の手法は微調整のための膨大な量の合成データを生成し、訓練の効率を損なう。
より効果的で効率的なトレーニングの必要性から、私たちはCode Adaptive Compute- efficient Tuning (CodeACT)フレームワークを提案します。
CodeACTでは、複雑さと多様性に基づいて高品質なトレーニングデータを選択するCDAS法と、トレーニング中にパディングトークンを最小化して計算リソースの使用量を削減するDynamic Packパディング戦略を導入している。
CodeACT-DeepSeek-Coder-6.7BはEVOL-Instructデータの40%のみを微調整し、HumanEvalの8.6%のパフォーマンス向上、トレーニング時間の78%削減、GPUメモリのピーク使用量の27%削減を実現している。
これらの知見は、オープンソースモデルの性能と効率を高めるCodeACTの能力を裏付けるものである。
データ選択とトレーニングプロセスの両方を最適化することにより、CodeACTは、計算要求を大幅に削減し、データ品質とトレーニング効率の2つの課題に対処し、よりリソース効率が高くパフォーマンスの高いモデルへの道を開くとともに、オープンソースのLLMの能力を改善するための包括的なアプローチを提供する。
Large language models (LLMs) have shown great potential in code-related tasks, yet open-source models lag behind their closed-source counterparts. To bridge this performance gap, existing methods generate vast amounts of synthetic data for fine-tuning, leading to inefficiencies in training. Motivated by the need for more effective and efficient training, we propose the Code Adaptive Compute-efficient Tuning (CodeACT) framework. CodeACT introduces the Complexity and Diversity Aware Sampling (CDAS) method to select high-quality training data based on complexity and diversity, and the Dynamic Pack padding strategy to reduce computational resource usage by minimizing padding tokens during training. Experimental results demonstrate that CodeACT-DeepSeek-Coder-6.7B, fine-tuned on only 40% of the EVOL-Instruct data, achieves an 8.6% performance increase on HumanEval, reduces training time by 78%, and decreases peak GPU memory usage by 27%. These findings underscore CodeACT's ability to enhance the performance and efficiency of open-source models. By optimizing both the data selection and training processes, CodeACT offers a comprehensive approach to improving the capabilities of open-source LLMs while significantly reducing computational requirements, addressing the dual challenges of data quality and training efficiency, and paving the way for more resource-efficient and performant models. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# 効率的なPDE問題解決のためのマルチタスクDeepONetを用いたシナジスティック学習
Synergistic Learning with Multi-Task DeepONet for Efficient PDE Problem Solving ( http://arxiv.org/abs/2408.02198v1 ) ライセンス: Link先を確認 | Varun Kumar, Somdatta Goswami, Katiana Kontolati, Michael D. Shields, George Em Karniadakis, | (参考訳) マルチタスク学習(MTL)は、複数のタスクから有用な情報を活用し、単一タスク学習と比較して一般化性能を向上させるために設計された帰納的伝達機構である。
従来の機械学習において、データの分散性やニューラルネットワークの過度な適合といった問題に対処するために、広く研究されてきた。
本研究では, 偏微分方程式(PDE)によって支配される科学と工学の問題に対して, MTLを適用した。
しかし、様々な物理プロセスを表す様々なシナリオに対応するためにタスク固有の修正を必要とするため、この文脈でのMTLの実装は複雑である。
そこで本稿では,PDEと複数のジオメトリを同時学習するマルチタスク深層演算ネットワーク(MT-DeepONet)を提案する。
PDEにおけるパラメータ化係数の様々な機能形式を考慮したバニラDeepONetの分岐ネットワークの変更を提案する。
さらに、分岐ネットワークに二項マスクを導入し、損失項に組み込んでパラメータ化されたジオメトリを扱い、新しい幾何学タスクへの収束と一般化を改善する。
提案手法は,(1)フィッシャー方程式の基底項の異なる関数形式を学習すること,(2)2次元ダーシー流問題における複数の測地を学習すること,(3)熱伝達問題に対する3次元パラメータ化された測地を学習すること,および新しいが類似した測地を予測できること,の3つのベンチマーク問題に対して実証された。
我々のMT-DeepONetフレームワークは、ニューラル演算子の全体的なトレーニングコストを低減するためのシナジスティック学習に基づいて、統一された傘の下で、エンジニアリングと科学におけるPDE問題を解決する新しいアプローチを提供する。
Multi-task learning (MTL) is an inductive transfer mechanism designed to leverage useful information from multiple tasks to improve generalization performance compared to single-task learning. It has been extensively explored in traditional machine learning to address issues such as data sparsity and overfitting in neural networks. In this work, we apply MTL to problems in science and engineering governed by partial differential equations (PDEs). However, implementing MTL in this context is complex, as it requires task-specific modifications to accommodate various scenarios representing different physical processes. To this end, we present a multi-task deep operator network (MT-DeepONet) to learn solutions across various functional forms of source terms in a PDE and multiple geometries in a single concurrent training session. We introduce modifications in the branch network of the vanilla DeepONet to account for various functional forms of a parameterized coefficient in a PDE. Additionally, we handle parameterized geometries by introducing a binary mask in the branch network and incorporating it into the loss term to improve convergence and generalization to new geometry tasks. Our approach is demonstrated on three benchmark problems: (1) learning different functional forms of the source term in the Fisher equation; (2) learning multiple geometries in a 2D Darcy Flow problem and showcasing better transfer learning capabilities to new geometries; and (3) learning 3D parameterized geometries for a heat transfer problem and demonstrate the ability to predict on new but similar geometries. Our MT-DeepONet framework offers a novel approach to solving PDE problems in engineering and science under a unified umbrella based on synergistic learning that reduces the overall training cost for neural operators. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# SDGマッピングのための大規模言語モデルの性能評価(技術報告)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) ( http://arxiv.org/abs/2408.02201v1 ) ライセンス: Link先を確認 | Hui Yin, Amir Aryani, Nakul Nambiar, | (参考訳) 大規模言語モデル(LLM)の利用は急速に拡大しており、オープンソースバージョンが利用可能になり、より安全で適応可能な選択肢が提供されている。
これらのモデルは、サードパーティにデータを提供する必要をなくすことで、データのプライバシを保護し、特定のタスクのためにカスタマイズすることができる。
本研究では,GPT-4oの出力をベースラインとして,サステナブル開発目標(SDG)マッピングタスクにおける各種言語モデルの性能を比較した。
比較のために選択されたオープンソースモデルは、Mixtral、LLaMA 2、LLaMA 3、Gemma、Qwen2である。
さらに、GPT-4o-miniは、GPT-4oのより特殊なバージョンであり、比較を拡張するために含まれていた。
SDGマッピングタスクのマルチラベル性を考慮して、F1スコア、精度、リコールなどの指標を用いて、モデルの性能の異なる側面を評価する。
これらの指標は、総合的な評価を保証するために、混乱行列から導かれる。
本稿では、F1スコア、精度、リコールに基づく曲線を異なる閾値でプロットすることで、各モデルの性能の明確化と解析を行う。
この実験の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
他の4つのモデルではパフォーマンスに大きな違いはない。
全7モデルからの出力はZenodoで入手できる: https://doi.org/10.5281/zenodo.12789375。
The use of large language models (LLMs) is expanding rapidly, and open-source versions are becoming available, offering users safer and more adaptable options. These models enable users to protect data privacy by eliminating the need to provide data to third parties and can be customized for specific tasks. In this study, we compare the performance of various language models on the Sustainable Development Goal (SDG) mapping task, using the output of GPT-4o as the baseline. The selected open-source models for comparison include Mixtral, LLaMA 2, LLaMA 3, Gemma, and Qwen2. Additionally, GPT-4o-mini, a more specialized version of GPT-4o, was included to extend the comparison. Given the multi-label nature of the SDG mapping task, we employed metrics such as F1 score, precision, and recall with micro-averaging to evaluate different aspects of the models' performance. These metrics are derived from the confusion matrix to ensure a comprehensive evaluation. We provide a clear observation and analysis of each model's performance by plotting curves based on F1 score, precision, and recall at different thresholds. According to the results of this experiment, LLaMA 2 and Gemma still have significant room for improvement. The other four models do not exhibit particularly large differences in performance. The outputs from all seven models are available on Zenodo: https://doi.org/10.5281/zenodo.12789375. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# AIセーフティ・バイ・デザインに向けて:基礎モデルに基づくシステムにおける実行時ガードレールの分類
Towards AI-Safety-by-Design: A Taxonomy of Runtime Guardrails in Foundation Model based Systems ( http://arxiv.org/abs/2408.02205v1 ) ライセンス: Link先を確認 | Md Shamsujjoha, Qinghua Lu, Dehai Zhao, Liming Zhu, | (参考訳) ファンデーションモデル(FM)ベースのシステムの急速な進歩と広範な展開は、様々な領域にまたがる多くの応用に革命をもたらした。
しかし、急速に成長する能力と自律性もまた、AIとAIの安全性に対する重大な懸念を引き起こしている。
近年,FMベースのシステムの動作が安全かつ責任を負うことを保証するためのガードレールの実装に注目が集まっている。
FMの初期段階とその応用(エージェントなど)を考えると、ガードレールの設計はまだ体系的に研究されていない。
ガードレールを設計する際にどのソフトウェア品質を考慮するべきか、そしてこれらの品質がソフトウェアアーキテクチャの観点からどのように確保されるかは、まだ解明されていない。
そこで本稿では,ガードレールの特徴と設計の選択肢を分類し,比較するために,ガードレールの分類法を提案する。
私たちの分類学は、ランタイムガードレールの採用の背後にあるモチベーション、考慮すべき品質特性、利用可能な設計オプションの3つの主要なカテゴリに分類されます。
この分類法は、ガードレールを設計する際に建築設計決定を行うための構造的かつ具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。
The rapid advancement and widespread deployment of foundation model (FM) based systems have revolutionized numerous applications across various domains. However, the fast-growing capabilities and autonomy have also raised significant concerns about responsible AI and AI safety. Recently, there have been increasing attention toward implementing guardrails to ensure the runtime behavior of FM-based systems is safe and responsible. Given the early stage of FMs and their applications (such as agents), the design of guardrails have not yet been systematically studied. It remains underexplored which software qualities should be considered when designing guardrails and how these qualities can be ensured from a software architecture perspective. Therefore, in this paper, we present a taxonomy for guardrails to classify and compare the characteristics and design options of guardrails. Our taxonomy is organized into three main categories: the motivation behind adopting runtime guardrails, the quality attributes to consider, and the design options available. This taxonomy provides structured and concrete guidance for making architectural design decisions when designing guardrails and highlights trade-offs arising from the design decisions. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# MARCO:コンビネーション最適化のためのメモリ拡張強化フレームワーク
MARCO: A Memory-Augmented Reinforcement Framework for Combinatorial Optimization ( http://arxiv.org/abs/2408.02207v1 ) ライセンス: Link先を確認 | Andoni I. Garmendia, Quentin Cappart, Josu Ceberio, Alexander Mendiburu, | (参考訳) Neural Combinatorial Optimization(NCO)は、独立的な解決手段として組合せ最適化問題に対処するためにディープラーニング技術を採用する新興ドメインである。
その可能性にもかかわらず、既存のNCO法は、しばしば非効率な探索空間の探索に悩まされ、しばしば局所的な最適侵入や、以前に訪れた州の冗長な探査につながる。
本稿では, メモリモジュールによるNCOの構成的および改善手法の強化に使用可能な, メモリ拡張型組合せ最適化(MARCO)と呼ばれる多機能フレームワークを提案する。
MARCOは最適化軌道全体を通して収集されたデータを格納し、各状態におけるコンテキスト関連情報を検索する。
このようにして、検索は2つの競合する基準によって導かれる: ソリューションの品質の観点から最良の決定をし、既に探索されたソリューションを再考するのを避ける。
このアプローチは、利用可能な最適化予算をより効率的に活用する。
さらに、NCOモデルの並列性により、複数の検索スレッドが同時に動作し、すべて同じメモリモジュールを共有することにより、効率的な協調探索が可能になる。
最大カット,最大独立セット,トラベリングセールスマン問題に基づく実証評価により,メモリモジュールが探索を効果的に増加させ,多種多様な高品質のソリューションを発見することができることを示した。
MARCOは計算コストが低く、NCO分野において有望な新たな方向性を確立する。
Neural Combinatorial Optimization (NCO) is an emerging domain where deep learning techniques are employed to address combinatorial optimization problems as a standalone solver. Despite their potential, existing NCO methods often suffer from inefficient search space exploration, frequently leading to local optima entrapment or redundant exploration of previously visited states. This paper introduces a versatile framework, referred to as Memory-Augmented Reinforcement for Combinatorial Optimization (MARCO), that can be used to enhance both constructive and improvement methods in NCO through an innovative memory module. MARCO stores data collected throughout the optimization trajectory and retrieves contextually relevant information at each state. This way, the search is guided by two competing criteria: making the best decision in terms of the quality of the solution and avoiding revisiting already explored solutions. This approach promotes a more efficient use of the available optimization budget. Moreover, thanks to the parallel nature of NCO models, several search threads can run simultaneously, all sharing the same memory module, enabling an efficient collaborative exploration. Empirical evaluations, carried out on the maximum cut, maximum independent set and travelling salesman problems, reveal that the memory module effectively increases the exploration, enabling the model to discover diverse, higher-quality solutions. MARCO achieves good performance in a low computational cost, establishing a promising new direction in the field of NCO. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# 予測関連オンライン学習によるマルチレベル交通応答型ティルトカメラサーベイランス
Multi-level Traffic-Responsive Tilt Camera Surveillance through Predictive Correlated Online Learning ( http://arxiv.org/abs/2408.02208v1 ) ライセンス: Link先を確認 | Tao Li, Zilin Bian, Haozhe Lei, Fan Zuo, Ya-Ting Yang, Quanyan Zhu, Zhenning Li, Kaan Ozbay, | (参考訳) 都市交通管理において、交通状況を動的かつ効率的に監視する主な課題は、インテリジェント交通システムに沿った数千台の監視カメラの不十分な利用によって複雑化されている。
本稿では,都市ネットワークにおける交通の動的かつ効率的な監視・管理を目的とした,マルチレベル交通応答型Tilt Camera監視システム(TTC-X)について紹介する。
広く配備されているパンチルトカメラ(PTC)を活用することで、TTC-Xは従来の監視システムにおける固定視野の限界を克服する。
TTC-Xのイノベーションは、検出器・予測器・コントローラ構造を含む高度な機械学習モジュールと、新しい予測関連オンライン学習(PiCOL)方法論、リアルタイムトラフィック推定とPTC制御のための空間時間グラフ予測器(STGP)との統合にある。
TTC-Xは、ブルックリンの現実の交通データを用いて調整されたシミュレーション環境に基づいて、3つの実験シナリオ(例えば、最大トラフィックフローキャプチャー、動的経路計画、交通状態推定)でテストされ、評価される。
実験の結果,TTC-Xはネットワークレベルでの総車両数60\%以上を捕捉し,予期せぬ全車線閉鎖イベントに対する経路勧告を動的に調整し,リンクレベル交通状態を1.25時間以下で再構築した。
スケーラビリティ、コスト効率、適応性を示すTTC-Xは、サイバー物理環境と現実世界環境の両方において、都市交通管理のための強力なソリューションとして現れます。
In urban traffic management, the primary challenge of dynamically and efficiently monitoring traffic conditions is compounded by the insufficient utilization of thousands of surveillance cameras along the intelligent transportation system. This paper introduces the multi-level Traffic-responsive Tilt Camera surveillance system (TTC-X), a novel framework designed for dynamic and efficient monitoring and management of traffic in urban networks. By leveraging widely deployed pan-tilt-cameras (PTCs), TTC-X overcomes the limitations of a fixed field of view in traditional surveillance systems by providing mobilized and 360-degree coverage. The innovation of TTC-X lies in the integration of advanced machine learning modules, including a detector-predictor-controller structure, with a novel Predictive Correlated Online Learning (PiCOL) methodology and the Spatial-Temporal Graph Predictor (STGP) for real-time traffic estimation and PTC control. The TTC-X is tested and evaluated under three experimental scenarios (e.g., maximum traffic flow capture, dynamic route planning, traffic state estimation) based on a simulation environment calibrated using real-world traffic data in Brooklyn, New York. The experimental results showed that TTC-X captured over 60\% total number of vehicles at the network level, dynamically adjusted its route recommendation in reaction to unexpected full-lane closure events, and reconstructed link-level traffic states with best MAE less than 1.25 vehicle/hour. Demonstrating scalability, cost-efficiency, and adaptability, TTC-X emerges as a powerful solution for urban traffic management in both cyber-physical and real-world environments. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# ソースフリードメイン不変性能予測
Source-Free Domain-Invariant Performance Prediction ( http://arxiv.org/abs/2408.02209v1 ) ライセンス: Link先を確認 | Ekaterina Khramtsova, Mahsa Baktashmotlagh, Guido Zuccon, Xi Wang, Mathieu Salzmann, | (参考訳) 特にソースとターゲットドメインが異なるデータ分散に従うシナリオでは、モデルのパフォーマンスを正確に見積もることが大きな課題となる。
既存のパフォーマンス予測手法の多くは、推定プロセスのソースデータに大きく依存しており、トレーニングされたモデルのみがアクセス可能なより現実的な環境での適用性を制限する。
ソースデータを必要としない数少ない方法は、かなり性能が劣っている。
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
我々は,非教師なしキャリブレーションと温度スケーリングの連携を確立する。
次に、偏差予測の正しさを評価するために勾配に基づく戦略を用いる。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
さらに,提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
Accurately estimating model performance poses a significant challenge, particularly in scenarios where the source and target domains follow different data distributions. Most existing performance prediction methods heavily rely on the source data in their estimation process, limiting their applicability in a more realistic setting where only the trained model is accessible. The few methods that do not require source data exhibit considerably inferior performance. In this work, we propose a source-free approach centred on uncertainty-based estimation, using a generative model for calibration in the absence of source data. We establish connections between our approach for unsupervised calibration and temperature scaling. We then employ a gradient-based strategy to evaluate the correctness of the calibrated predictions. Our experiments on benchmark object recognition datasets reveal that existing source-based methods fall short with limited source sample availability. Furthermore, our approach significantly outperforms the current state-of-the-art source-free and source-based methods, affirming its effectiveness in domain-invariant performance estimation. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# ExoViP: 合成視覚推論のためのExoskeletonモジュールによるステップバイステップ検証と探索
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning ( http://arxiv.org/abs/2408.02210v1 ) ライセンス: Link先を確認 | Yuxuan Wang, Alan Yuille, Zhuowan Li, Zilong Zheng, | (参考訳) 複雑なクエリを実行可能な視覚タスクの構造化構成に変換する構成的視覚推論法は、複雑なマルチモーダルタスクにおいて強力な可能性を示している。
大規模言語モデル(LLM)の最近の進歩を生かしたこのマルチモーダルな挑戦は、LLMを少数のショット/ゼロショットプランナー、すなわちビジョン言語(VL)プログラミングとして扱うことで、新しいステージへと持ち込まれた。
このような手法は、多くの利点にもかかわらず、LCMの計画ミスや視覚的実行モジュールの不正確さによる課題に悩まされ、非構成モデルに遅れを取っている。
本研究では,イントロスペクティブ検証により,計画段階と実行段階の誤りを補正する「プラグ・アンド・プレイ」手法「ExoViP」を考案した。
我々は、現在のVLプログラミングスキームを強化するために、検証モジュールを"exoskeletons"として採用する。
具体的には、3つのサブ検証器を混合して各推論ステップの後に予測を検証し、その後、視覚モジュールの予測を校正し、LLMが計画する推論トレースを精査する。
2つの代表的なVLプログラミング手法の実験結果は、標準ベンチマーク上の5つの構成的推論タスクに対して一貫した改善を示す。
これを踏まえて、ExoViPは、オープンドメインのマルチモーダル課題において、より良いパフォーマンスと一般化を促進することができると信じています。
Compositional visual reasoning methods, which translate a complex query into a structured composition of feasible visual tasks, have exhibited a strong potential in complicated multi-modal tasks. Empowered by recent advances in large language models (LLMs), this multi-modal challenge has been brought to a new stage by treating LLMs as few-shot/zero-shot planners, i.e., vision-language (VL) programming. Such methods, despite their numerous merits, suffer from challenges due to LLM planning mistakes or inaccuracy of visual execution modules, lagging behind the non-compositional models. In this work, we devise a "plug-and-play" method, ExoViP, to correct errors in both the planning and execution stages through introspective verification. We employ verification modules as "exoskeletons" to enhance current VL programming schemes. Specifically, our proposed verification module utilizes a mixture of three sub-verifiers to validate predictions after each reasoning step, subsequently calibrating the visual module predictions and refining the reasoning trace planned by LLMs. Experimental results on two representative VL programming methods showcase consistent improvements on five compositional reasoning tasks on standard benchmarks. In light of this, we believe that ExoViP can foster better performance and generalization on open-domain multi-modal challenges. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-05 |
# データベースノブチューニングにおける大規模言語モデルは良いか? 総合的な実験的評価
Is Large Language Model Good at Database Knob Tuning? A Comprehensive Experimental Evaluation ( http://arxiv.org/abs/2408.02213v1 ) ライセンス: Link先を確認 | Yiyan Li, Haoyang Li, Zhao Pu, Jing Zhang, Xinyi Zhang, Tao Ji, Luming Sun, Cuiping Li, Hong Chen, | (参考訳) ノブチューニングは、データベースのパフォーマンスを向上させるためにノブを調整することで、データベースの最適化において重要な役割を果たす。
しかし、従来のチューニング手法は、しばしばTry-Collect-Adjustアプローチに従い、非効率性とデータベース固有のことを証明している。
さらに、これらの手法はしばしば不透明であり、DBAが根底にある意思決定プロセスを理解することは困難である。
GPT-4やClaude-3のような大規模言語モデル(LLM)の出現は、複雑な自然言語処理に優れてきたが、データベースノブチューニングにおけるその可能性はほとんど解明されていない。
本研究は,knob-tuningタスクにおける経験的DBAとしてのLLMを,慎重に設計したプロンプトで活用する。
チューニングシステムにおける3つの重要なサブタスクを識別する: knob プルーニング、モデル初期化、および knob レコメンデーションであり、各サブタスクに対する従来の方法を置き換える LLM 駆動のソリューションを提案する。
本研究は,LLM による従来の手法との比較実験を行い,knob チューニング領域における LLM の有効性を評価する。
さらに、新しいベンチマーク、データベースエンジン、ハードウェア環境を含む様々な評価設定におけるLCMベースのソリューションの適用性についても検討する。
以上の結果から,LLMは従来の手法と一致するか,超越しているだけでなく,コヒーレントな<chain-of-thinkt'の方法で応答を発生させることによって,顕著な解釈可能性を示すことが明らかとなった。
さらに、簡単なプロンプト調整によってLCMが顕著な一般化性を示し、追加のトレーニングや広範囲なコード修正の必要性を排除していることを観察する。
実験結果から洞察を得た結果,データベース管理の領域におけるLCMの利用促進を目的とした今後の研究の機会を明らかにした。
Knob tuning plays a crucial role in optimizing databases by adjusting knobs to enhance database performance. However, traditional tuning methods often follow a Try-Collect-Adjust approach, proving inefficient and database-specific. Moreover, these methods are often opaque, making it challenging for DBAs to grasp the underlying decision-making process. The emergence of large language models (LLMs) like GPT-4 and Claude-3 has excelled in complex natural language tasks, yet their potential in database knob tuning remains largely unexplored. This study harnesses LLMs as experienced DBAs for knob-tuning tasks with carefully designed prompts. We identify three key subtasks in the tuning system: knob pruning, model initialization, and knob recommendation, proposing LLM-driven solutions to replace conventional methods for each subtask. We conduct extensive experiments to compare LLM-driven approaches against traditional methods across the subtasks to evaluate LLMs' efficacy in the knob tuning domain. Furthermore, we explore the adaptability of LLM-based solutions in diverse evaluation settings, encompassing new benchmarks, database engines, and hardware environments. Our findings reveal that LLMs not only match or surpass traditional methods but also exhibit notable interpretability by generating responses in a coherent ``chain-of-thought'' manner. We further observe that LLMs exhibit remarkable generalizability through simple adjustments in prompts, eliminating the necessity for additional training or extensive code modifications. Drawing insights from our experimental findings, we identify several opportunities for future research aimed at advancing the utilization of LLMs in the realm of database management. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 肯定的・否定的以上の:医療診断における微粒化のコミュニケーション
More Than Positive and Negative: Communicating Fine Granularity in Medical Diagnosis ( http://arxiv.org/abs/2408.02214v1 ) ライセンス: Link先を確認 | Xiangyu Peng, Kai Wang, Jianfei Yang, Yingying Zhu, Yang You, | (参考訳) ディープラーニングの進歩により、自動チェストX線分析(CXR)のための強力な人工知能(AI)システムの構築に多くの進歩があった。
既存のAIモデルは、正と負のケースを区別するために、バイナリ分類器として訓練されている。
しかし、単純なバイナリ設定と複雑な現実世界の医療シナリオの間には大きなギャップがある。
本研究では,自動放射線診断の問題点を再考する。
まず、正のクラス内のケースにはかなりの多様性があることを観察し、これは単にそれらが多くの重要な詳細を失う正のものとして分類することを意味する。
これは、人間の専門家のような医療画像からきめ細かい知識を伝達できるAIモデルを構築する動機となります。
そこで我々はまず,医用画像からの微粒度学習に関する新しいベンチマークを提案する。
具体的には,医学的知識に基づく分類法を考案し,正の症例を非典型的陽性と典型的陽性の2つのサブカテゴリに分けた。
次に,2つのサブカテゴリに対して,AUC$^\text{FG}$と呼ばれる新しい計量を提案し,それらを分離する能力を評価する。
提案したベンチマークでは、医療画像からより細かい粒度を学習できるAI診断システムの開発をコミュニティに奨励している。
最後に、トレーニングにおいて粗いラベルのみを用いることで、この問題に対する簡単なリスク変調手法を提案する。
実験の結果,提案手法は単純さにもかかわらず優れた性能を示し,強力なベースラインとして機能することがわかった。
With the advance of deep learning, much progress has been made in building powerful artificial intelligence (AI) systems for automatic Chest X-ray (CXR) analysis. Most existing AI models are trained to be a binary classifier with the aim of distinguishing positive and negative cases. However, a large gap exists between the simple binary setting and complicated real-world medical scenarios. In this work, we reinvestigate the problem of automatic radiology diagnosis. We first observe that there is considerable diversity among cases within the positive class, which means simply classifying them as positive loses many important details. This motivates us to build AI models that can communicate fine-grained knowledge from medical images like human experts. To this end, we first propose a new benchmark on fine granularity learning from medical images. Specifically, we devise a division rule based on medical knowledge to divide positive cases into two subcategories, namely atypical positive and typical positive. Then, we propose a new metric termed AUC$^\text{FG}$ on the two subcategories for evaluation of the ability to separate them apart. With the proposed benchmark, we encourage the community to develop AI diagnosis systems that could better learn fine granularity from medical images. Last, we propose a simple risk modulation approach to this problem by only using coarse labels in training. Empirical results show that despite its simplicity, the proposed method achieves superior performance and thus serves as a strong baseline. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 開環反応の高次高調波発生
High-order harmonic generation probing of a ring-opening reaction ( http://arxiv.org/abs/2408.02216v1 ) ライセンス: Link先を確認 | Lauren Bauerle, Agnieszka Jaron, | (参考訳) 分子系の非線形非摂動応答を時間依存性密度汎関数理論(TDDFT)を用いて光異性化反応について検討した。
1,3-シクロヘキサジエン光異性化は、超短パルスフェムト秒強レーザーパルスによって誘導される高調波発生(HHG)過程によって探索される。
長寿命または安定な異性体それぞれに対して、HHGスペクトルとHHG楕円性および多光子イオン化の結果を示す。
さらに,レーザー誘起電子励起を計算し,HHGスペクトルに対する励起の影響について考察した。
本研究では, HHG応答の特異な変化を追跡することにより, 異性体の超高速検出に使用できる異性体の非線形応答の特性について述べる。
Using Time-Dependent Density Functional Theory (TDDFT) nonlinear nonperturbative response of the molecular system is studied for photoisomerization reaction. The 1,3-cyclohexadiene photoisomerization is probed by the high-harmonic generation (HHG) process induced by the ultrashort few femtosecond intense laser pulse. For each of the long-lived or stable isomers, we present results for HHG spectra and HHG ellipticities, as well as multi-photon ionization. Moreover, the laser-induced electronic excitations are calculated and the effect of excitations on HHG spectra is discussed. We describe the characteristic properties of the nonlinear response for each of the isomers that can be used for ultrafast detection of the isomers by tracking the specific changes in HHG response. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 米国作物保険の温暖化による損失確率の2倍化:時空間予測と政策対応の可能性
Climate-Driven Doubling of Maize Loss Probability in U.S. Crop Insurance: Spatiotemporal Prediction and Possible Policy Responses ( http://arxiv.org/abs/2408.02217v1 ) ライセンス: Link先を確認 | A Samuel Pottinger, Lawson Connor, Brookie Guzder-Williams, Maya Weltman-Fahs, Timothy Bowles, | (参考訳) 気候変動は農業生産者を脅かすだけでなく、金融機関を緊張させる。
これらの重要な食品システムのアクターには、農業従事者の生活を安定させ、継続的な地球温暖化への対応を支援する政府機関が含まれる。
我々は、人工ニューラルネットワークを用いて、米国コーンベルトにおける将来のトウモロコシの収量を予測する。
具体的には、我々の機械学習手法は、気候変動を継続しないシミュレーションと比較して、毎年の収量保護(YP)の確率が2倍以上になるという、より頻繁で深刻な収量損失を予想している。
さらに, 収量安定性の低下と組み合わせた相対的に変化しない平均収率の2つの発見は, 変動性を含むカバレッジ公式を調整するための目標となる機会を明らかにした。
この重要な構造的変化は、再生農業のようなリスク低減戦略の価値を認識して、規制当局が継続的な気候変動への農業適応を支援するのに役立つかもしれない。
我々のリスクプロファイルシミュレーションは、オープンソースのインタラクティブツールと組み合わせて、現在の理解における実用的なギャップを埋め、きめ細かい歴史的収量推定と、将来の保険関連損失の気象インフォームド予測を埋める。
Climate change not only threatens agricultural producers but also strains financial institutions. These important food system actors include government entities tasked with both insuring grower livelihoods and supporting response to continued global warming. We use an artificial neural network to predict future maize yields in the U.S. Corn Belt, finding alarming changes to institutional risk exposure within the Federal Crop Insurance Program. Specifically, our machine learning method anticipates more frequent and more severe yield losses that would result in the annual probability of Yield Protection (YP) claims to more than double at mid-century relative to simulations without continued climate change. Furthermore, our dual finding of relatively unchanged average yields paired with decreasing yield stability reveals targeted opportunities to adjust coverage formulas to include variability. This important structural shift may help regulators support grower adaptation to continued climate change by recognizing the value of risk-reducing strategies such as regenerative agriculture. Altogether, paired with open source interactive tools for deeper investigation, our risk profile simulations fill an actionable gap in current understanding, bridging granular historic yield estimation and climate-informed prediction of future insurer-relevant loss. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# CodeCheckerによる静的コード解析
Static Code Analysis with CodeChecker ( http://arxiv.org/abs/2408.02220v1 ) ライセンス: Link先を確認 | Gabor Horvath, Reka Kovacs, Richard Szalay, Zoltan Porkolab, Gyorgy Orban, Daniel Krupp, | (参考訳) CodeCheckerは、Clang Static AnalyzerやClang-Tidyといったさまざまな静的解析ツールをビルドシステム、継続的インテグレーションループ、C++プログラマの開発ワークフローに統合するオープンソースプロジェクトである。
静的解析ツールのレポート評価を容易にするために,強力なイシュー管理システムを備えている。
この文書は、スロバキアのコシツェで開催された2018 3COWS カンファレンスで、コード分析の講義の補助資料として配布された。
CodeChecker is an open source project that integrates different static analysis tools such as the Clang Static Analyzer and Clang-Tidy into the build systems, continuous integration loops, and development workflows of C++ programmers. It has a powerful issue management system to make it easier to evaluate the reports of the static analysis tools. This document was handed out as supportive material for a code analysis lecture at the 2018 3COWS conference in Kosice, Slovakia. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# SoK:紙表面の物理的に不可避な同定に基づくサイバー物理相乗効果による偽造と戦う
SoK: Fighting Counterfeits with Cyber-Physical Synergy Based on Physically-Unclonable Identifiers of Paper Surface ( http://arxiv.org/abs/2408.02221v1 ) ライセンス: Link先を確認 | Anirudh Nakra, Min Wu, Chau-Wai Wong, | (参考訳) 偽造品は、信頼できないサプライチェーンを貫くことにより、公衆の安全と健康に深刻な害を与える。
多数の反偽造技術が提案され、その中では、紙表面の固有の不規則性の使用は、高性能な経済ソリューションとして有意義な可能性を示唆している。
以前の作業では、サプライチェーンを凝集的に考慮せず、制限不能な識別子の作成や改善、あるいは製品のデジタル記録の確保に重点を置いている。
本研究は、サプライチェーンのニーズを包括的に分析することにより、これら2つの別個の研究領域を体系的に統一することを目的としている。
本稿では,論文ベースの認証フレームワークを構築し,既存の文献において重要な欠点と有望なアイデアを識別する。
次に、信号処理、暗号、生体認証システムの研究からインスピレーションを得て、統合されたフレームワークの段階的なセキュリティ分析を行う。
最後に,現実のサプライチェーンにおける実践的,技術的課題の範囲を示す主要な代表的なシナリオについて考察し,今後の研究を導くためのベストプラクティスを概説する。
Counterfeit products cause severe harm to public safety and health by penetrating untrusted supply chains. Numerous anti-counterfeiting techniques have been proposed, among which the use of inherent, unclonable irregularities of paper surfaces has shown considerable potential as a high-performance economical solution. Prior works do not consider supply chains cohesively, either focusing on creating or improving unclonable identifiers or on securing digital records of products. This work aims to systematically unify these two separate but connected research areas by comprehensively analyzing the needs of supply chains. We construct a generalized paper-based authentication framework and identify important shortcomings and promising ideas in the existing literature. Next, we do a stage-wise security analysis of our consolidated framework by drawing inspiration from works in signal processing, cryptography, and biometric systems. Finally, we examine key representative scenarios that illustrate the range of practical and technical challenges in real-world supply chains, and we outline the best practices to guide future research. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# RGBT追尾用クロス変調アテンショントランス
Cross-modulated Attention Transformer for RGBT Tracking ( http://arxiv.org/abs/2408.02222v1 ) ライセンス: Link先を確認 | Yun Xiao, Jiacong Zhao, Andong Lu, Chenglong Li, Yin Lin, Bing Yin, Cong Liu, | (参考訳) 既存のTransformerベースのRGBTトラッカーは、自己アテンションを利用してユニモーダル特徴を抽出し、クロスアテンションを用いてマルチモーダル特徴の相互作用を強化し、テンプレート-検索相関計算により、優れたパフォーマンスを達成している。
それでも、独立した探索・テンプレート相関計算は分岐間の整合性を無視し、不明確な相関重みと不適切な相関重みをもたらす可能性がある。
モーダル内特徴表現を制限するだけでなく、マルチモーダル特徴相互作用とサーチ・テンプレート相関計算に対するクロスアテンションの堅牢性を損なう。
これらの問題に対処するため、RGBTトラッキングのための統合アテンションモデルにおいて、モダリティ内自己相関、モダリティ間特徴相互作用、検索テンプレート相関計算を行うCross-modulated Attention Transformer (CAFormer) という新しいアプローチを提案する。
特に,まず各モダリティの相関写像を独立に生成し,モダリティ間のコンセンサスを求めることにより,不正確な相関重みを変調して設計した相関変調拡張モジュールに供給する。
このような設計は、自己注意と相互注意のスキームを統一し、自己注意における不正確な注意重み計算を緩和するだけでなく、余分なクロスアテンションスキームによって導入された冗長な計算を除去する。
さらに,トラッキングの予測効率と精度をより高めるために,協調的なトークン除去戦略を提案する。
5つの公開RGBT追跡ベンチマークの大規模な実験は、提案したCAFormerの最先端手法に対する優れた性能を示している。
Existing Transformer-based RGBT trackers achieve remarkable performance benefits by leveraging self-attention to extract uni-modal features and cross-attention to enhance multi-modal feature interaction and template-search correlation computation. Nevertheless, the independent search-template correlation calculations ignore the consistency between branches, which can result in ambiguous and inappropriate correlation weights. It not only limits the intra-modal feature representation, but also harms the robustness of cross-attention for multi-modal feature interaction and search-template correlation computation. To address these issues, we propose a novel approach called Cross-modulated Attention Transformer (CAFormer), which performs intra-modality self-correlation, inter-modality feature interaction, and search-template correlation computation in a unified attention model, for RGBT tracking. In particular, we first independently generate correlation maps for each modality and feed them into the designed Correlation Modulated Enhancement module, modulating inaccurate correlation weights by seeking the consensus between modalities. Such kind of design unifies self-attention and cross-attention schemes, which not only alleviates inaccurate attention weight computation in self-attention but also eliminates redundant computation introduced by extra cross-attention scheme. In addition, we propose a collaborative token elimination strategy to further improve tracking inference efficiency and accuracy. Extensive experiments on five public RGBT tracking benchmarks show the outstanding performance of the proposed CAFormer against state-of-the-art methods. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# サービスレコメンデーションのための大規模言語モデルを用いたQoS予測
Large Language Model Aided QoS Prediction for Service Recommendation ( http://arxiv.org/abs/2408.02223v1 ) ライセンス: Link先を確認 | Huiying Liu, Zekun Zhang, Qilin Wu, Yiwen Zhang, | (参考訳) 大規模言語モデル(LLM)は近年急速に改善され、広範囲のアプリケーションで使用されている。
大規模なテキストコーパスで訓練した後、LLMはテキストデータからリッチな特徴を抽出する能力を得る。
このような機能は、Webユーザやサービスが自然言語文を使って記述できる固有の属性を持ち、レコメンデーションに有用であるWebサービスレコメンデーションタスクにおいて、潜在的に有用である。
本稿では, Web サービスレコメンデーションにおける LLM の利用可能性と実用性について検討する。
本稿では,LLMを用いて記述文によるWebユーザやサービスの属性から有用な情報を抽出する大規模言語モデルQoS予測(llmQoS)モデルを提案する。
この情報は、ユーザとサービスの歴史的なインタラクションのQoS値と組み合わせて、任意のユーザとサービスのペアのQoS値を予測する。
提案手法は,QoS予測におけるデータの分散性を克服するものである。
WSDreamデータセットでは、llmQoSは同等のベースラインモデルを一貫してパフォーマンスします。
Large language models (LLMs) have seen rapid improvement in the recent years, and are used in a wider range of applications. After being trained on large text corpus, LLMs obtain the capability of extracting rich features from textual data. Such capability is potentially useful for the web service recommendation task, where the web users and services have intrinsic attributes that can be described using natural language sentences and are useful for recommendation. In this paper, we explore the possibility and practicality of using LLMs for web service recommendation. We propose the large language model aided QoS prediction (llmQoS) model, which use LLMs to extract useful information from attributes of web users and services via descriptive sentences. This information is then used in combination with the QoS values of historical interactions of users and services, to predict QoS values for any given user-service pair. Our proposed model is shown to overcome the data sparsity issue for QoS prediction. We show that on the WSDream dataset, llmQoS outperforms comparable baseline models consistently. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# ProCreate, Dont Reproduce! 創造的生成のための推進的エネルギー拡散
ProCreate, Dont Reproduce! Propulsive Energy Diffusion for Creative Generation ( http://arxiv.org/abs/2408.02226v1 ) ライセンス: Link先を確認 | Jack Lu, Ryan Teehan, Mengye Ren, | (参考訳) 本稿では,拡散型画像生成モデルのサンプルの多様性と創造性を向上し,トレーニングデータの再生を防止するための,シンプルで実装が容易なProCreateを提案する。
ProCreateは参照イメージのセットで動作し、生成プロセス中の参照埋め込みから生成イメージの埋め込みを積極的に推進する。
FSCG-8(Few-Shot Creative Generation 8)は,8つのカテゴリ – 異なる概念,スタイル,設定を含む – に関する,数ショットのクリエイティブな生成データセットである。
さらに,訓練用テキストプロンプトを用いた大規模評価において,ProCreateはトレーニングデータの複製を防止するのに有効であることを示す。
CodeとFSCG-8はhttps://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-publicで公開されている。
プロジェクトのページはhttps://procreate-diffusion.github.io.comで公開されている。
In this paper, we propose ProCreate, a simple and easy-to-implement method to improve sample diversity and creativity of diffusion-based image generative models and to prevent training data reproduction. ProCreate operates on a set of reference images and actively propels the generated image embedding away from the reference embeddings during the generation process. We propose FSCG-8 (Few-Shot Creative Generation 8), a few-shot creative generation dataset on eight different categories -- encompassing different concepts, styles, and settings -- in which ProCreate achieves the highest sample diversity and fidelity. Furthermore, we show that ProCreate is effective at preventing replicating training data in a large-scale evaluation using training text prompts. Code and FSCG-8 are available at https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. The project page is available at https://procreate-diffusion.github.io. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# リビジョン:視覚言語モデルにおける空間忠実性を実現するレンダリングツール
REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models ( http://arxiv.org/abs/2408.02231v1 ) ライセンス: Link先を確認 | Agneet Chatterjee, Yiran Luo, Tejas Gokhale, Yezhou Yang, Chitta Baral, | (参考訳) テキスト・トゥ・イメージ(T2I)とマルチモーダル・大規模言語モデル(MLLM)は、コンピュータビジョンやマルチモーダル学習タスクのソリューションとして採用されている。
しかし、このような視覚言語モデルには空間的関係を正しく推論する能力がないことが判明した。
この欠点に対処するため,視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
REVISIONは、テキストプロンプトを与えられた空間的に正確な合成画像を生成する3Dレンダリングベースのパイプラインである。
REVISIONは拡張可能なフレームワークで、現在は100以上の3Dアセット、11の空間的関係をサポートしており、カメラの視点や背景も様々である。
REVISIONからのイメージをトレーニング不要な方法で追加のガイダンスとして活用することで、すべての空間的関係におけるT2Iモデルの空間的一貫性が一貫して向上し、VISORとT2I-CompBenchベンチマーク上での競合性能が達成される。
また、MLLMの空間的推論能力を評価するための質問応答ベンチマークRevQAを設計し、対向的条件下での複雑な空間的推論に対して、最先端のモデルが堅牢でないことを確認する。
その結果,レンダリングベースのフレームワークは空間認識型生成モデルの開発に有効な手法であることが示唆された。
Text-to-Image (T2I) and multimodal large language models (MLLMs) have been adopted in solutions for several computer vision and multimodal learning tasks. However, it has been found that such vision-language models lack the ability to correctly reason over spatial relationships. To tackle this shortcoming, we develop the REVISION framework which improves spatial fidelity in vision-language models. REVISION is a 3D rendering based pipeline that generates spatially accurate synthetic images, given a textual prompt. REVISION is an extendable framework, which currently supports 100+ 3D assets, 11 spatial relationships, all with diverse camera perspectives and backgrounds. Leveraging images from REVISION as additional guidance in a training-free manner consistently improves the spatial consistency of T2I models across all spatial relationships, achieving competitive performance on the VISOR and T2I-CompBench benchmarks. We also design RevQA, a question-answering benchmark to evaluate the spatial reasoning abilities of MLLMs, and find that state-of-the-art models are not robust to complex spatial reasoning under adversarial settings. Our results and findings indicate that utilizing rendering-based frameworks is an effective approach for developing spatially-aware generative models. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# SpecRover: LLMによるコードインテント抽出
SpecRover: Code Intent Extraction via LLMs ( http://arxiv.org/abs/2408.02232v1 ) ライセンス: Link先を確認 | Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury, | (参考訳) 自動プログラムの改善は通常、バグ修正と機能追加を自動的に生成する。
このようなプログラム改善は、LLMエージェントの形式で、大きな言語モデル(LLM)とプログラム解析機能を組み合わせることで達成できる。
プログラムの修復やプログラムの改善は通常、意図した振る舞いの仕様を必要とするので、仕様推論は高品質なプログラムパッチを作成するのに役立ちます。
本研究では,LLMエージェント内での反復的仕様推論のための効率的かつ低コストなワークフローについて検討する。
ソフトウェアプロジェクトで解決すべきGitHubの問題を考えると、私たちのゴールは、仕様推論を伴う反復的なコード検索を行うことです。
これらを捉えた意図は、レビューエージェントによって、パッチを検証するとともに、検証されたパッチに対する信頼性の尺度を提供することを目標として検査される。
当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。
2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
利用可能なオープンソースエージェントと比較して、当社の作業は、SWE-Bench liteにおけるGitHubの平均的な問題を解決する上で、控えめなコスト(イシューあたり0.65ドル)を示しています。
SpecRoverによる説明の生成により、提案されたパッチが信頼できる形で受け入れられる場合において、より優れた"署名"が開発者に与えられるようになる。
SpecRoverはまた、プログラム修復技術がLLM時代に入ったとしても、自動プログラム修復における仕様推論の継続的な重要性を実証しようと試みている。
Autonomous program improvement typically involves automatically producing bug fixes and feature additions. Such program improvement can be accomplished by a combination of large language model (LLM) and program analysis capabilities, in the form of an LLM agent. Since program repair or program improvement typically requires a specification of intended behavior - specification inference can be useful for producing high quality program patches. In this work, we examine efficient and low-cost workflows for iterative specification inference within an LLM agent. Given a GitHub issue to be resolved in a software project, our goal is to conduct iterative code search accompanied by specification inference - thereby inferring intent from both the project structure and behavior. The intent thus captured is examined by a reviewer agent with the goal of vetting the patches as well as providing a measure of confidence in the vetted patches. Our approach SpecRover (AutoCodeRover-v2) is built on the open-source LLM agent AutoCodeRover. In an evaluation on the full SWE-Bench consisting of 2294 GitHub issues, it shows more than 50% improvement in efficacy over AutoCodeRover. Compared to the open-source agents available, our work shows modest cost ($0.65 per issue) in resolving an average GitHub issue in SWE-Bench lite. The production of explanation by SpecRover allows for a better "signal" to be given to the developer, on when the suggested patches can be accepted with confidence. SpecRover also seeks to demonstrate the continued importance of specification inference in automated program repair, even as program repair technologies enter the LLM era. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 法定電荷予測のためのマルチソース不均一知識インジェクトプロンプト学習法
A Multi-Source Heterogeneous Knowledge Injected Prompt Learning Method for Legal Charge Prediction ( http://arxiv.org/abs/2408.02233v1 ) ライセンス: Link先を確認 | Jingyun Sun, Chi Wei, Yang Li, | (参考訳) 法的AIにおいて不可欠なタスクである法定電荷予測は、ケース記述に正確な電荷ラベルを割り当てることを模索しており、最近の大きな関心を集めている。
既存の手法は主に、ケース記述を直接モデル化するために多様なニューラルネットワーク構造を使用し、マルチソースの外部知識を効果的に活用できない。
本稿では,多元異種外部知識を法的知識ベース,会話型LLM,関連する法的項目から同時に活用する,素早い学習フレームワークに基づく手法を提案する。
具体的には、法的な知識ベースによって記述された場合の知識スニペットをマッチングし、ハードプロンプトテンプレートを通じて入力にカプセル化する。
さらに, ケース記述に関する法的項目を, コントラスト学習を通じて検索し, 対話型LLMを通して事例記述の事実的要素を取得する。
ソフトプロンプトトークンの埋め込みベクトルと事実要素の符号化ベクトルを融合させて知識強化モデルフォワード推論を実現する。
実験結果から,本手法はCAIL-2018の法定電荷予測データセットとして最大であり,データ依存度が低いことがわかった。
ケーススタディでは,本手法の強い解釈可能性も示している。
Legal charge prediction, an essential task in legal AI, seeks to assign accurate charge labels to case descriptions, attracting significant recent interest. Existing methods primarily employ diverse neural network structures for modeling case descriptions directly, failing to effectively leverage multi-source external knowledge. We propose a prompt learning framework-based method that simultaneously leverages multi-source heterogeneous external knowledge from a legal knowledge base, a conversational LLM, and related legal articles. Specifically, we match knowledge snippets in case descriptions via the legal knowledge base and encapsulate them into the input through a hard prompt template. Additionally, we retrieve legal articles related to a given case description through contrastive learning, and then obtain factual elements within the case description through a conversational LLM. We fuse the embedding vectors of soft prompt tokens with the encoding vector of factual elements to achieve knowledge-enhanced model forward inference. Experimental results show that our method achieved state-of-the-art results on CAIL-2018, the largest legal charge prediction dataset, and our method has lower data dependency. Case studies also demonstrate our method's strong interpretability. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 量子技術の統合的展望 : メディア, ビジネス, 政策ナラティブのマッピング
An integrated view of Quantum Technology? Mapping Media, Business, and Policy Narratives ( http://arxiv.org/abs/2408.02236v1 ) ライセンス: Link先を確認 | Viktor Suter, Charles Ma, Gina Poehlmann, Miriam Meckel, Lea Steinacker, | (参考訳) ナラティブは、量子技術(QT)のような新興技術に対する大衆の認識と政策を形成する上で重要な役割を果たす。
しかし、社会領域におけるQT物語の構成と変化についてはほとんど分かっていない。
本研究では,QTがビジネス,メディア,政府テキストでどのように表現されるかについて,主題的ナラティブ分析を用いて検討する。
当社の研究設計では,政府文書36件,事業報告165件,メディア記事2,331件を20年以上にわたって収集した。
我々は、BERTopicモデリングと定性評価を組み合わせて、テーマや物語を抽出する計算社会科学のアプローチを採用する。
その結果,QTに関する公的な言論は,技術的・商業的可能性,国際紛争,国家戦略,社会問題を中心に,社会的・政治的課題を反映していることが示唆された。
メディア記事は最もバランスのとれた報道を提供するが、ビジネスと政府の談話は社会的意味を見落としていることが多い。
社会にQTを統合することの意義と、適切に表現された公開談話の必要性について論じる。
Narratives play a vital role in shaping public perceptions and policy on emerging technologies like quantum technology (QT). However, little is known about the construction and variation of QT narratives across societal domains. This study examines how QT is presented in business, media, and government texts using thematic narrative analysis. Our research design utilizes an extensive dataset of 36 government documents, 165 business reports, and 2,331 media articles published over 20 years. We employ a computational social science approach, combining BERTopic modeling with qualitative assessment to extract themes and narratives. The findings show that public discourse on QT reflects prevailing social and political agendas, focusing on technical and commercial potential, global conflicts, national strategies, and social issues. Media articles provide the most balanced coverage, while business and government discourses often overlook societal implications. We discuss the ramifications for integrating QT into society and the need for wellinformed public discourse. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 大規模言語モデルは全ての言語を等しく話すか? : 低資源環境における比較研究
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings ( http://arxiv.org/abs/2408.02237v1 ) ライセンス: Link先を確認 | Md. Arid Hasan, Prerona Tarannum, Krishno Dey, Imran Razzak, Usman Naseem, | (参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せており、特に資源豊富な言語における様々な下流タスクにおいて顕著な性能を発揮している。
最近の研究は、低リソース言語におけるLLMの限界を強調しており、主にバイナリ分類タスクに焦点を当てており、南アジアの言語に最小限の注意を向けている。
これらの制限は主に、データセットの不足、計算コスト、低リソース言語特有の研究ギャップなどの制約に起因する。
このギャップに対処するために、低リソース言語処理の研究を促進するために、英語からBangla、Hindi、Urduに翻訳することで、感情と憎悪の音声タスクのデータセットを提示します。
さらに,英語および広く話されている南アジアの言語において,複数のLLMを用いてゼロショット学習を包括的に検討した。
その結果,GPT-4 はLlama 2 と Gemini を一貫して上回り,低リソース言語に比べて多種多様なタスクに優れた性能を示した。
さらに,本分析により,自然言語推論(NLI)が評価課題の中で最も高い性能を示し,GPT-4が優れた性能を示した。
Large language models (LLMs) have garnered significant interest in natural language processing (NLP), particularly their remarkable performance in various downstream tasks in resource-rich languages. Recent studies have highlighted the limitations of LLMs in low-resource languages, primarily focusing on binary classification tasks and giving minimal attention to South Asian languages. These limitations are primarily attributed to constraints such as dataset scarcity, computational costs, and research gaps specific to low-resource languages. To address this gap, we present datasets for sentiment and hate speech tasks by translating from English to Bangla, Hindi, and Urdu, facilitating research in low-resource language processing. Further, we comprehensively examine zero-shot learning using multiple LLMs in English and widely spoken South Asian languages. Our findings indicate that GPT-4 consistently outperforms Llama 2 and Gemini, with English consistently demonstrating superior performance across diverse tasks compared to low-resource languages. Furthermore, our analysis reveals that natural language inference (NLI) exhibits the highest performance among the evaluated tasks, with GPT-4 demonstrating superior capabilities. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# BOTS-LM:Setswanaのための大規模言語モデルのトレーニング
BOTS-LM: Training Large Language Models for Setswana ( http://arxiv.org/abs/2408.02239v1 ) ライセンス: Link先を確認 | Nathan Brown, Vukosi Marivate, | (参考訳) 本稿では,セツワナ語と英語の両方に習熟したバイリンガル言語モデルBOTS-LMを紹介する。
近年のデータ可用性と効率的な微調整の進歩を活用して、BOTS-LMは計算効率を維持しながら、それよりもかなり大きなモデルに類似した性能を実現する。
最初のリリースでは80億のパラメータ生成大言語モデルと、近くリリース予定の0.5億と10億のパラメータ生成大言語モデル、および2億8800万のパラメータエンコーダのみのモデルを備えています。
Llama-3-70B と Aya 23 は英語とセトワナの翻訳タスクにおいて有意に優れており、専用の機械翻訳モデルの性能に近づきつつ、MMLU ベンチマークの機械翻訳サブセットで測定されたセトスワナの推論において70B のパラメータ性能に近づいた。
BOTS-LMシリーズの言語モデルに付随するため、Setswana最大のWebデータセットであるSetsTextをリリースし、合計で2億6700万以上のトークンを公開しました。
さらに,Setswanaデータセット,第1および第1の合成Setswanaデータセット,トレーニングおよび評価コード,トレーニングログ,MMLUの機械翻訳サブセットであるMMLU-tsnもリリースした。
In this work we present BOTS-LM, a series of bilingual language models proficient in both Setswana and English. Leveraging recent advancements in data availability and efficient fine-tuning, BOTS-LM achieves performance similar to models significantly larger than itself while maintaining computational efficiency. Our initial release features an 8 billion parameter generative large language model, with upcoming 0.5 billion and 1 billion parameter large language models and a 278 million parameter encoder-only model soon to be released. We find the 8 billion parameter model significantly outperforms Llama-3-70B and Aya 23 on English-Setswana translation tasks, approaching the performance of dedicated machine translation models, while approaching 70B parameter performance on Setswana reasoning as measured by a machine translated subset of the MMLU benchmark. To accompany the BOTS-LM series of language models, we release the largest Setswana web dataset, SetsText, totalling over 267 million tokens. In addition, we release the largest machine translated Setswana dataset, the first and largest synthetic Setswana dataset, training and evaluation code, training logs, and MMLU-tsn, a machine translated subset of MMLU. | 翻訳日:2024-08-06 14:36:03 公開日:2024-08-05 |
# 水理モデルの実行時間を改善する方法--機械学習時代の機会と課題
Methods to improve run time of hydrologic models: opportunities and challenges in the machine learning era ( http://arxiv.org/abs/2408.02242v1 ) ライセンス: Link先を確認 | Supath Dhital, | (参考訳) 機械学習(ML)を水理モデルに応用することは、未熟である。
短期間でより良い予測を行うために、流域の依存関係を捕捉する能力は興味深い。
物理ベースのモデルよりもMLアルゴリズムを採用する主な理由の1つは、計算効率の優位性と様々なデータセットを扱う柔軟性である。
様々な応用、特に緊急対応や大規模展開において、水文学モデルを短時間で要求し、研究者にデータ駆動モデリングアプローチを不本意に採用させる。
この研究において、MLとディープラーニング(DL)の時代において、モデリング中に対処すべき物理ベースのモデルと潜在的な制約の全体的な実行時間を改善するためにどのように役立つか。
本稿では,水文モデルにMLを採用する機会と課題について述べる。その後,物理モデルによるシミュレーション時間の改善と今後の課題について述べる。
The application of Machine Learning (ML) to hydrologic modeling is fledgling. Its applicability to capture the dependencies on watersheds to forecast better within a short period is fascinating. One of the key reasons to adopt ML algorithms over physics-based models is its computational efficiency advantage and flexibility to work with various data sets. The diverse applications, particularly in emergency response and expanding over a large scale, demand the hydrological model in a short time and make researchers adopt data-driven modeling approaches unhesitatingly. In this work, in the era of ML and deep learning (DL), how it can help to improve the overall run time of physics-based model and potential constraints that should be addressed while modeling. This paper covers the opportunities and challenges of adopting ML for hydrological modeling and subsequently how it can help to improve the simulation time of physics-based models and future works that should be addressed. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# 車両・乗客・ヘルメットのゼロショット検出・分類・関連のための視覚言語モデルの評価
Evaluating Vision-Language Models for Zero-Shot Detection, Classification, and Association of Motorcycles, Passengers, and Helmets ( http://arxiv.org/abs/2408.02244v1 ) ライセンス: Link先を確認 | Lucas Choi, Ross Greer, | (参考訳) オートバイ事故は、特に乗客や乗客がヘルメットを着用していない場合、重大なリスクを引き起こす。
本研究では,映像データを用いたオートバイ利用者のヘルメット着用状況の検出と分類において,高度な視覚言語基盤モデルOWLv2の有効性について検討した。
CVPR AI City Challengeが提供するデータセットを拡張し、OWLv2とCNNモデルを統合して、検出および分類タスクにカスケードモデルアプローチを採用する。
その結果、不完全で偏りのあるトレーニングデータセットから生じる課題に対処するためのゼロショット学習の可能性を強調し、様々な条件下でのオートバイ、ヘルメットの使用、および占有位置の検出におけるそのようなモデルの使用を実証した。
我々は,ヘルメット検出における平均精度0.5324を達成し,検出性能と分類性能を詳述した高精度リコール曲線を提供した。
低解像度データや視界の低さといった制限にもかかわらず、我々の研究は自動運転車の安全性と交通安全執行システムの進歩を約束していることを示している。
Motorcycle accidents pose significant risks, particularly when riders and passengers do not wear helmets. This study evaluates the efficacy of an advanced vision-language foundation model, OWLv2, in detecting and classifying various helmet-wearing statuses of motorcycle occupants using video data. We extend the dataset provided by the CVPR AI City Challenge and employ a cascaded model approach for detection and classification tasks, integrating OWLv2 and CNN models. The results highlight the potential of zero-shot learning to address challenges arising from incomplete and biased training datasets, demonstrating the usage of such models in detecting motorcycles, helmet usage, and occupant positions under varied conditions. We have achieved an average precision of 0.5324 for helmet detection and provided precision-recall curves detailing the detection and classification performance. Despite limitations such as low-resolution data and poor visibility, our research shows promising advancements in automated vehicle safety and traffic safety enforcement systems. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# マルチモーダルコントラストマスクオートエンコーダを用いたカリキュラム学習による事前学習
Curriculum learning based pre-training using Multi-Modal Contrastive Masked Autoencoders ( http://arxiv.org/abs/2408.02245v1 ) ライセンス: Link先を確認 | Muhammad Abdullah Jamal, Omid Mohareri, | (参考訳) 本稿では,RGB-Dを利用したカリキュラム学習(CL)パラダイムに基づく画像理解タスクの事前学習手法を提案する。
マルチモーダル・コントラスト・マスケッド・オートエンコーダとデノライズ技術を利用する。
最近のアプローチでは、マスク付きオートエンコーディング(例、MultiMAE)やコントラスト学習(例、Pri3D)、あるいはCMAEやCAV-MAEのようなシングルコントラスト型マスク付きオートエンコーダアーキテクチャでそれらを組み合わせている。
しかし、1つの対照的なマスク付きオートエンコーダは、RGB-Dデータセットには適用されない。
このような手法の性能と有効性を改善するため,CLに基づく新しい事前学習戦略を提案する。
特に第1段階では、コントラスト学習を用いてモデルを事前訓練し、クロスモーダル表現を学習する。
第2段階では,第1段の重みを用いたモダリティ固有エンコーダを初期化し,マスク付きオートエンコーディングと拡散モデルで使用される雑音予測を用いてモデルを事前訓練する。
Masked Autoencodingは、局所的な空間相関を用いて入力モダリティの欠落したパッチを再構成することに焦点を当て、denoisingは入力データの高周波成分を学習する。
我々のアプローチはスケーラブルで堅牢で、限られたRGB-Dデータセットで事前トレーニングに適しています。
ScanNet、NYUv2、SUN RGB-Dといった複数のデータセットに対する大規模な実験は、我々のアプローチの有効性と優れた性能を示している。
具体的には,ScanNetセマンティックセグメンテーションにおけるMask3Dに対するmIoU+1.0%の改善を示す。
さらに,本手法の有効性を,最先端手法に対するセマンティックセグメンテーションタスクとして評価することで実証する。
In this paper, we propose a new pre-training method for image understanding tasks under Curriculum Learning (CL) paradigm which leverages RGB-D. The method utilizes Multi-Modal Contrastive Masked Autoencoder and Denoising techniques. Recent approaches either use masked autoencoding (e.g., MultiMAE) or contrastive learning(e.g., Pri3D, or combine them in a single contrastive masked autoencoder architecture such as CMAE and CAV-MAE. However, none of the single contrastive masked autoencoder is applicable to RGB-D datasets. To improve the performance and efficacy of such methods, we propose a new pre-training strategy based on CL. Specifically, in the first stage, we pre-train the model using contrastive learning to learn cross-modal representations. In the second stage, we initialize the modality-specific encoders using the weights from the first stage and then pre-train the model using masked autoencoding and denoising/noise prediction used in diffusion models. Masked autoencoding focuses on reconstructing the missing patches in the input modality using local spatial correlations, while denoising learns high frequency components of the input data. Our approach is scalable, robust and suitable for pre-training with limited RGB-D datasets. Extensive experiments on multiple datasets such as ScanNet, NYUv2 and SUN RGB-D show the efficacy and superior performance of our approach. Specifically, we show an improvement of +1.0% mIoU against Mask3D on ScanNet semantic segmentation. We further demonstrate the effectiveness of our approach in low-data regime by evaluating it for semantic segmentation task against the state-of-the-art methods. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# コントラスト学習と抽象概念:自然数の場合
Contrastive Learning and Abstract Concepts: The Case of Natural Numbers ( http://arxiv.org/abs/2408.02247v1 ) ライセンス: Link先を確認 | Daniel N. Nissani, | (参考訳) 対照的学習(CL)は、ImageNetデータセットに含まれるオブジェクトなど、具体的な概念に関連する分類や下流タスクにうまく適用されている。
これまでのところ、より抽象的なエンティティにこの有望なスキームを適用する試みは行われていないようだ。
これらの顕著な例は、(離散的な)量の概念である。
CLはしばしば、深遠でユビキタスな保存原理(例えば、オブジェクト分類タスクにおけるアイデンティティの保存)によって導かれる自己教師型スキームとして解釈される。
この入門研究では、離散量の推定や予測が可能な自然数の半抽象概念に適切な保存原理を適用する。
実験により、おもちゃの問題により、対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることが示される。
と。
類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。
両スキームは, トレーニング段階と試験段階の分布が等しいベースライン実験において, 同様の性能を示すことを示す。
重要なことは、分散のトレーニングとテストが異なるいくつかの一般化シナリオにおいて、CLはより堅牢ではるかに優れたエラー性能を誇示している。
Contrastive Learning (CL) has been successfully applied to classification and other downstream tasks related to concrete concepts, such as objects contained in the ImageNet dataset. No attempts seem to have been made so far in applying this promising scheme to more abstract entities. A prominent example of these could be the concept of (discrete) Quantity. CL can be frequently interpreted as a self-supervised scheme guided by some profound and ubiquitous conservation principle (e.g. conservation of identity in object classification tasks). In this introductory work we apply a suitable conservation principle to the semi-abstract concept of natural numbers by which discrete quantities can be estimated or predicted. We experimentally show, by means of a toy problem, that contrastive learning can be trained to count at a glance with high accuracy both at human as well as at super-human ranges.. We compare this with the results of a trained-to-count at a glance supervised learning (SL) neural network scheme of similar architecture. We show that both schemes exhibit similar good performance on baseline experiments, where the distributions of the training and testing stages are equal. Importantly, we demonstrate that in some generalization scenarios, where training and testing distributions differ, CL boasts more robust and much better error performance. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# ReDel: LLMによる再帰的マルチエージェントシステムのためのツールキット
ReDel: A Toolkit for LLM-Powered Recursive Multi-Agent Systems ( http://arxiv.org/abs/2408.02248v1 ) ライセンス: Link先を確認 | Andrew Zhu, Liam Dugan, Chris Callison-Burch, | (参考訳) 近年,文学レビューの編纂,消費者報告の起草,休暇の計画など,複雑なマルチエージェントシステムの構築にLarge Language Models (LLMs) を使うことへの関心が高まっている。
このようなシステム構築を支援するツールやライブラリは数多く存在するが、再帰的なマルチエージェントシステムをサポートしていない。
本稿では、ReDelについて紹介する。ReDelは、カスタムツールの使用、デリゲートスキーム、イベントベースのロギング、インタラクティブなリプレイをサポートする、再帰的なマルチエージェントシステムのためのツールキットである。
ReDelを使うことでエージェントベンチマークで大幅なパフォーマンス向上を実現し、視覚化とデバッグツールによる潜在的な改善領域を容易に特定できることを示す。
私たちのコード、ドキュメンテーション、およびPyPIパッケージはオープンソースで、MITライセンス下で自由に使用できます。
Recently, there has been increasing interest in using Large Language Models (LLMs) to construct complex multi-agent systems to perform tasks such as compiling literature reviews, drafting consumer reports, and planning vacations. Many tools and libraries exist for helping create such systems, however none support recursive multi-agent systems -- where the models themselves flexibly decide when to delegate tasks and how to organize their delegation structure. In this work, we introduce ReDel: a toolkit for recursive multi-agent systems that supports custom tool-use, delegation schemes, event-based logging, and interactive replay in an easy-to-use web interface. We show that, using ReDel, we are able to achieve significant performance gains on agentic benchmarks and easily identify potential areas of improvements through the visualization and debugging tools. Our code, documentation, and PyPI package are open-source and free to use under the MIT license. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# 高次元データに対する可逆二元セルオートマタを用いた階層クラスタリング
Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data ( http://arxiv.org/abs/2408.02250v1 ) ライセンス: Link先を確認 | Baby C. J., Kamalika Bhattacharjee, | (参考訳) 本研究では,可逆有限セルオートマトンを用いた高次元データセットの階層的クラスタリングアルゴリズムを提案する。
セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。
しかし、高次元データセットが1つのCAのサイクルを使ってクラスタ化されている場合、密接に関連するオブジェクトは異なるサイクルに属する可能性がある。
本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。
さらに、計算コストを低減した中間クラスタ数を最小化するために、情報伝搬とサイクル構造に基づく最適なルールを見つけるためのルール選択戦略を採用する。
連続するデータ要素が符号化された形式で最小ハミング距離を維持するように、周波数ベース符号化を用いてデータセットを符号化した後、提案するクラスタリングアルゴリズムは3段階にわたって反復して、最終的にデータ要素をユーザの希望するクラスタ数にクラスタリングする。
このアルゴリズムは医療、スポーツ、化学研究、農業など様々な分野に適用できる。
様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
This work proposes a hierarchical clustering algorithm for high-dimensional datasets using the cyclic space of reversible finite cellular automata. In cellular automaton (CA) based clustering, if two objects belong to the same cycle, they are closely related and considered as part of the same cluster. However, if a high-dimensional dataset is clustered using the cycles of one CA, closely related objects may belong to different cycles. This paper identifies the relationship between objects in two different cycles based on the median of all elements in each cycle so that they can be grouped in the next stage. Further, to minimize the number of intermediate clusters which in turn reduces the computational cost, a rule selection strategy is taken to find the best rules based on information propagation and cycle structure. After encoding the dataset using frequency-based encoding such that the consecutive data elements maintain a minimum hamming distance in encoded form, our proposed clustering algorithm iterates over three stages to finally cluster the data elements into the desired number of clusters given by user. This algorithm can be applied to various fields, including healthcare, sports, chemical research, agriculture, etc. When verified over standard benchmark datasets with various performance metrics, our algorithm is at par with the existing algorithms with quadratic time complexity. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# OCR修正後の改善:合成データの比較研究
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data ( http://arxiv.org/abs/2408.02253v1 ) ライセンス: Link先を確認 | Shuhao Guan, Derek Greene, | (参考訳) 本稿では,データ量,拡張,合成データ生成手法がモデル性能に与える影響を評価する実験を行い,OCR後領域における合成データの適用について検討する。
さらに,計算機ビジョン特徴検出アルゴリズムを利用して,OCR後合成データ構築のためのグリフ類似性を計算するアルゴリズムを提案する。
ByT5のようなモデルが手動でアノテートすることなく文字誤り率(CER)を大幅に低減できることを示すとともに,提案手法は従来の手法,特に低リソース言語よりも優れていることを示す。
This paper explores the application of synthetic data in the post-OCR domain on multiple fronts by conducting experiments to assess the impact of data volume, augmentation, and synthetic data generation methods on model performance. Furthermore, we introduce a novel algorithm that leverages computer vision feature detection algorithms to calculate glyph similarity for constructing post-OCR synthetic data. Through experiments conducted across a variety of languages, including several low-resource ones, we demonstrate that models like ByT5 can significantly reduce Character Error Rates (CER) without the need for manually annotated data, and our proposed synthetic data generation method shows advantages over traditional methods, particularly in low-resource languages. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# 集合するかどうか。それは質問である:スパン予測における注釈主観性に関する事例研究
To Aggregate or Not to Aggregate. That is the Question: A Case Study on Annotation Subjectivity in Span Prediction ( http://arxiv.org/abs/2408.02257v1 ) ライセンス: Link先を確認 | Kemal Kurniawan, Meladel Mistica, Timothy Baldwin, Jey Han Lau, | (参考訳) 本稿では,法的領域ラベルをサポートする法的な問題記述において,テキストの自動予測の課題について検討する。
我々は、法律家によって注釈付けされた英語で平凡な人々によって書かれた問題記述のコーパスを使用する。
法的な分野の分類は複雑な作業であり、弁護士は問題、特に法的に不正確な問題の記述に直面して、問題に対する異なる見解を持つことが多い。
実験の結果,多数発声スパンのトレーニングは,非凝集スパンのトレーニングよりも優れていた。
This paper explores the task of automatic prediction of text spans in a legal problem description that support a legal area label. We use a corpus of problem descriptions written by laypeople in English that is annotated by practising lawyers. Inherent subjectivity exists in our task because legal area categorisation is a complex task, and lawyers often have different views on a problem, especially in the face of legally-imprecise descriptions of issues. Experiments show that training on majority-voted spans outperforms training on disaggregated ones. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# 極大混合境界を持つ状態の量子条件エントロピーと完全に絡み合った分数
Quantum conditional entropies and fully entangled fraction of states with maximally mixed marginals ( http://arxiv.org/abs/2408.02258v1 ) ライセンス: Link先を確認 | Komal Kumar, Indranil Chakrabarty, Nirman Ganguly, | (参考訳) 完全に絡み合った分数(FEF)は、最大絡み合った状態への量子状態の近接を測定する。
FEF $>\frac{1}{d}$, in $d \otimes d$ systemsは、テレポーテーションを含む様々な量子情報処理プロトコルの重要なベンチマークである。
一方、量子条件エントロピー(Quantum Conditional Entropy, QCE)は、量子系における相関の尺度である。
量子系の条件エントロピーは負であり、従来の古典システムから逸脱している。
量子条件エントロピーの負性は、状態マージや密度符号化といったタスクにおいて決定的な役割を果たす。
本研究では,この2つの重要なヤードスティックの関係について検討する。
我々のプローブは、主に極端に混合された境界を持つ状態のアンビットで行われ、他の量子状態のクラスからのいくつかの図解がある。
ヴェルナー状態に対しては、条件付き R'enyi $\alpha-$entropy が負のとき、その FEF への下界を得る。
次に、2つのキュービットワイル状態に対するFEFとQCEの関係を得る。
2つのクディット状態に移ると、等方性状態が負の条件エントロピーを持つためには、FEFに基づく必要十分条件が見つかる。
2つのキューディット系では、ランク不足および一般化ベル対角状態に対して、EFFとQCEの関係を探索する。
FEFは、$k$-コピー非ローカル性と$k$-コピーステアビリティと複雑に関連付けられている。
FEFとQCEの関係は、QCEに基づいた$k$-コピー非局所性と$k$-コピーステアビリティの条件を見つけやすくする。
2つの量子ビットと2つの量子ビットにおける状態のある種のクラスに対してそのような条件を得る。
QCE と FEF の間の関係の系として、2つのキュービットヴェルナー状態と2つのクディット一般化ベル状態に対する最小決定論的作業コストの下位境界を得る。
The fully entangled fraction (FEF) measures the proximity of a quantum state to maximally entangled states. FEF $>\frac{1}{d}$, in $d \otimes d$ systems is a significant benchmark for various quantum information processing protocols including teleportation. Quantum conditional entropy (QCE) on the other hand is a measure of correlation in quantum systems. Conditional entropies for quantum systems can be negative, marking a departure from conventional classical systems. The negativity of quantum conditional entropies plays a decisive role in tasks like state merging and dense coding. In the present work, we investigate the relation of these two important yardsticks. Our probe is mainly done in the ambit of states with maximally mixed marginals, with a few illustrations from other classes of quantum states. We start our study in two qubit systems, where for the Werner states, we obtain lower bounds to its FEF when the conditional R\'enyi $\alpha-$entropy is negative. We then obtain relations between FEF and QCE for two qubit Weyl states. Moving on to two qudit states we find a necessary and sufficient condition based on FEF, for the isotropic state to have negative conditional entropy. In two qudit systems the relation between FEF and QCE is probed for the rank deficient and generalized Bell diagonal states. FEF is intricately linked with $k$- copy nonlocality and $k$- copy steerability. The relations between FEF and QCE facilitates to find conditions for $k$- copy nonlocality and $k$- copy steerability based on QCE. We obtain such conditions for certain classes of states in two qubits and two qudits. As a corollary to the relations obtained between QCE and FEF we obtain lower bounds to minimal deterministic work cost for two qubit Werner states and two qudit generalized Bell states. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# VLMを用いた不整合分類におけるドメイン間セマンティックセマンティックセマンティックセマンティックセマンティックセマンティック
Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using VLMs ( http://arxiv.org/abs/2408.02261v1 ) ライセンス: Link先を確認 | Jeongkee Lim, Yusung Kim, | (参考訳) Unsupervised Domain Adaptation (UDA)におけるセマンティックセグメンテーションの課題は、ソースイメージとターゲットイメージのドメインシフトだけでなく、ドメイン間のクラス分類の相違からも生じる。
従来のUDA研究は、ソースとターゲットドメイン間の一貫した分類を前提としており、それによってターゲットドメインの分類に適応する能力を制限している。
本稿では,視覚言語モデル(CSI)を用いた非一貫性分類に関するクロスドメインセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクス(クロスドメインセマンティクス)を提案する。
CSIは、Visual Language Models (VLM) のセマンティック・ジェネリゼーション・ポテンシャルを利用して、以前の UDA メソッドとシナジーを生成する。
従来の UDA メソッドと VLM に埋め込まれたリッチなセマンティック知識を組み合わせたセグメント推論を利用して、ターゲットドメインの新しいクラスを緩和する。
このアプローチは、ターゲットドメインに対して基礎的な真理ラベルを必要とせずに、拡張された分類学に効果的な適応を可能にする。
本手法は,無矛盾な分類設定(粗大な分類とオープンな分類)の状況において,様々なベンチマークにおいて有効であることが確認されており,従来のUDA手法と統合した場合に一貫した相乗効果を示す。
実装はhttp://github.com/jkee58/CSIで公開されている。
The challenge of semantic segmentation in Unsupervised Domain Adaptation (UDA) emerges not only from domain shifts between source and target images but also from discrepancies in class taxonomies across domains. Traditional UDA research assumes consistent taxonomy between the source and target domains, thereby limiting their ability to recognize and adapt to the taxonomy of the target domain. This paper introduces a novel approach, Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using Vision Language Models (CSI), which effectively performs domain-adaptive semantic segmentation even in situations of source-target class mismatches. CSI leverages the semantic generalization potential of Visual Language Models (VLMs) to create synergy with previous UDA methods. It leverages segment reasoning obtained through traditional UDA methods, combined with the rich semantic knowledge embedded in VLMs, to relabel new classes in the target domain. This approach allows for effective adaptation to extended taxonomies without requiring any ground truth label for the target domain. Our method has shown to be effective across various benchmarks in situations of inconsistent taxonomy settings (coarse-to-fine taxonomy and open taxonomy) and demonstrates consistent synergy effects when integrated with previous state-of-the-art UDA methods. The implementation is available at http://github.com/jkee58/CSI. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# Python テキストの解析によるコード習熟度同定に向けて
Towards Identifying Code Proficiency through the Analysis of Python Textbooks ( http://arxiv.org/abs/2408.02262v1 ) ライセンス: Link先を確認 | Ruksit Rojpaisarnkit, Gregorio Robles, Raula Gaikovina Kula, Dong Wang, Chaiyong Ragkhitwetsagul, Jesus M. Gonzalez-Barahona, Kenichi Matsumoto, | (参考訳) 現在最も普及しているプログラミング言語の1つであるPythonは、Web開発、データサイエンス、機械学習、DevOpsなど、さまざまな領域で広く利用されている。
近年の研究では、自然言語の習熟度を評価する方法と同様に、Pythonの能力レベルを評価する手法が提案されている。
このメソッドは、例えば、単純な 'print'文を最も基本的なレベルに配置し、最も高度な抽象基底クラスを配置する、Pythonコンストラクトに能力レベルを割り当てる。
目的は、開発者がソースコードの一部を理解する必要がある熟練度を測定することである。
これは特に、デバッグや新機能の追加など、ソフトウェアのメンテナンスと進化のタスクにとって重要である。
例えば、コードレビュープロセスでは、このメソッドはレビュアーに必要な能力レベルを決定することができる。
しかし、Pythonのコンストラクトを熟練度で分類することは大きな課題となる。
専門家の意見や開発者調査に大きく依存した以前の試みは、かなりの相違を招いた。
そこで本研究では,Python プログラミング教科書の体系的解析を通じて,Python の能力レベルを同定する手法を提案する。
これらの教科書でPythonコンストラクトが導入されたシーケンスを現在の最先端と比較することにより、Pythonコンストラクトの導入順序で顕著な相違が明らかになった。
我々の研究は、シーケンスのミスアライメントを強調し、習熟度をピンポイントすることは簡単ではないことを実証している。
この研究からの洞察は、教科書が開発者の習熟度を評価する貴重な情報源であるという考えを強化するための重要なステップとなる。
Python, one of the most prevalent programming languages today, is widely utilized in various domains, including web development, data science, machine learning, and DevOps. Recent scholarly efforts have proposed a methodology to assess Python competence levels, similar to how proficiency in natural languages is evaluated. This method involves assigning levels of competence to Python constructs, for instance, placing simple 'print' statements at the most basic level and abstract base classes at the most advanced. The aim is to gauge the level of proficiency a developer must have to understand a piece of source code. This is particularly crucial for software maintenance and evolution tasks, such as debugging or adding new features. For example, in a code review process, this method could determine the competence level required for reviewers. However, categorizing Python constructs by proficiency levels poses significant challenges. Prior attempts, which relied heavily on expert opinions and developer surveys, have led to considerable discrepancies. In response, this paper presents a new approach to identifying Python competency levels through the systematic analysis of introductory Python programming textbooks. By comparing the sequence in which Python constructs are introduced in these textbooks with the current state of the art, we have uncovered notable discrepancies in the order of introduction of Python constructs. Our study underscores a misalignment in the sequences, demonstrating that pinpointing proficiency levels is not trivial. Insights from the study serve as pivotal steps toward reinforcing the idea that textbooks serve as a valuable source for evaluating developers' proficiency, and particularly in terms of their ability to undertake maintenance and evolution tasks. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# VoxelTrack: 3Dポイントクラウドオブジェクト追跡のためのVoxel表現の探索
VoxelTrack: Exploring Voxel Representation for 3D Point Cloud Object Tracking ( http://arxiv.org/abs/2408.02263v1 ) ライセンス: Link先を確認 | Yuxuan Lu, Jiahao Nie, Zhiwei He, Hongjie Gu, Xudong Lv, | (参考訳) 現在のLiDARポイントクラウドベースの3Dオブジェクトトラッキング(SOT)手法は、通常、ポイントベースの表現ネットワークに依存している。
成功をおさめたにもかかわらず、このようなネットワークはいくつかの根本的な問題に悩まされている。
1)自然に乱れた点雲に対処するためのプール操作を含み、回帰作業であるトラッキングに有用な3次元空間情報の捕捉を妨げる。
2) 集合抽象演算は密度不整点の雲をほとんど扱わず、3次元空間情報がモデル化されるのを防ぐ。
これらの問題を解決するために,VoxelTrackと呼ばれる新しいトラッキングフレームワークを導入する。
固有に乱れた点雲を3Dボクセルにボクセル化し、その特徴をスパース畳み込みブロックで抽出することにより、VoxelTrackは精度が高く頑健な3次元空間情報を効果的にモデル化し、追跡対象の正確な位置予測を導く。
さらに、VoxelTrackには、クロスイテレーティブな特徴融合モジュールを備えたデュアルストリームエンコーダが組み込まれており、トラッキングのための詳細な3次元空間情報を探索することができる。
正確な3次元空間情報をモデル化することで、VoxelTrackは単一の回帰損失でトラッキングパイプラインを単純化します。
大規模な実験は、KITTI、NuScenes、Waymo Open Datasetなど、広く採用されている3つのデータセットで実施されている。
実験の結果、VoxelTrackは最先端のパフォーマンス(それぞれ3つのデータセットの平均精度88.3%、71.4%、63.6%)を達成し、1つのTITAN RTX GPU上で36Fpsのリアルタイム速度で既存のトラッカーを上回っていることがわかった。
ソースコードとモデルがリリースされる。
Current LiDAR point cloud-based 3D single object tracking (SOT) methods typically rely on point-based representation network. Despite demonstrated success, such networks suffer from some fundamental problems: 1) It contains pooling operation to cope with inherently disordered point clouds, hindering the capture of 3D spatial information that is useful for tracking, a regression task. 2) The adopted set abstraction operation hardly handles density-inconsistent point clouds, also preventing 3D spatial information from being modeled. To solve these problems, we introduce a novel tracking framework, termed VoxelTrack. By voxelizing inherently disordered point clouds into 3D voxels and extracting their features via sparse convolution blocks, VoxelTrack effectively models precise and robust 3D spatial information, thereby guiding accurate position prediction for tracked objects. Moreover, VoxelTrack incorporates a dual-stream encoder with cross-iterative feature fusion module to further explore fine-grained 3D spatial information for tracking. Benefiting from accurate 3D spatial information being modeled, our VoxelTrack simplifies tracking pipeline with a single regression loss. Extensive experiments are conducted on three widely-adopted datasets including KITTI, NuScenes and Waymo Open Dataset. The experimental results confirm that VoxelTrack achieves state-of-the-art performance (88.3%, 71.4% and 63.6% mean precision on the three datasets, respectively), and outperforms the existing trackers with a real-time speed of 36 Fps on a single TITAN RTX GPU. The source code and model will be released. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# 任意の概念による説明:オープン語彙概念を用いた概念ボトルネックモデル
Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts ( http://arxiv.org/abs/2408.02265v1 ) ライセンス: Link先を確認 | Andong Tan, Fengtao Zhou, Hao Chen, | (参考訳) 概念ボトルネックモデル(英語版)(CBM)は、まず解釈可能な概念のセットを予測し、次に与えられた概念に基づいてクラスラベルを予測することによって決定を行う解釈可能なデザイン・バイ・デザイン・フレームワークである。
既存のCBMは、一定の概念セットでトレーニングされる(概念はデータセットによって注釈付けされるか、言語モデルからクエリされる)。
しかし、このクローズドワールドの仮定は実際には非現実的であり、モデルがデプロイされた後の意思決定において、ユーザーは望ましい概念が果たす役割を疑問視するかもしれない。
ゼロショット分類におけるCLIPなどの最近の視覚言語事前学習モデルの成功に触発されて,(1)訓練可能な画像特徴抽出器の特徴空間とCLIPの画像エンコーダの特徴空間の調整,(2)下流データセット上の画像分類器の同時訓練,(3)CLIPのテキストエンコーダによって符号化されたユーザ希望のテキストエンコーダの任意のセットを介して,トレーニング済みの分類ヘッドを再構築する,という,オープンボキャブラリ概念をCBMに装備する"OpenCBM"を提案する。
ユーザから潜在的に欠落している概念を明らかにするため,再建時に残留パラメータに最も近い概念を,残存パラメータが十分に小さくなるまで繰り返し発見することを提案する。
私たちの知る限り、"OpenCBM"はオープンな語彙の概念を備えた最初のCBMであり、モデルがトレーニングされた後もモデルの予測を説明するために、望ましい概念を削除、追加、あるいは置き換えるといったユニークなメリットをユーザに提供します。
さらに,ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
The concept bottleneck model (CBM) is an interpretable-by-design framework that makes decisions by first predicting a set of interpretable concepts, and then predicting the class label based on the given concepts. Existing CBMs are trained with a fixed set of concepts (concepts are either annotated by the dataset or queried from language models). However, this closed-world assumption is unrealistic in practice, as users may wonder about the role of any desired concept in decision-making after the model is deployed. Inspired by the large success of recent vision-language pre-trained models such as CLIP in zero-shot classification, we propose "OpenCBM" to equip the CBM with open vocabulary concepts via: (1) Aligning the feature space of a trainable image feature extractor with that of a CLIP's image encoder via a prototype based feature alignment; (2) Simultaneously training an image classifier on the downstream dataset; (3) Reconstructing the trained classification head via any set of user-desired textual concepts encoded by CLIP's text encoder. To reveal potentially missing concepts from users, we further propose to iteratively find the closest concept embedding to the residual parameters during the reconstruction until the residual is small enough. To the best of our knowledge, our "OpenCBM" is the first CBM with concepts of open vocabularies, providing users the unique benefit such as removing, adding, or replacing any desired concept to explain the model's prediction even after a model is trained. Moreover, our model significantly outperforms the previous state-of-the-art CBM by 9% in the classification accuracy on the benchmark dataset CUB-200-2011. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# ワンショットコラボレーティブデータ蒸留
One-Shot Collaborative Data Distillation ( http://arxiv.org/abs/2408.02266v1 ) ライセンス: Link先を確認 | Rayne Holland, Chandra Thapa, Sarah Ali Siddiqui, Wei Shao, Seyit Camtepe, | (参考訳) 大規模な機械学習トレーニングデータセットは、情報的合成データサンプルの小さなコレクションに蒸留することができる。
これらの合成セットは効率的なモデル学習をサポートし、データ共有の通信コストを低減する。
したがって、高忠実度蒸留されたデータは、分散ネットワーク環境における機械学習アプリケーションの効率的なデプロイを支援することができる。
分散環境で合成セットを構築するための簡単な方法は、各クライアントがローカルデータ蒸留を行い、中央サーバでローカルデータ蒸留をマージできるようにすることである。
しかし、結果として得られる集合の品質は、クライアントが保持するローカルデータの分布の不均一性によって損なわれる。
この課題を克服するために、クライアントとサーバ間の1ラウンドの通信しか必要とせず、データのグローバルな分散をキャプチャするCollabDMと呼ばれる、最初のコラボレーティブなデータ蒸留技術を導入する。
本手法は,分散学習環境における歪んだデータに対して,最先端のワンショット学習法より優れる。
また,5Gネットワークにおける攻撃検出に適用した場合に,本手法の有望な実用性を示す。
Large machine-learning training datasets can be distilled into small collections of informative synthetic data samples. These synthetic sets support efficient model learning and reduce the communication cost of data sharing. Thus, high-fidelity distilled data can support the efficient deployment of machine learning applications in distributed network environments. A naive way to construct a synthetic set in a distributed environment is to allow each client to perform local data distillation and to merge local distillations at a central server. However, the quality of the resulting set is impaired by heterogeneity in the distributions of the local data held by clients. To overcome this challenge, we introduce the first collaborative data distillation technique, called CollabDM, which captures the global distribution of the data and requires only a single round of communication between client and server. Our method outperforms the state-of-the-art one-shot learning method on skewed data in distributed learning environments. We also show the promising practical benefits of our method when applied to attack detection in 5G networks. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# StyEmp:マルチグラインドプレフィックスエンコーダによるスタイリング共感応答生成とパーソナリティ強化
StyEmp: Stylizing Empathetic Response Generation via Multi-Grained Prefix Encoder and Personality Reinforcement ( http://arxiv.org/abs/2408.02271v1 ) ライセンス: Link先を確認 | Yahui Fu, Chenhui Chu, Tatsuya Kawahara, | (参考訳) 近年の共感反応生成のアプローチは, システムの性格を考慮せずに, 感情共鳴とユーザ理解に重点を置いている。
一貫性のある人格は、実際の人間の表現において明らかであり、信頼できるシステムを作るのに重要である。
そこで本研究では,共感応答生成を一貫した個性でスタイリングすることを目的としたStyEmpを提案する。
具体的には、システムの性格と共感表現の複雑な関係を捉えるために設計された、多義的なプレフィックス機構を組み込んでいる。
さらに、コントラスト学習を利用して生成モデルを校正するパーソナリティ強化モジュールを導入し、応答が共感的かつ異なるパーソナリティの反映的であることを保証する。
EMPATHETICDIALOGUESベンチマークにおける人的評価は、StyEmpが共感と人格表現の両面で競争ベースラインを上回っていることを示している。
Recent approaches for empathetic response generation mainly focus on emotional resonance and user understanding, without considering the system's personality. Consistent personality is evident in real human expression and is important for creating trustworthy systems. To address this problem, we propose StyEmp, which aims to stylize the empathetic response generation with a consistent personality. Specifically, it incorporates a multi-grained prefix mechanism designed to capture the intricate relationship between a system's personality and its empathetic expressions. Furthermore, we introduce a personality reinforcement module that leverages contrastive learning to calibrate the generation model, ensuring that responses are both empathetic and reflective of a distinct personality. Automatic and human evaluations on the EMPATHETICDIALOGUES benchmark show that StyEmp outperforms competitive baselines in terms of both empathy and personality expressions. | 翻訳日:2024-08-06 14:26:02 公開日:2024-08-05 |
# COM Kitchens:ビジョンランゲージベンチマークとしての未編集オーバーヘッドビュービデオデータセット
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark ( http://arxiv.org/abs/2408.02272v1 ) ライセンス: Link先を確認 | Koki Maeda, Tosho Hirasawa, Atsushi Hashimoto, Jun Harashima, Leszek Rybicki, Yusuke Fukasawa, Yoshitaka Ushiku, | (参考訳) 手続き的ビデオ理解は、ビジョンと言語コミュニティで注目を集めている。
ディープラーニングに基づくビデオ分析には、広範なデータが必要である。
その結果、既存の作品ではWeb動画をトレーニングリソースとして利用することが多く、生のビデオ観察から教示内容のクエリが困難になる。
この問題に対処するため、新しいデータセットであるCOM Kitchensを提案する。
データセットは、スマートフォンが撮影した未編集のオーバーヘッドビュービデオで構成され、参加者は所定のレシピに基づいて食事の準備を行う。
固定視点ビデオデータセットは、高いカメラ設定コストのために環境多様性を欠いていることが多い。
われわれは、現代の広角スマートフォンのレンズを使って、頭上から見たシンクからコックトップまでの調理カウンタをカバーし、対人支援なしでアクティビティを捉えた。
このセットアップにより、スマートフォンを参加者に配布することで、多様なデータセットを収集しました。
本データセットでは,未編集のオーバーヘッド・ビュー・ビデオ(DVC-OV)上で,オンラインレシピ検索(OnRR)と新しいビデオキャプション領域Dense Video Captioningを提案する。
本実験では,現在のWebビデオベースSOTA方式のタスク処理能力と限界について検証した。
Procedural video understanding is gaining attention in the vision and language community. Deep learning-based video analysis requires extensive data. Consequently, existing works often use web videos as training resources, making it challenging to query instructional contents from raw video observations. To address this issue, we propose a new dataset, COM Kitchens. The dataset consists of unedited overhead-view videos captured by smartphones, in which participants performed food preparation based on given recipes. Fixed-viewpoint video datasets often lack environmental diversity due to high camera setup costs. We used modern wide-angle smartphone lenses to cover cooking counters from sink to cooktop in an overhead view, capturing activity without in-person assistance. With this setup, we collected a diverse dataset by distributing smartphones to participants. With this dataset, we propose the novel video-to-text retrieval task Online Recipe Retrieval (OnRR) and new video captioning domain Dense Video Captioning on unedited Overhead-View videos (DVC-OV). Our experiments verified the capabilities and limitations of current web-video-based SOTA methods in handling these tasks. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# Geometric Algebraによる大規模言語モデル:3D,インタラクティブ,制御可能なシーンにおける分離メッシュのインストラクションベース変換
Geometric Algebra Meets Large Language Models: Instruction-Based Transformations of Separate Meshes in 3D, Interactive and Controllable Scenes ( http://arxiv.org/abs/2408.02275v1 ) ライセンス: Link先を確認 | Dimitris Angelis, Prodromos Kolyvakis, Manos Kamarianakis, George Papagiannakis, | (参考訳) 本稿では,制御可能な3Dシーン編集,特に複雑な手作業や専門知識を必要とするオブジェクト配置タスクに革命をもたらすために,LLMとCGAを統合した新しい言語モデルを提案する。
これらの方法は通常、大規模なトレーニングデータセットに依存するか、あるいは正確な編集のための形式化された言語が欠如している。
CGAを頑健な形式言語として利用し、精度の高いオブジェクト再配置に必要な空間変換を正確にモデル化する。
事前に訓練されたLLMのゼロショット学習機能を活用して、シェンロングは自然言語命令をCGA操作に変換し、シーンに適用し、特別な事前学習を必要とせずに3Dシーン内で正確な空間変換を容易にする。
現実的なシミュレーション環境で実装されたShenlongは、既存のグラフィックスパイプラインとの互換性を保証する。
CGAの影響を正確に評価するために、我々はEuclidean Spaceベースラインに対してベンチマークを行い、レイテンシと精度の両方を評価した。
比較性能評価の結果、シェンロングはLSMの応答時間を16%減少させ、成功率を従来の方法と比較して平均9.6%向上させることが示された。
特に、Shenlongは、他のシステムが不足しているベンチマークである、一般的な実用的なクエリにおいて100%完璧な成功率を達成する。
これらの進歩は、シェンロングが3Dシーンの編集を民主化し、アクセシビリティを高め、教育、デジタルエンターテイメント、バーチャルリアリティーといった分野にまたがるイノベーションを促進する可能性を強調している。
This paper introduces a novel integration of Large Language Models (LLMs) with Conformal Geometric Algebra (CGA) to revolutionize controllable 3D scene editing, particularly for object repositioning tasks, which traditionally requires intricate manual processes and specialized expertise. These conventional methods typically suffer from reliance on large training datasets or lack a formalized language for precise edits. Utilizing CGA as a robust formal language, our system, shenlong, precisely models spatial transformations necessary for accurate object repositioning. Leveraging the zero-shot learning capabilities of pre-trained LLMs, shenlong translates natural language instructions into CGA operations which are then applied to the scene, facilitating exact spatial transformations within 3D scenes without the need for specialized pre-training. Implemented in a realistic simulation environment, shenlong ensures compatibility with existing graphics pipelines. To accurately assess the impact of CGA, we benchmark against robust Euclidean Space baselines, evaluating both latency and accuracy. Comparative performance evaluations indicate that shenlong significantly reduces LLM response times by 16% and boosts success rates by 9.6% on average compared to the traditional methods. Notably, shenlong achieves a 100% perfect success rate in common practical queries, a benchmark where other systems fall short. These advancements underscore shenlong's potential to democratize 3D scene editing, enhancing accessibility and fostering innovation across sectors such as education, digital entertainment, and virtual reality. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# DRFormer:長い時間系列予測のための逆受容場を利用したマルチスケール変圧器
DRFormer: Multi-Scale Transformer Utilizing Diverse Receptive Fields for Long Time-Series Forecasting ( http://arxiv.org/abs/2408.02279v1 ) ライセンス: Link先を確認 | Ruixin Ding, Yuqi Chen, Yu-Ting Lan, Wei Zhang, | (参考訳) 長期時系列予測(LTSF)は金融、交通予測、その他の分野に広く適用されている。
最近、パッチベースのトランスフォーマーが有望なアプローチとして登場し、入力トークンとして機能するサブレベルパッチにデータを分割している。
しかし、既存の手法は、主に所定のパッチの長さに依存し、専門家の知識を必要とし、様々なスケールで多様な特徴を捉える上での課題を提起する。
さらに、時系列データは時間スケールの異なる様々なバリエーションや変動を示しており、従来の手法では効果的にモデル化するのに苦労している。
本稿では,動的スパース学習アルゴリズムを用いた動的トークン化手法を提案する。
階層的受容場を構築するため,マルチスケール・シーケンシャル抽出と組み合わせたマルチスケール・トランスフォーマー・モデルを開発した。
さらに、時間スケールの異なる表現間のグループ内およびグループ間位置認識を高めるために、グループ対応の回転位置符号化技術を導入する。
提案するDRFormerは,実世界の様々なデータセットを用いて評価し,既存の手法と比較して,その優位性を示す実験結果を得た。
私たちのコードは、https://github.com/ruixindingECNU/DRFormer.comで利用可能です。
Long-term time series forecasting (LTSF) has been widely applied in finance, traffic prediction, and other domains. Recently, patch-based transformers have emerged as a promising approach, segmenting data into sub-level patches that serve as input tokens. However, existing methods mostly rely on predetermined patch lengths, necessitating expert knowledge and posing challenges in capturing diverse characteristics across various scales. Moreover, time series data exhibit diverse variations and fluctuations across different temporal scales, which traditional approaches struggle to model effectively. In this paper, we propose a dynamic tokenizer with a dynamic sparse learning algorithm to capture diverse receptive fields and sparse patterns of time series data. In order to build hierarchical receptive fields, we develop a multi-scale Transformer model, coupled with multi-scale sequence extraction, capable of capturing multi-resolution features. Additionally, we introduce a group-aware rotary position encoding technique to enhance intra- and inter-group position awareness among representations across different temporal scales. Our proposed model, named DRFormer, is evaluated on various real-world datasets, and experimental results demonstrate its superiority compared to existing methods. Our code is available at: https://github.com/ruixindingECNU/DRFormer. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 予測精度とコストのバランスをとるためのハードウェア・アウェア・アンサンブル
Hardware Aware Ensemble Selection for Balancing Predictive Accuracy and Cost ( http://arxiv.org/abs/2408.02280v1 ) ライセンス: Link先を確認 | Jannis Maier, Felix Möller, Lennart Purucker, | (参考訳) 自動機械学習(Automated Machine Learning, ML)は、データ前処理からモデル選択、アンサンブルに至るまでのタスクを自動化することで、機械学習モデルのデプロイを著しく単純化する。
表形式のデータのためのAutoMLシステムは、しばしばポストホックアンサンブルを使用し、複数のモデルを組み合わせて予測精度を向上させる。
これは一般的に、推論時間が長くなり、実際のデプロイメントにおいて大きな制限となる。
そこで本研究では,推論時間をポストホックアンサンブルに統合するハードウェア対応アンサンブル選択手法を提案する。
提案手法は,既存のアンサンブル選択フレームワークと品質多様性最適化を利用して,その予測精度とハードウェア効率について,アンサンブル候補の評価を行う。
この二重焦点は精度と運用効率のバランスの取れた考慮を可能にする。
そこで,本手法では,正確で効率的なアンサンブルの正面から実践者が選択できる。
83の分類データセットを用いて評価したところ,本手法は競争精度を保ち,アンサンブルの操作効率を大幅に向上させることができることがわかった。
本研究の結果は,これらの原則をさらなるハードウェア制約に拡張するための基盤を提供し,よりリソース効率の良いAutoMLシステムを開発するためのステージを設定した。
Automated Machine Learning (AutoML) significantly simplifies the deployment of machine learning models by automating tasks from data preprocessing to model selection to ensembling. AutoML systems for tabular data often employ post hoc ensembling, where multiple models are combined to improve predictive accuracy. This typically results in longer inference times, a major limitation in practical deployments. Addressing this, we introduce a hardware-aware ensemble selection approach that integrates inference time into post hoc ensembling. By leveraging an existing framework for ensemble selection with quality diversity optimization, our method evaluates ensemble candidates for their predictive accuracy and hardware efficiency. This dual focus allows for a balanced consideration of accuracy and operational efficiency. Thus, our approach enables practitioners to choose from a Pareto front of accurate and efficient ensembles. Our evaluation using 83 classification datasets shows that our approach sustains competitive accuracy and can significantly improve ensembles' operational efficiency. The results of this study provide a foundation for extending these principles to additional hardware constraints, setting the stage for the development of more resource-efficient AutoML systems. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# コヒーレント進化と雑音の相互作用による量子仮説の高度化
Enhanced quantum hypothesis testing via the interplay between coherent evolution and noises ( http://arxiv.org/abs/2408.02282v1 ) ライセンス: Link先を確認 | Qing Li, Lingna Wang, Min Jiang, Ze Wu, Haidong Yuan, Xinhua Peng, | (参考訳) 量子情報の研究は、特定の種類のノイズが特定のアプリケーションで情報をエンコードできることを認識している。
しかし、量子仮説テスト(QHT)におけるノイズの役割は、伝統的に性能を損ね、成功確率を低下させると考えられてきたが、完全には解明されていない。
本研究は,ノイズのない(単項)力学の下で達成可能な成功確率を一定時間間隔で超えるようなノイズダイナミクスの十分な条件を確立することにより,このギャップを埋めるものである。
次に、超低磁場核磁気共鳴スピン系の設定において、ノイズ支援QHTプロトコルを考案し、実験的に実装する。
実験結果から,QHTのノイズダイナミクスによる成功確率は,単体進化のみによって設定された天井を超えることが確認された。
さらに,当初,騒音が性能を損なう場合,従来の有害騒音を有利な要因に変換できることを示す。
この変換的アプローチはQHTにおけるノイズの活用と活用の可能性を示し、QHTと一般的な量子情報処理の境界を押し上げる。
Previous studies in quantum information have recognized that specific types of noise can encode information in certain applications. However, the role of noise in Quantum Hypothesis Testing (QHT), traditionally assumed to undermine performance and reduce success probability, has not been thoroughly explored. Our study bridges this gap by establishing sufficient conditions for noisy dynamics that can surpass the success probabilities achievable under noiseless (unitary) dynamics within certain time intervals. We then devise and experimentally implement a noise-assisted QHT protocol in the setting of ultralow-field nuclear magnetic resonance spin systems. Our experimental results demonstrate that the success probability of QHT under the noisy dynamics can indeed surpass the ceiling set by unitary evolution alone. Moreover, we have shown that in cases where noise initially hampers the performance, strategic application of coherent controls on the system can transform these previously detrimental noises into advantageous factors. This transformative approach demonstrates the potential to harness and leverage noise in QHT, which pushes the boundaries of QHT and general quantum information processing. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 不確かさ適応性でデノベートするカスケードリファインメントビデオ
Cascading Refinement Video Denoising with Uncertainty Adaptivity ( http://arxiv.org/abs/2408.02284v1 ) ライセンス: Link先を確認 | Xinyuan Yu, | (参考訳) 正確なアライメントはビデオのデノゲーションに不可欠だ。
しかし、ノイズの多い環境でのアライメントの推定は困難である。
本稿では,画像のアライメントと復元を同時に行うカスケード精細ビデオ復調手法を提案する。
より優れたアライメントにより、各フレームにおけるより詳細な情報の復元が可能になる。
さらに、画像の品質が向上すると、アライメントも向上する。
この手法は, CRVDデータセットにおいて大きなマージンでSOTA性能を達成している。
同時に、複数レベルのノイズに対処するために、各イテレーション後に不確実性マップが作成された。
このため、簡単に復元できるビデオの冗長な計算は避けられた。
この方法を適用することで、計算全体の平均25%が削減された。
Accurate alignment is crucial for video denoising. However, estimating alignment in noisy environments is challenging. This paper introduces a cascading refinement video denoising method that can refine alignment and restore images simultaneously. Better alignment enables restoration of more detailed information in each frame. Furthermore, better image quality leads to better alignment. This method has achieved SOTA performance by a large margin on the CRVD dataset. Simultaneously, aiming to deal with multi-level noise, an uncertainty map was created after each iteration. Because of this, redundant computation on the easily restored videos was avoided. By applying this method, the entire computation was reduced by 25% on average. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 動画におけるポーズ推定のための共同動作型相互学習
Joint-Motion Mutual Learning for Pose Estimation in Videos ( http://arxiv.org/abs/2408.02285v1 ) ライセンス: Link先を確認 | Sifan Wu, Haipeng Chen, Yifang Yin, Sihao Hu, Runyang Feng, Yingying Jiao, Ziqi Yang, Zhenguang Liu, | (参考訳) ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
しかし、ビデオデフォーカスや自己排除のような複雑な映像シーンのため、この作業は依然として困難である。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
しかし、彼らはしばしば、バックボーン生成の副産物である初期熱マップに符号化された有用なジョイント情報を無視する。
対照的に、初期熱マップを洗練しようとする手法は時空間運動の特徴を考慮できない。
その結果,既存のポーズ推定手法の性能は,局所的な関節(熱マップ)情報と大域的な運動(機能)ダイナミクスの両方を活用する能力の欠如により低下した。
この問題に対処するため,我々は,局所的な関節依存とグローバルなピクセルレベルの運動力学の両方に効果的に集中する,ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
具体的には、初期熱マップと動きの流れを適応的に活用し、ロバストな局所的な関節特徴を回復するコンテキスト認識型関節学習装置を提案する。
局所的な関節特徴と大域的な運動フローが相補的であることを前提として,情報を相乗的に交換し,関節特徴と運動フローを対話的に学習し,モデルの能力を向上させるための進行的な関節運動相互学習を提案する。
より重要なことは、より多様な関節と運動の手がかりを捉えるために、複数の手がかりから冗長な情報を学ぶことを避けるために、理論的に情報直交目的を解析し、提案することである。
実験により,本手法は3つの試行錯誤ベンチマークにおいて先行技術より優れていたことを示す。
Human pose estimation in videos has long been a compelling yet challenging task within the realm of computer vision. Nevertheless, this task remains difficult because of the complex video scenes, such as video defocus and self-occlusion. Recent methods strive to integrate multi-frame visual features generated by a backbone network for pose estimation. However, they often ignore the useful joint information encoded in the initial heatmap, which is a by-product of the backbone generation. Comparatively, methods that attempt to refine the initial heatmap fail to consider any spatio-temporal motion features. As a result, the performance of existing methods for pose estimation falls short due to the lack of ability to leverage both local joint (heatmap) information and global motion (feature) dynamics. To address this problem, we propose a novel joint-motion mutual learning framework for pose estimation, which effectively concentrates on both local joint dependency and global pixel-level motion dynamics. Specifically, we introduce a context-aware joint learner that adaptively leverages initial heatmaps and motion flow to retrieve robust local joint feature. Given that local joint feature and global motion flow are complementary, we further propose a progressive joint-motion mutual learning that synergistically exchanges information and interactively learns between joint feature and motion flow to improve the capability of the model. More importantly, to capture more diverse joint and motion cues, we theoretically analyze and propose an information orthogonality objective to avoid learning redundant information from multi-cues. Empirical experiments show our method outperforms prior arts on three challenging benchmarks. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 量子ノイズとコンピュータパワーによる近似
Approximating under the Influence of Quantum Noise and Compute Power ( http://arxiv.org/abs/2408.02287v1 ) ライセンス: Link先を確認 | Simon Thelen, Hila Safi, Wolfgang Mauerer, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピュータのパワーと、組合せ最適化のための古典的な高性能コンピューティングアプライアンスを組み合わせることを目的とした多くのシナリオの中核である。
不完全性は実用性よりも早くアルゴリズム性能を劣化させ、古典的プリミティブと量子的プリミティブの交互化に起因するオーバーヘッドは、いかなる利点にも対抗できる。
最適な組み合わせを選択することは、ユーザの要求だけでなく、ハードウェアやソフトウェアスタックの詳細にも依存するため、非常に簡単な問題である。
適切な自動化は、エンドユーザに最適な組み合わせを選択するという負担を軽減します。 QAOAの変種の違い、必要なQAOA層数、必要な測定サンプルなど、技術的に理解する必要がありません。
しかし、パフォーマンスなど、機能しない要求に対して最高の満足感を得るべきです。
3つの広く研究されている最適化問題を対象とした包括的密度行列に基づくシミュレーションを用いて,QAOA変異体の解の質と時間的挙動に影響を与える因子を決定する。
シミュレーションでは、理想的な量子計算と、現実的な不完全性に悩まされるシナリオの連続性を考慮する。
本報告では, 包括的複製パッケージを伴い, 狭小かつ特異な影響を指摘できるQAOA変異体との違いを強く示している。
我々は、適切なソフトウェア工学の抽象化メカニズムと高レベルの問題仕様から量子ソリューションを考案するための自動化ツールチェーンを設計するための関連する要素をマークする、影響力のある共変量と関連する非機能品質目標を特定します。
The quantum approximate optimisation algorithm (QAOA) is at the core of many scenarios that aim to combine the power of quantum computers and classical high-performance computing appliances for combinatorial optimisation. Several obstacles challenge concrete benefits now and in the foreseeable future: Imperfections quickly degrade algorithmic performance below practical utility; overheads arising from alternating between classical and quantum primitives can counter any advantage; and the choice of parameters or algorithmic variant can substantially influence runtime and result quality. Selecting the optimal combination is a non-trivial issue, as it not only depends on user requirements, but also on details of the hardware and software stack. Appropriate automation can lift the burden of choosing optimal combinations for end-users: They should not be required to understand technicalities like differences between QAOA variants, required number of QAOA layers, or necessary measurement samples. Yet, they should receive best-possible satisfaction of their non-functional requirements, be it performance or other. We determine factors that affect solution quality and temporal behaviour of four QAOA variants using comprehensive density-matrix-based simulations targeting three widely studied optimisation problems. Our simulations consider ideal quantum computation, and a continuum of scenarios troubled by realistic imperfections. Our quantitative results, accompanied by a comprehensive reproduction package, show strong differences between QAOA variants that can be pinpointed to narrow and specific effects. We identify influential co-variables and relevant non-functional quality goals that, we argue, mark the relevant ingredients for designing appropriate software engineering abstraction mechanisms and automated tool-chains for devising quantum solutions from high-level problem specifications. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# テキスト内学習におけるスピングラスモデル
Spin glass model of in-context learning ( http://arxiv.org/abs/2408.02288v1 ) ライセンス: Link先を確認 | Yuhao Li, Ruoran Bai, Haiping Huang, | (参考訳) 大規模な言語モデルは、従来の教師付き学習とは対照的に、驚くべきコンテキスト内学習能力を示します。
したがって、力学的な解釈を提供し、経験的現象を物理学に結びつけることは困難であり、未解決のままである。
この構造を実数値スピンを持つスピンガラスモデルにマッピングし、データ中の内在的障害を結合とフィールドで説明する。
スピングラスモデルでは、事前トレーニング中に重みパラメータが相互にどのように相互作用するかを説明しており、最も重要な理由は、トレーニングなしでもプロンプトのみを提供することで、目に見えない関数を予測できる理由である。
我々の理論は、単一インスタンス学習の場合、タスクの多様性の増大が、ボルツマン分布をウェイトパラメータのユニークな正しい解に収束させることで、文脈内学習の出現につながることを明らかにしている。
そのため、事前訓練された変圧器は、新規なプロンプト設定で予測パワーを表示する。
提案したスピングラスモデルにより,大規模言語モデルの実証的成功を理解する基盤が確立される。
Large language models show a surprising in-context learning ability -- being able to use a prompt to form a prediction for a query, yet without additional training, in stark contrast to old-fashioned supervised learning. Providing a mechanistic interpretation and linking the empirical phenomenon to physics are thus challenging and remain unsolved. We study a simple yet expressive transformer with linear attention, and map this structure to a spin glass model with real-valued spins, where the couplings and fields explain the intrinsic disorder in data. The spin glass model explains how the weight parameters interact with each other during pre-training, and most importantly why an unseen function can be predicted by providing only a prompt yet without training. Our theory reveals that for single instance learning, increasing the task diversity leads to the emergence of the in-context learning, by allowing the Boltzmann distribution to converge to a unique correct solution of weight parameters. Therefore the pre-trained transformer displays a prediction power in a novel prompt setting. The proposed spin glass model thus establishes a foundation to understand the empirical success of large language models. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 不可解な言語からのゼロショット翻訳を可能にする非結合語彙学習
Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages ( http://arxiv.org/abs/2408.02290v1 ) ライセンス: Link先を確認 | Carlos Mullov, Ngoc-Quan Pham, Alexander Waibel, | (参考訳) 多言語ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
直感的には、見かける言語が増えるにつれて、エンコーダの文表現はより柔軟になり、新しい言語にも容易に適応できる。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
未知の言語から未知の語彙を扱うために、語彙と構文の学習を分離するセットアップを提案する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
ゼロショット翻訳は、ゲルマン語とロマンス語で訓練されたモデルを用いて、ポルトガル語で42.6 BLEU、TEDドメインでロシア語で20.7 BLEUのスコアを得る。
我々は,このゼロショット翻訳能力が,エンコーダで見られる言語数に応じてどのように発達するかを考察する。
最後に、教師なし機械翻訳における分離学習戦略の有効性について検討する。
モデルのゼロショット翻訳機能を反復的逆翻訳に活用することにより、教師付き設定でほぼ同値となる。
Multilingual neural machine translation systems learn to map sentences of different languages into a common representation space. Intuitively, with a growing number of seen languages the encoder sentence representation grows more flexible and easily adaptable to new languages. In this work, we test this hypothesis by zero-shot translating from unseen languages. To deal with unknown vocabularies from unknown languages we propose a setup where we decouple learning of vocabulary and syntax, i.e. for each language we learn word representations in a separate step (using cross-lingual word embeddings), and then train to translate while keeping those word representations frozen. We demonstrate that this setup enables zero-shot translation from entirely unseen languages. Zero-shot translating with a model trained on Germanic and Romance languages we achieve scores of 42.6 BLEU for Portuguese-English and 20.7 BLEU for Russian-English on TED domain. We explore how this zero-shot translation capability develops with varying number of languages seen by the encoder. Lastly, we explore the effectiveness of our decoupled learning strategy for unsupervised machine translation. By exploiting our model's zero-shot translation capability for iterative back-translation we attain near parity with a supervised setting. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# SelfGeo: 変形可能な形状上のキーポイントの自己監督的および測地的一貫性の推定
SelfGeo: Self-supervised and Geodesic-consistent Estimation of Keypoints on Deformable Shapes ( http://arxiv.org/abs/2408.02291v1 ) ライセンス: Link先を確認 | Mohammad Zohaib, Luca Cosmo, Alessio Del Bue, | (参考訳) ポイントクラウドデータ(PCD)からの教師なしの3Dキーポイント推定は複雑なタスクであり、オブジェクトの形状が変形しているときにさらに難しい。
キーポイントは、すべての3Dフレームに意味的かつ幾何学的に整合性を持たなければならないので、各キーポイントは、本質的な動きや外生的な動きに関わらず、変形する形状の特定の部分に固定されるべきである。
本稿では,人間のアノテーションを必要とせずに任意のPCDから非剛体物体の3次元キーポイントを連続的に計算する自己教師型手法「SelfGeo」を提案する。
SelfGeoのギストは、変形体の不変性を尊重するフレーム間のキーポイントを推定することである。
我々の主な貢献は、そのキーポイントをその形状に沿って変形させ、その間の測地線距離を一定に保つことである。
この原理は、非剛体形状の特定の意味的位置において、繰り返し可能なキーポイントを最小化する一連の損失の設計に伝達される。
本研究では, 動的シーンの挑戦や変形形態(人間や動物)の異なるクラスにおいて, 測地学の利用が明確な優位性を持つことを実験的に示す。
コードとデータは、https://github.com/IIT-PAVIS/SelfGeo.comで入手できる。
Unsupervised 3D keypoints estimation from Point Cloud Data (PCD) is a complex task, even more challenging when an object shape is deforming. As keypoints should be semantically and geometrically consistent across all the 3D frames - each keypoint should be anchored to a specific part of the deforming shape irrespective of intrinsic and extrinsic motion. This paper presents, "SelfGeo", a self-supervised method that computes persistent 3D keypoints of non-rigid objects from arbitrary PCDs without the need of human annotations. The gist of SelfGeo is to estimate keypoints between frames that respect invariant properties of deforming bodies. Our main contribution is to enforce that keypoints deform along with the shape while keeping constant geodesic distances among them. This principle is then propagated to the design of a set of losses which minimization let emerge repeatable keypoints in specific semantic locations of the non-rigid shape. We show experimentally that the use of geodesic has a clear advantage in challenging dynamic scenes and with different classes of deforming shapes (humans and animals). Code and data are available at: https://github.com/IIT-PAVIS/SelfGeo | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 不確実性認識強化学習のための一般化ガウス時間差誤差
Generalized Gaussian Temporal Difference Error For Uncertainty-aware Reinforcement Learning ( http://arxiv.org/abs/2408.02295v1 ) ライセンス: Link先を確認 | Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Seungeon Baek, | (参考訳) 従来の不確実性認識時間差(TD)学習法は、通常、TDエラーに対するゼロ平均ガウス分布を含む、単純化された仮定に依存する。
このような過度な単純化は、不正確なエラー表現と妥協された不確実性推定につながる可能性がある。
本稿では,離散制御と連続制御の両方に適用可能な,深層強化学習におけるガウス的誤りモデリングの新しい枠組みを提案する。
本フレームワークは,高次モーメント,特にカルトシスを組み込むことで,誤差分布モデリングの柔軟性を向上させる。
一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。
さらに,GGDを完全に活用する理論的な重み付け手法を提案する。
疫学的な不確実性に対処するため,偏りの低減とカルトシスを考慮したバッチ逆分散重み付けを改良し,ロバスト性を向上した。
政策勾配アルゴリズムを用いた大規模な実験評価は,本手法の一貫性のある有効性を示し,大幅な性能向上を示した。
Conventional uncertainty-aware temporal difference (TD) learning methods often rely on simplistic assumptions, typically including a zero-mean Gaussian distribution for TD errors. Such oversimplification can lead to inaccurate error representations and compromised uncertainty estimation. In this paper, we introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning, applicable to both discrete and continuous control settings. Our framework enhances the flexibility of error distribution modeling by incorporating higher-order moments, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent noise, i.e., aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to fully leverage the GGD. To address epistemic uncertainty, we enhance the batch inverse variance weighting by incorporating bias reduction and kurtosis considerations, resulting in improved robustness. Extensive experimental evaluations using policy gradient algorithms demonstrate the consistent efficacy of our method, showcasing significant performance improvements. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# インドにおける軽度認知障害検出のためのバイオマーカーとしての短期心電図記録からの心拍数と変動
Heart Rate and its Variability from Short-term ECG Recordings as Biomarkers for Detecting Mild Cognitive Impairment in Indian Population ( http://arxiv.org/abs/2408.02296v1 ) ライセンス: Link先を確認 | Anjo Xavier, Sneha Noble, Justin Joseph, Thomas Gregor Issac, | (参考訳) 心拍数(HR)と心拍変動(HRV)の変化は、神経変性に伴う自律神経機能障害を反映することができる。
本研究は,心電図記録の10秒間からR波ピークを検出し,HRとHRVの特徴を計算するための完全な信号処理パイプラインを設計し,インド国民におけるマイルド認知障害(MCI)の影響について検討する。
調査コホートには297人の都市参加者が参加しており、そのうち48.48%が男性、51.51%が女性である。
アデンブルックの認知検査-III(ACE-III)から、MCIは19.19%の被験者で検出され、残りは80.8%が認知的に健康である。
ビート・ツー・ビート間隔のすべてのNN間隔(SDNN)の中央傾向(平均と根平均平方(RMS))や分散(標準偏差(SD))、NN間隔の連続差(RMSSD)のルート平均平方(英語版))などの統計的特徴を計算した。
Wilcoxon rank sum testでは、NN間隔(p = 0.0021)、NN間隔(p = 0.0014)、SDNN(p = 0.0192)、RMSSD(p = 0.0206)の平均値がMCIクラスと非MCIクラスの間で大きく異なることを明らかにする。
平均NN間隔、RMS、SDNN、RMSSDによって駆動されるSVM(Support Vector Machine)、DA(Dis discriminant Analysis)、NB(Naive Bayes)などの機械学習分類器は、個々の特徴入力に対して80.80%の精度を示す。
MCI患者は健常者よりも比較的高いHRを有することが観察されている。
HRとその変動性は、MCIを検出するための潜在的なバイオマーカーと見なすことができる。
Alterations in Heart Rate (HR) and Heart Rate Variability (HRV) can reflect autonomic dysfunction associated with neurodegeneration. We investigate the influence of Mild Cognitive Impairment (MCI) on HR and its variability measures in the Indian population by designing a complete signal processing pipeline to detect the R-wave peaks and compute HR and HRV features from ECG recordings of 10 seconds, for point-of-care applications. The study cohort involves 297 urban participants, among which 48.48% are male and 51.51% are female. From the Addenbrooke's Cognitive Examination-III (ACE-III), MCI is detected in 19.19% of participants and the rest, 80.8% of them are cognitively healthy. Statistical features like central tendency (mean and root mean square (RMS) of the Normal-to-Normal (NN) intervals) and dispersion (standard deviation (SD) of all NN intervals (SDNN) and root mean square of successive differences of NN intervals (RMSSD)) of beat-to-beat intervals are computed. The Wilcoxon rank sum test reveals that mean of NN intervals (p = 0.0021), the RMS of NN intervals (p = 0.0014), the SDNN (p = 0.0192) and the RMSSD (p = 0.0206) values differ significantly between MCI and non-MCI classes, for a level of significance, 0.05. Machine learning classifiers like, Support Vector Machine (SVM), Discriminant Analysis (DA) and Naive Bayes (NB) driven by mean NN intervals, RMS, SDNN and RMSSD, show a high accuracy of 80.80% on each individual feature input. Individuals with MCI are observed to have comparatively higher HR than healthy subjects. HR and its variability can be considered as potential biomarkers for detecting MCI. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 知覚の問題:不確実性を考慮したセマンティックセマンティックセグメンテーションによる身体的AIの強化
Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation ( http://arxiv.org/abs/2408.02297v1 ) ライセンス: Link先を確認 | Sai Prasanna, Daniel Honerkamp, Kshitij Sirohi, Tim Welschehold, Wolfram Burgard, Abhinav Valada, | (参考訳) Embodied AIは、探索されていない環境での行動に大きな進歩を遂げた。
しかし、オブジェクト探索のようなタスクは、効率的なポリシー学習に重点を置いている。
本研究は,現在行われている探索手法のギャップを明らかにするものである。それらは,知覚状態の過信を考慮せずに,主として日付付き知覚モデルに焦点をあて,時間的集約を無視し,地上の真理から音の知覚へ直接移行することである。
認識確率の校正と集約間の不確実性によって同定された問題に対処し、逐次的なタスクにモデルを適用する。
得られた手法は、トレーニングコストを伴わずに、既存の検索手法の幅広いファミリーで事前訓練されたモデルと直接統合することができる。
我々は,異なるセマンティック認識モデルとポリシーの双方にまたがるアグリゲーション手法を広範囲に評価し,アグリゲーションと発見決定の両方において校正された不確実性の重要性を確認した。
コードとトレーニングされたモデルをhttp://semantic-search.cs.uni-freiburg.deで公開しています。
Embodied AI has made significant progress acting in unexplored environments. However, tasks such as object search have largely focused on efficient policy learning. In this work, we identify several gaps in current search methods: They largely focus on dated perception models, neglect temporal aggregation, and transfer from ground truth directly to noisy perception at test time, without accounting for the resulting overconfidence in the perceived state. We address the identified problems through calibrated perception probabilities and uncertainty across aggregation and found decisions, thereby adapting the models for sequential tasks. The resulting methods can be directly integrated with pretrained models across a wide family of existing search approaches at no additional training cost. We perform extensive evaluations of aggregation methods across both different semantic perception models and policies, confirming the importance of calibrated uncertainties in both the aggregation and found decisions. We make the code and trained models available at http://semantic-search.cs.uni-freiburg.de. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 帰属的説明と強化モデル学習法における後方互換性
Backward Compatibility in Attributive Explanation and Enhanced Model Training Method ( http://arxiv.org/abs/2408.02298v1 ) ライセンス: Link先を確認 | Ryuta Matsuno, | (参考訳) モデル更新はML/AIシステムの運用において重要なプロセスである。
モデルのアップデートは概して平均予測性能を高めるが、予測の説明にも大きな影響を与える。
現実世界のアプリケーションでは、説明の微妙な変更でさえ有害な結果をもたらす可能性がある。
この問題に対処するために,本論文では,事前および更新後のモデル間の特徴属性説明の後方互換性を評価する定量的な指標であるBCXを紹介する。
BCXは、実際の合意基準を利用して、事前モデルと更新後のモデルの説明の間の平均合意を計算する。
さらに,BCXを意識したモデルトレーニング手法であるBCXRを提案する。
さらに、モデルの説明の中でL2距離を利用して、すべての合意基準を改善するBCXRの普遍的な変種を示す。
提案手法の有効性を実証するため,BCXRが予測性能とBCXスコアの良好なトレードオフを達成できることを実証し,BCXR手法の有効性を示した。
Model update is a crucial process in the operation of ML/AI systems. While updating a model generally enhances the average prediction performance, it also significantly impacts the explanations of predictions. In real-world applications, even minor changes in explanations can have detrimental consequences. To tackle this issue, this paper introduces BCX, a quantitative metric that evaluates the backward compatibility of feature attribution explanations between pre- and post-update models. BCX utilizes practical agreement metrics to calculate the average agreement between the explanations of pre- and post-update models, specifically among samples on which both models accurately predict. In addition, we propose BCXR, a BCX-aware model training method by designing surrogate losses which theoretically lower bounds agreement scores. Furthermore, we present a universal variant of BCXR that improves all agreement metrics, utilizing L2 distance among the explanations of the models. To validate our approach, we conducted experiments on eight real-world datasets, demonstrating that BCXR achieves superior trade-offs between predictive performances and BCX scores, showcasing the effectiveness of our BCXR methods. | 翻訳日:2024-08-06 14:16:18 公開日:2024-08-05 |
# 低コストセルフアンサンブルのためのネットワークフィッションアンサンブル
Network Fission Ensembles for Low-Cost Self-Ensembles ( http://arxiv.org/abs/2408.02301v1 ) ライセンス: Link先を確認 | Hojung Lee, Jong-Seok Lee, | (参考訳) 近年,画像分類のためのアンサンブル学習法は,低コストで分類精度を向上させることが示されている。
しかし、アンサンブル推論には複数の訓練されたモデルが必要であるため、モデルのサイズが大きくなるとかなりの負担がかかる。
本稿では,従来のネットワーク自体をマルチエグジット構造に変換することで,NFE(Network Fission Ensembles)と呼ばれる低コストなアンサンブル学習と推論を提案する。
与えられた初期ネットワークから始めて、トレーニングの負担を軽減するために、まずいくつかの重みを経験する。
次に、残りの重みを複数の集合に分けて、各集合を用いて複数の補助経路を作成し、複数の集合を構成する。
これを Network Fission と呼ぶ。
これにより、1つのネットワークから複数の出力を得ることができ、それによってアンサンブル学習が可能になる。
このプロセスは、既存のネットワーク構造を、追加のネットワークを使わずにマルチエグゼクトに単純に変更するため、アンサンブル学習や推論に余分な計算負担は発生しない。
さらに、全出口の複数損失から学習することで、マルチエグゼクティブは正規化により性能を向上し、ネットワークの幅が増大しても高い性能を達成することができる。
本手法は,既存のアンサンブル法に比べ,大幅に改善されている。
コードはhttps://github.com/hjdw2/NFEで公開されている。
Recent ensemble learning methods for image classification have been shown to improve classification accuracy with low extra cost. However, they still require multiple trained models for ensemble inference, which eventually becomes a significant burden when the model size increases. In this paper, we propose a low-cost ensemble learning and inference, called Network Fission Ensembles (NFE), by converting a conventional network itself into a multi-exit structure. Starting from a given initial network, we first prune some of the weights to reduce the training burden. We then group the remaining weights into several sets and create multiple auxiliary paths using each set to construct multi-exits. We call this process Network Fission. Through this, multiple outputs can be obtained from a single network, which enables ensemble learning. Since this process simply changes the existing network structure to multi-exits without using additional networks, there is no extra computational burden for ensemble learning and inference. Moreover, by learning from multiple losses of all exits, the multi-exits improve performance via regularization, and high performance can be achieved even with increased network sparsity. With our simple yet effective method, we achieve significant improvement compared to existing ensemble methods. The code is available at https://github.com/hjdw2/NFE. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# SNFinLLM:中国大国語モデルの体系的・ナンス的金融ドメイン適応
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models ( http://arxiv.org/abs/2408.02302v1 ) ライセンス: Link先を確認 | Shujuan Zhao, Lingfeng Qiao, Kangyang Luo, Qian-Wen Zhang, Junru Lu, Di Yin, | (参考訳) 大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
しかし、既存の金融LLMは幻覚や表面パラメータトレーニングといった課題に直面し、特に金融コンピューティングや機械読解(MRC)において、最適以下のパフォーマンスをもたらす。
これらの課題に対処するため,我々はSNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
次に、教師付き微調整(SFT)を行い、様々な金融分野におけるモデルの習熟度を高める。
具体的には、広範な財務データを収集し、ニュース記事、専門論文、財務分野の研究報告からなる高品質な指導データセットを作成する。
ドメイン固有のデータセットと一般的なデータセットの両方を用いて、確立されたオープンソースベースモデル上で継続的な事前トレーニングを行い、SNFinLLMベースとなる。
その後、複数の財務業務にまたがるモデルの能力を高めるために、教師付き微調整(SFT)に従事します。
重要なことに、モデルと人間の嗜好をよりよく整合させるために、直感的な直接選好最適化(DPO)手法を用いる。
ファイナンスベンチマークと評価データセットで行った大規模な実験により、SNFinLLMは他の最先端の金融言語モデルよりも顕著に優れていることが示された。
詳しくは、デモビデオをご覧ください。
v=GYT-65HZwus。
Large language models (LLMs) have become powerful tools for advancing natural language processing applications in the financial industry. However, existing financial LLMs often face challenges such as hallucinations or superficial parameter training, resulting in suboptimal performance, particularly in financial computing and machine reading comprehension (MRC). To address these issues, we propose a novel large language model specifically designed for the Chinese financial domain, named SNFinLLM. SNFinLLM excels in domain-specific tasks such as answering questions, summarizing financial research reports, analyzing sentiment, and executing financial calculations. We then perform the supervised fine-tuning (SFT) to enhance the model's proficiency across various financial domains. Specifically, we gather extensive financial data and create a high-quality instruction dataset composed of news articles, professional papers, and research reports of finance domain. Utilizing both domain-specific and general datasets, we proceed with continuous pre-training on an established open-source base model, resulting in SNFinLLM-base. Following this, we engage in supervised fine-tuning (SFT) to bolster the model's capability across multiple financial tasks. Crucially, we employ a straightforward Direct Preference Optimization (DPO) method to better align the model with human preferences. Extensive experiments conducted on finance benchmarks and our evaluation dataset demonstrate that SNFinLLM markedly outperforms other state-of-the-art financial language models. For more details, check out our demo video here: https://www.youtube.com/watch?v=GYT-65HZwus. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# PROF: 利益を追求する世界における秩序の保護
PROF: Protected Order Flow in a Profit-Seeking World ( http://arxiv.org/abs/2408.02303v1 ) ライセンス: Link先を確認 | Kushal Babel, Nerla Jean-Louis, Yan Ji, Ujval Misra, Mahimna Kelkar, Kosala Yapa Mudiyanselage, Andrew Miller, Ari Juels, | (参考訳) 分散金融(DeFi)アプリケーションのユーザは、取引の順序を操作してユーザから価値を抽出する敵の行動から重大なリスクに直面します。
このような行動は、最大抽出可能な値(MEV)と呼ばれるもので、個人の成果とDeFiエコシステムの安定性の両方に影響を与える。
さらにMEVの活用は、プロポーラ・ビルダー分離(PBS)と呼ばれるアーキテクチャパラダイムを通じて制度化されている。
本稿では,既存のPBSシステムにおける有害なMEVの抑制を目的としたPROF(PRotected Order Flow)システムを提案する。
PROFは2つのアイデアを使ってこの目標を目指している。
まず、PROFはプライベートに入力されたトランザクションのセット(バンドル)に注文を強制し、プロダクションをブロックするためにすべての順序を強制します。
第二に、ProperFはプロデューサにインクルージョンが利益をもたらすバンドルを作成し、それによってバンドルがブロックにタイムリーにインクルードされることを保証する。
PROFは後方互換性があり、既存のPBSと将来のPBSの設計で動作する。
PROFはまた、PROFバンドル内でトランザクションを順序付けするための任意の望ましいアルゴリズム(例えば、ファーストカム、ファーストサービス、料金ベースなど)とも互換性がある。
低レイテンシで効率的に実行し、PBSエンティティ間で追加の信頼仮定を必要としない。
我々はPROFのインセンティブ構造を定量的に定性的に分析し、既存のソリューションと比較してユーザに対して有用性を示す。
また、PROFトランザクションの包含可能性や、エンドツーエンド実装による具体的な遅延数についても報告します。
Users of decentralized finance (DeFi) applications face significant risks from adversarial actions that manipulate the order of transactions to extract value from users. Such actions -- an adversarial form of what is called maximal-extractable value (MEV) -- impact both individual outcomes and the stability of the DeFi ecosystem. MEV exploitation, moreover, is being institutionalized through an architectural paradigm known Proposer-Builder Separation (PBS). This work introduces a system called PROF (PRotected Order Flow) that is designed to limit harmful forms of MEV in existing PBS systems. PROF aims at this goal using two ideas. First, PROF imposes an ordering on a set ("bundle") of privately input transactions and enforces that ordering all the way through to block production -- preventing transaction-order manipulation. Second, PROF creates bundles whose inclusion is profitable to block producers, thereby ensuring that bundles see timely inclusion in blocks. PROF is backward-compatible, meaning that it works with existing and future PBS designs. PROF is also compatible with any desired algorithm for ordering transactions within a PROF bundle (e.g., first-come, first-serve, fee-based, etc.). It executes efficiently, i.e., with low latency, and requires no additional trust assumptions among PBS entities. We quantitatively and qualitatively analyze incentive structure of PROF, and its utility to users compared with existing solutions. We also report on inclusion likelihood of PROF transactions, and concrete latency numbers through our end-to-end implementation. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 多面マニピュレーション検出と位置推定のための雑音混在型フォージェリ認識予測器
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization ( http://arxiv.org/abs/2408.02306v1 ) ライセンス: Link先を確認 | Changtao Miao, Qi Chu, Tao Gong, Zhentao Tan, Zhenchao Jin, Wanyi Zhuang, Man Luo, Honggang Hu, Nenghai Yu, | (参考訳) 顔操作技術の進歩により、多面シナリオにおける偽画像は徐々に複雑で現実的な課題になりつつある。
にもかかわらず、このような多面的操作の検出と位置決め手法は未開発のままである。
従来の操作局所化手法は、局所化マスクから間接的に検出結果を導出し、検出性能が制限されるか、2分岐構造を用いて検出と局所化結果の同時取得が可能であり、2つのタスク間の限られた相互作用により、ローカライズ能力を効果的に活用できない。
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
MoNFAPは主に2つの新しいモジュールを導入している: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
FUPは、トークン学習戦略と複数のフォージェリー対応トランスフォーマーを用いた検出とローカライゼーションタスクを統合し、ローカライゼーション能力を高めるために、分類情報の利用を容易にする。
さらに,MNMでは,複数のノイズ抽出器を専門家の混在の概念に基づいて活用し,一般的なRGB機能を強化し,フレームワークの性能をさらに向上させる。
最後に,多面顔検出と局所化のための総合的なベンチマークを構築し,提案した‘textit{MoNFAP} は高い性能を実現する。
コードは利用可能になります。
With the advancement of face manipulation technology, forgery images in multi-face scenarios are gradually becoming a more complex and realistic challenge. Despite this, detection and localization methods for such multi-face manipulations remain underdeveloped. Traditional manipulation localization methods either indirectly derive detection results from localization masks, resulting in limited detection performance, or employ a naive two-branch structure to simultaneously obtain detection and localization results, which cannot effectively benefit the localization capability due to limited interaction between two tasks. This paper proposes a new framework, namely MoNFAP, specifically tailored for multi-face manipulation detection and localization. The MoNFAP primarily introduces two novel modules: the Forgery-aware Unified Predictor (FUP) Module and the Mixture-of-Noises Module (MNM). The FUP integrates detection and localization tasks using a token learning strategy and multiple forgery-aware transformers, which facilitates the use of classification information to enhance localization capability. Besides, motivated by the crucial role of noise information in forgery detection, the MNM leverages multiple noise extractors based on the concept of the mixture of experts to enhance the general RGB features, further boosting the performance of our framework. Finally, we establish a comprehensive benchmark for multi-face detection and localization and the proposed \textit{MoNFAP} achieves significant performance. The codes will be made available. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# マルチブランチ変換とグループ畳み込みに基づく低コスト自己集合
Low-Cost Self-Ensembles Based on Multi-Branch Transformation and Grouped Convolution ( http://arxiv.org/abs/2408.02307v1 ) ライセンス: Link先を確認 | Hojung Lee, Jong-Seok Lee, | (参考訳) 近年の低コストアンサンブル学習の進歩により,画像分類の効率化が図られている。
しかし,既存のアンサンブル法は従来のアンサンブル学習に比べて比較的精度が低い。
本稿では,高い効率と分類性能を同時に達成できる,低コストなアンサンブル学習を提案する。
CNNは追加のコンポーネントを導入することなくマルチブランチ構造に変換され、元の単一モデルの計算複雑性を維持し、枝の異なる経路間の十分な分離によって枝の出力の多様性を高める。
さらに,各枝に異なる数の群を持つ枝に群化畳み込みを適用し,枝の出力の多様性を高める新しい戦略を提案する。
学習には,教師の信号として出力のアンサンブルを用いた知識蒸留を用いる。
出力の多様性が高いため、強力な教師を形成し、個々のブランチの分類性能を高め、結果として全体のアンサンブル性能を高めることができる。
実験の結果,従来の低コストアンサンブル法と比較して,最先端の分類精度と不確実性評価性能が向上していることがわかった。
コードはhttps://github.com/hjdw2/SEMBGで入手できる。
Recent advancements in low-cost ensemble learning have demonstrated improved efficiency for image classification. However, the existing low-cost ensemble methods show relatively lower accuracy compared to conventional ensemble learning. In this paper, we propose a new low-cost ensemble learning, which can simultaneously achieve high efficiency and classification performance. A CNN is transformed into a multi-branch structure without introduction of additional components, which maintains the computational complexity as that of the original single model and also enhances diversity among the branches' outputs via sufficient separation between different pathways of the branches. In addition, we propose a new strategy that applies grouped convolution in the branches with different numbers of groups in different branches, which boosts the diversity of the branches' outputs. For training, we employ knowledge distillation using the ensemble of the outputs as the teacher signal. The high diversity among the outputs enables to form a powerful teacher, enhancing the individual branch's classification performance and consequently the overall ensemble performance. Experimental results show that our method achieves state-of-the-art classification accuracy and higher uncertainty estimation performance compared to previous low-cost ensemble methods. The code is available at https://github.com/hjdw2/SEMBG. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 低周波発振器を用いた力学カシミール効果の実現
Realizing mechanical dynamical Casimir effect with low-frequency oscillator ( http://arxiv.org/abs/2408.02308v1 ) ライセンス: Link先を確認 | Tian-hao Jiang, Jun Jing, | (参考訳) キャビティモード,低周波メカニカル発振器,2レベル原子系からなるハイブリッドオプティメカルシステムにおいて,機械力学カシミール効果(DCE)を実現する。
実効ハミルトニアンによって説明され、機械エネルギーは3波混合機構によって出力光子に直接変換される。
超伝導回路のようなパラメトリックDCEの量子シミュレーションとは大きく異なる。
本稿では,実効結合強度と損失率の比について,各制度のシステム力学をマスター方程式を用いて解析する。
強い結合状態下での力学は、機械的励起と原子的励起の消滅によって光子を生成するための様々な3波混合過程を確認する。
また、弱い結合状態下では、機械振動子と原子の両方を駆動することで光子の連続的な生成を示す。
この2レベルシステムにより,2光子共鳴下で標準DCEで要求される高周波機械振動子に対する厳密な要求を回避できる。
機械周波数は出力光子よりも約2桁小さいことが判明した。
We realize the mechanical dynamical Casimir effect (DCE) in a hybrid optomechanical system consisting of a cavity mode, a low-frequency mechanical oscillator, and a two-level atomic system. Described by the effective Hamiltonian, the mechanical energy is found to be directly converted into the output photons through a three-wave-mixing mechanism. It is dramatically distinct from the quantum simulation of a parametric DCE in such as superconducting circuits. Using a master-equation approach, we analyze the system dynamics in various regimes with respect to the ratio of the effective coupling strength and the loss rate of the system. The dynamics under the strong-coupling regime confirms various three-wave-mixing process for creating photons by annihilation of the mechanical and atomic excitations. And that under the weak-coupling regime demonstrates the continuous production of photons by driving both mechanical oscillator and atom. By virtue of the two-level system, our method avoids the rigorous requirement for the high-frequency mechanical oscillator, that was demanded in standard DCE under the double-photon resonance. It is found that the mechanical frequency can be about two orders of magnitude smaller than the output photons. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# マルウェア検出器の逆サンプルに対するロバスト性について
On the Robustness of Malware Detectors to Adversarial Samples ( http://arxiv.org/abs/2408.02310v1 ) ライセンス: Link先を確認 | Muhammad Salman, Benjamin Zi Hao Zhao, Hassan Jameel Asghar, Muhammad Ikram, Sidharth Kaushik, Mohamed Ali Kaafar, | (参考訳) 敵対的な例は、機械学習モデルにおける誤分類を誘発する目的で、入力に知覚不可能な変更を加える。
画像分類のような領域では大きな課題が示されており、ある分類器に対する検出を回避しようとする逆摂動画像が、他の分類器に転送可能である可能性が最も高いことが示されている。
敵対的な例は、マルウェア分析においても研究されている。
画像とは異なり、プログラムバイナリは機能しないまま任意に摂動することはできない。
逆プログラムバイナリを作成するのが困難であるため、逆プログラムを異なる検出器に転送する可能性については合意が得られない。
本研究では,マルウェア検出装置の対向的摂動マルウェアに対する堅牢性について検討する。
本研究では、他の機械学習ベースのマルウェア検出装置に対して、ある検出器に対して開発された敵攻撃の転送可能性、およびコード類似性、特に局所性に敏感なハッシュ検出装置について検討する。
解析の結果,1つの検出器で構築された対向プログラムバイナリは,一般に他の検出器に対して効果が低いことが明らかとなった。
また, 検出器のアンサンブルを評価した結果, 対向プログラムバイナリの影響を軽減できる可能性が示唆された。
最後に,検出を回避するために行われたプログラム変更が,プログラムバイナリに最小限の変更を行なわなければならないことを示す。
Adversarial examples add imperceptible alterations to inputs with the objective to induce misclassification in machine learning models. They have been demonstrated to pose significant challenges in domains like image classification, with results showing that an adversarially perturbed image to evade detection against one classifier is most likely transferable to other classifiers. Adversarial examples have also been studied in malware analysis. Unlike images, program binaries cannot be arbitrarily perturbed without rendering them non-functional. Due to the difficulty of crafting adversarial program binaries, there is no consensus on the transferability of adversarially perturbed programs to different detectors. In this work, we explore the robustness of malware detectors against adversarially perturbed malware. We investigate the transferability of adversarial attacks developed against one detector, against other machine learning-based malware detectors, and code similarity techniques, specifically, locality sensitive hashing-based detectors. Our analysis reveals that adversarial program binaries crafted for one detector are generally less effective against others. We also evaluate an ensemble of detectors and show that they can potentially mitigate the impact of adversarial program binaries. Finally, we demonstrate that substantial program changes made to evade detection may result in the transformation technique being identified, implying that the adversary must make minimal changes to the program binary. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# PTM4Tag+: 事前学習モデルによるスタックオーバーフローポストのタッグレコメンデーション
PTM4Tag+: Tag Recommendation of Stack Overflow Posts with Pre-trained Models ( http://arxiv.org/abs/2408.02311v1 ) ライセンス: Link先を確認 | Junda He, Bowen Xu, Zhou Yang, DongGyun Han, Chengran Yang, Jiakun Liu, Zhipeng Zhao, David Lo, | (参考訳) Stack Overflowは、最も影響力のあるSoftware Question & Answer(SQA)Webサイトのひとつで、数百万のプログラミング関連の質問と回答をホストしている。
タグはStack Overflowでコンテンツを効率的に整理する上で重要な役割を担い、関連するコンテンツをクエリするなど、さまざまなサイト操作をサポートする上で不可欠である。
未選択のタグは、タグの曖昧さやタグの爆発といった問題を引き起こすことが多い。
これにより、高精度かつ正確な自動タグレコメンデーション技術が要求される。
自然言語処理(NLP)における事前学習モデル(PTM)の成功に触発されて,言語モデリングにPTMを利用するStack OverflowポストのタグレコメンデーションフレームワークであるPTM4Tag+を紹介した。
PTM4Tag+はトリプルトアーキテクチャで実装されており、投稿の3つの重要なコンポーネント、すなわち、タイトル、記述、コード、および独立なPTMを考慮に入れている。
我々は、BERTベースのモデル(例えば、BERT、RoBERTa、CodeBERT、BERTOverflow、ALBERT)やエンコーダデコーダモデル(例えば、PLBART、CoTexT、CodeT5)など、人気のある事前訓練モデルを活用している。
PTM4Tag+ フレームワークでの CodeT5 の利用は,8つの検討された PTM の中で最高の性能を達成し,平均的な P recision@k,Recall@k,F1-score@k (k は 1 から 5 の範囲) において,最先端の畳み込みニューラルネットワークベースのアプローチよりかなり優れていることを示す。
具体的には、CodeT5はF1-score@1-5のパフォーマンスを8.8%、12.4%、15.3%、16.4%、16.6%改善している。
さらに、推論遅延に関する懸念に対処するため、より小さなPTMモデル(DistorBERT、DistilRoBERTa、CodeBERT-small、CodeT5-small)でPTM4Tag+を実験する。
より小さな PTM はより大きな PTM を上回りませんが、平均的なパフォーマンスの93.96% 以上を維持しつつ、平均推論時間を47.2% 以上短縮しています。
Stack Overflow is one of the most influential Software Question & Answer (SQA) websites, hosting millions of programming-related questions and answers. Tags play a critical role in efficiently organizing the contents in Stack Overflow and are vital to support a range of site operations, e.g., querying relevant content. Poorly selected tags often raise problems like tag ambiguity and tag explosion. Thus, a precise and accurate automated tag recommendation technique is demanded. Inspired by the recent success of pre-trained models (PTMs) in natural language processing (NLP), we present PTM4Tag+, a tag recommendation framework for Stack Overflow posts that utilizes PTMs in language modeling. PTM4Tag+ is implemented with a triplet architecture, which considers three key components of a post, i.e., Title, Description, and Code, with independent PTMs. We utilize a number of popular pre-trained models, including the BERT-based models (e.g., BERT, RoBERTa, CodeBERT, BERTOverflow, and ALBERT), and encoder-decoder models (e.g., PLBART, CoTexT, and CodeT5). Our results show that leveraging CodeT5 under the PTM4Tag+ framework achieves the best performance among the eight considered PTMs and outperforms the state-of-the-art Convolutional Neural Network-based approach by a substantial margin in terms of average P recision@k, Recall@k, and F1-score@k (k ranges from 1 to 5). Specifically, CodeT5 improves the performance of F1-score@1-5 by 8.8%, 12.4%, 15.3%, 16.4%, and 16.6%. Moreover, to address the concern with inference latency, we experiment PTM4Tag+ with smaller PTM models (i.e., DistilBERT, DistilRoBERTa, CodeBERT-small, and CodeT5-small). We find that although smaller PTMs cannot outperform larger PTMs, they still maintain over 93.96% of the performance on average, meanwhile shortening the mean inference time by more than 47.2% | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 期待の最大化と信頼の伝播に基づく反復的ブラインド検出の最適化
Optimization of Iterative Blind Detection based on Expectation Maximization and Belief Propagation ( http://arxiv.org/abs/2408.02312v1 ) ライセンス: Link先を確認 | Luca Schmid, Tomer Raviv, Nir Shlezinger, Laurent Schmalen, | (参考訳) ブロックフェディング線形シンボル間干渉チャネルに対する繰り返しブラインドシンボル検出法について検討した。
因子グラフフレームワークに基づいて,予測最大化(EM)アルゴリズムとユビキタス信念伝搬(BP)アルゴリズムを組み合わせた共同チャネル推定・検出手法を設計する。
両スキームの繰り返しをインターウィービングすることで、EMアルゴリズムの計算負担を著しく低減し、優れた性能を維持している。
そこで本研究では,EMパラメータ更新とBPメッセージパッシングの両方にモーメントを導入することで,パラメータ更新スケジュールの検索に,単純かつ効果的なモデルベース学習手法を適用した。
数値シミュレーションにより,提案手法は効率の良いスケジュールを学習し,高信号対雑音シナリオにおけるコヒーレントBP検出よりも優れることを確認した。
We study iterative blind symbol detection for block-fading linear inter-symbol interference channels. Based on the factor graph framework, we design a joint channel estimation and detection scheme that combines the expectation maximization (EM) algorithm and the ubiquitous belief propagation (BP) algorithm. Interweaving the iterations of both schemes significantly reduces the EM algorithm's computational burden while retaining its excellent performance. To this end, we apply simple yet effective model-based learning methods to find a suitable parameter update schedule by introducing momentum in both the EM parameter updates as well as in the BP message passing. Numerical simulations verify that the proposed method can learn efficient schedules that generalize well and even outperform coherent BP detection in high signal-to-noise scenarios. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 動的マルウェア解析・検出のためのリーントランスモデル
A Lean Transformer Model for Dynamic Malware Analysis and Detection ( http://arxiv.org/abs/2408.02313v1 ) ライセンス: Link先を確認 | Tony Quertier, Benjamin Marais, Grégoire Barrué, Stéphane Morucci, Sévan Azé, Sébastien Salladin, | (参考訳) マルウェアは現代のコンピューティングの世界にとって急速に成長する脅威であり、既存の防衛線はこの問題に対処するのに十分な効率性を持っていない。
これは主に、多くの予防ソリューションが、ハッカーが容易に回避できるシグネチャベースの検出方法に依存しているためである。
したがって、不審なファイルを安全な環境で実行し、そのトレースを分析のためにレポートに収集する、行動に基づく分析が繰り返し必要となる。
これまでの研究では、これらの実行レポートから抽出したニューラルネットワークとAPI呼び出しシーケンスを活用することに成功した。
最近、Large Language ModelsとGenerative AIは、主に自然言語処理タスクにおける印象的な機能と、攻撃者とディフェンダーの両方にとってサイバーセキュリティ分野における有望な応用を実証している。
本稿では,Transformersアーキテクチャに基づくEncoder-Onlyモデルを設計し,悪意のあるファイルを検出し,実行エミュレーションソリューションによって収集されたAPI呼び出しシーケンスを消化する。
私たちはまた、モデルアーキテクチャのサイズとパラメータの数を制限しています。
適切な検出結果の達成に加えて、トレーニングと推論時間を制限し、ハードウェア要件の少ない技術的操作を容易にすることで、カーボンフットプリントを削減するというメリットもある。
また、この結果を分析し、悪意のあるファイルを解析するためにTransformerを使用する場合の限界と改善点を強調します。
Malware is a fast-growing threat to the modern computing world and existing lines of defense are not efficient enough to address this issue. This is mainly due to the fact that many prevention solutions rely on signature-based detection methods that can easily be circumvented by hackers. Therefore, there is a recurrent need for behavior-based analysis where a suspicious file is ran in a secured environment and its traces are collected to reports for analysis. Previous works have shown some success leveraging Neural Networks and API calls sequences extracted from these execution reports. Recently, Large Language Models and Generative AI have demonstrated impressive capabilities mainly in Natural Language Processing tasks and promising applications in the cybersecurity field for both attackers and defenders. In this paper, we design an Encoder-Only model, based on the Transformers architecture, to detect malicious files, digesting their API call sequences collected by an execution emulation solution. We are also limiting the size of the model architecture and the number of its parameters since it is often considered that Large Language Models may be overkill for specific tasks such as the one we are dealing with hereafter. In addition to achieving decent detection results, this approach has the advantage of reducing our carbon footprint by limiting training and inference times and facilitating technical operations with less hardware requirements. We also carry out some analysis of our results and highlight the limits and possible improvements when using Transformers to analyze malicious files. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# サイバーセキュリティのための量子クラスタリング
Quantum Clustering for Cybersecurity ( http://arxiv.org/abs/2408.02314v1 ) ライセンス: Link先を確認 | Walid El Maouaki, Nouhaila Innan, Alberto Marchisio, Taoufik Said, Mohamed Bennai, Muhammad Shafique, | (参考訳) 本研究では,脆弱性の種類,重大度レベル,共通脆弱性スコアリングシステム(CVSS)スコア,製品仕様などの詳細な情報を含む2022 CISA Known Exploited Vulnerabilitiesカタログのデータを用いて,サイバーセキュリティの脆弱性を分析する新しい量子機械学習(QML)フレームワークを開発する。
我々のフレームワークは、これらのデータを量子互換フォーマットにプリプロセスし、先進的な量子技術、QCSWAPK-means、QkernelK-meansを通じてクラスタリング分析を可能にする。
これらの量子アルゴリズムは、k平均やスペクトルクラスタリングのような最先端の古典的クラスタリング技術よりも優れた性能を示し、シルエットスコアは0.491、デイビー=ボルディン指数は0.745以下、カリンスキー=ハラバススコアは84を超える。
私たちのフレームワークでは脆弱性を,さまざまなレベルのリスク重大さを反映して,さまざまなグループに分類しています。 主にMicrosoft関連の重要な脆弱性で構成されているCluster 0,さまざまなエンタープライズソフトウェアベンダとネットワークソリューションによる中程度の重大さの脆弱性を特徴とするCluster 1,AdobeやCisco,Googleによる高重大さの脆弱性を備えたCluster 2,MicrosoftとOracleによる脆弱性を中程度の重大さで包含するCluster 3。
これらの知見は、QMLが脆弱性評価と優先順位付けの精度を高める可能性を強調し、より戦略的で積極的な防御メカニズムを有効にすることでサイバーセキュリティの実践を推進している。
In this study, we develop a novel quantum machine learning (QML) framework to analyze cybersecurity vulnerabilities using data from the 2022 CISA Known Exploited Vulnerabilities catalog, which includes detailed information on vulnerability types, severity levels, common vulnerability scoring system (CVSS) scores, and product specifics. Our framework preprocesses this data into a quantum-compatible format, enabling clustering analysis through our advanced quantum techniques, QCSWAPK-means and QkernelK-means. These quantum algorithms demonstrate superior performance compared to state-of-the-art classical clustering techniques like k-means and spectral clustering, achieving Silhouette scores of 0.491, Davies-Bouldin indices below 0.745, and Calinski-Harabasz scores exceeding 884, indicating more distinct and well-separated clusters. Our framework categorizes vulnerabilities into distinct groups, reflecting varying levels of risk severity: Cluster 0, primarily consisting of critical Microsoft-related vulnerabilities; Cluster 1, featuring medium severity vulnerabilities from various enterprise software vendors and network solutions; Cluster 2, with high severity vulnerabilities from Adobe, Cisco, and Google; and Cluster 3, encompassing vulnerabilities from Microsoft and Oracle with high to medium severity. These findings highlight the potential of QML to enhance the precision of vulnerability assessments and prioritization, advancing cybersecurity practices by enabling more strategic and proactive defense mechanisms. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# XDCネットワークアセスメント:分散化、スケーラビリティ、セキュリティ
XDC Network Assessment: Decentralization, Scalability and Security ( http://arxiv.org/abs/2408.02318v1 ) ライセンス: Link先を確認 | Mohuya Chakraborty, Atul Khekade, | (参考訳) 2019年にXinFinは、エンタープライズ対応のハイブリッドブロックチェーンプラットホームXDCネットワークを発表した。
XDCネットワークの概観は現在、GitHubのようなコミュニティ主導のプロジェクトを通じて、XDCネットワークの成長、拡張、導入を促進するために設立された非営利団体であるXDC Foundationである。
この白書では、XDCネットワークの分散化、スケーラビリティ、セキュリティ面のリアルタイム評価と、以下に示す中本係数の推定について論じる。
高い係数はより大きな分散化を示し、低い数値は破壊リスクの増加を表す。
XDCネットワークの高中本係数のリアルタイム計算は、その高度に分散化された特性を示す。
この記事は、コンセンサスと実行クライアントの多様性、ホストの配布、地理的分布、および際立った問題とビジネス上の考慮事項についても論じている。
XinFin, in 2019, unveiled the XDC network, an enterprise-ready hybrid blockchain platform that is open-source and specializes in tokenization for real-world decentralized finance. Overseeing the XDC network is currently the XDC Foundation, a non-profit organization established to encourage the growth, enhancement, and adoption of the XDC Network through community-driven projects such as GitHub. This whitepaper discusses the real-time assessment of the XDC network's decentralization, scalability, and security aspects as well as the Nakamoto coefficient estimation that follows, which is a measure of a decentralized system's decentralization nature that quantifies the minimal number of nodes or entities needed to compromise the system. A high coefficient denotes greater decentralization, while a low number denotes increased disruption risk. The XDC network's real-time computation of the high Nakamoto coefficient demonstrates its highly decentralized character. The article also addresses the diversity of consensus and execution clients, the host distribution, the geo-distribution, and some of the outstanding issues and business considerations. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 拡散モデルの確率フローODEに対するシャープ収束理論
A Sharp Convergence Theory for The Probability Flow ODEs of Diffusion Models ( http://arxiv.org/abs/2408.02320v1 ) ライセンス: Link先を確認 | Gen Li, Yuting Wei, Yuejie Chi, Yuxin Chen, | (参考訳) 拡散過程を逆転させる学習によって、ノイズを新しいデータインスタンスに変換する拡散モデルは、現代の生成モデリングの基盤となっている。
本研究では,Stein スコア関数の $\ell_2$-accurate 推定を前提として,拡散型サンプリング器(すなわち,確率フロー ODE サンプリング器)の離散時間での非漸近収束理論を開発する。
for distributions in $\mathbb{R}^d$, we prove that $d/\varepsilon$ iterations -- modulo some logarithmic and lower-order terms -- is enough to almost the target distribution to within $\varepsilon$ total-variation distance。
これは確率フローODEサンプリング器のほぼ線形次元依存性($d$)を確立する最初の結果である。
対象データ分布に最小限の仮定(例えば、滑らかさの仮定は課されない)を課すことで、この結果はまた、$\ell_2$スコア推定誤差がデータ生成プロセスの品質にどのように影響するかを特徴付ける。
従来の研究とは対照的に,本理論はSDEやODEツールボックスを使わずに,基本的かつ多目的な非漸近的アプローチに基づいて開発されている。
Diffusion models, which convert noise into new data instances by learning to reverse a diffusion process, have become a cornerstone in contemporary generative modeling. In this work, we develop non-asymptotic convergence theory for a popular diffusion-based sampler (i.e., the probability flow ODE sampler) in discrete time, assuming access to $\ell_2$-accurate estimates of the (Stein) score functions. For distributions in $\mathbb{R}^d$, we prove that $d/\varepsilon$ iterations -- modulo some logarithmic and lower-order terms -- are sufficient to approximate the target distribution to within $\varepsilon$ total-variation distance. This is the first result establishing nearly linear dimension-dependency (in $d$) for the probability flow ODE sampler. Imposing only minimal assumptions on the target data distribution (e.g., no smoothness assumption is imposed), our results also characterize how $\ell_2$ score estimation errors affect the quality of the data generation processes. In contrast to prior works, our theory is developed based on an elementary yet versatile non-asymptotic approach without the need of resorting to SDE and ODE toolboxes. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 曲線統計多様体における高次相互作用による爆発的ニューラルネットワーク
Explosive neural networks via higher-order interactions in curved statistical manifolds ( http://arxiv.org/abs/2408.02326v1 ) ライセンス: Link先を確認 | Miguel Aguilera, Pablo A. Morales, Fernando E. Rosas, Hideaki Shimazaki, | (参考訳) 高次の相互作用は、生物学的ニューラルネットワークや人工ニューラルネットワークのようなシステムにおいて複雑な現象をもたらすが、その研究は、牽引可能な標準モデルが欠如しているために困難である。
曲線統計多様体の最大エントロピー原理を利用して、高次現象を研究するための原型モデルのクラスとして曲線ニューラルネットワークを導入する。
平均フィールドの正確な記述を通して、これらの曲線ニューラルネットワークは、メモリの検索を高速化する自己制御型アニールプロセスを実装し、マルチ安定性とヒステリシス効果を持つ爆発的秩序の相転移を引き起こすことを示す。
さらに, 強磁性相とスピングラス相の境界付近の複製手法を用いてメモリ容量を解析的に探索することにより, これらのネットワークが古典的連想メモリネットワークよりもメモリ容量を向上させることを示す。
全体として、提案フレームワークは解析的な研究に相似的なモデルを提供し、複雑なネットワークシステムにおける新しい高次現象を明らかにする。
Higher-order interactions underlie complex phenomena in systems such as biological and artificial neural networks, but their study is challenging due to the lack of tractable standard models. By leveraging the maximum entropy principle in curved statistical manifolds, here we introduce curved neural networks as a class of prototypical models for studying higher-order phenomena. Through exact mean-field descriptions, we show that these curved neural networks implement a self-regulating annealing process that can accelerate memory retrieval, leading to explosive order-disorder phase transitions with multi-stability and hysteresis effects. Moreover, by analytically exploring their memory capacity using the replica trick near ferromagnetic and spin-glass phase boundaries, we demonstrate that these networks enhance memory capacity over the classical associative-memory networks. Overall, the proposed framework provides parsimonious models amenable to analytical study, revealing novel higher-order phenomena in complex network systems. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# ジェネラリストからスペシャリストへ:CWE特有の脆弱性検出を探る
From Generalist to Specialist: Exploring CWE-Specific Vulnerability Detection ( http://arxiv.org/abs/2408.02329v1 ) ライセンス: Link先を確認 | Syafiq Al Atiiq, Christian Gehrmann, Kevin Dahlén, Karim Khalil, | (参考訳) 機械学習を用いた脆弱性検出(VD)は、重大な課題に直面している。
それぞれの共通弱度列挙(CWE)は、異なる特徴、コードセマンティクス、パターンを持つ脆弱性のユニークなカテゴリである。
すべての脆弱性をバイナリ分類アプローチで単一のラベルとして扱うことは、各CWEのニュアンスやコンテキスト固有のニュアンスをキャプチャできないため、問題を単純化する可能性がある。
結果として、単一のバイナリ分類器は、脆弱性タイプの複雑さを理解するのではなく、表面的なテキストパターンにのみ依存する可能性がある。
最近の報告では、数十億のパラメータを持つ最先端のLarge Language Model(LLM)でさえ、脆弱性を検出するためにうまく一般化するのに苦労している。
本研究は,脆弱性型の不均一性に対処するために,CWE固有の分類器を利用する別のアプローチについて検討する。
我々は、各CWEごとに個別の分類器を訓練することで、モデルが各脆弱性カテゴリに関連付けられたユニークな特徴とコードセマンティクスをキャプチャできると仮定する。
これを確認するために,各CWEに対して個別分類器を訓練し,その性能を独立して評価することでアブレーション研究を行う。
その結果、CWE固有の分類器は、すべての脆弱性で訓練された単一のバイナリ分類器よりも優れていることが示された。
これに基づいて、マルチクラスアプローチを用いて、それらを統合された脆弱性検出システムに組み込む戦略を探究する。
脆弱性検出のための大規模かつ高品質なデータセットの欠如が依然として大きな障害であるとしても,本研究の結果から,将来的にはマルチクラス検出が現実的な脆弱性検出への道のりとなる可能性が示唆された。
結果を生成するためのモデルとコードは、すべてオープンソースです。
Vulnerability Detection (VD) using machine learning faces a significant challenge: the vast diversity of vulnerability types. Each Common Weakness Enumeration (CWE) represents a unique category of vulnerabilities with distinct characteristics, code semantics, and patterns. Treating all vulnerabilities as a single label with a binary classification approach may oversimplify the problem, as it fails to capture the nuances and context-specific to each CWE. As a result, a single binary classifier might merely rely on superficial text patterns rather than understanding the intricacies of each vulnerability type. Recent reports showed that even the state-of-the-art Large Language Model (LLM) with hundreds of billions of parameters struggles to generalize well to detect vulnerabilities. Our work investigates a different approach that leverages CWE-specific classifiers to address the heterogeneity of vulnerability types. We hypothesize that training separate classifiers for each CWE will enable the models to capture the unique characteristics and code semantics associated with each vulnerability category. To confirm this, we conduct an ablation study by training individual classifiers for each CWE and evaluating their performance independently. Our results demonstrate that CWE-specific classifiers outperform a single binary classifier trained on all vulnerabilities. Building upon this, we explore strategies to combine them into a unified vulnerability detection system using a multiclass approach. Even if the lack of large and high-quality datasets for vulnerability detection is still a major obstacle, our results show that multiclass detection can be a better path toward practical vulnerability detection in the future. All our models and code to produce our results are open-sourced. | 翻訳日:2024-08-06 14:06:30 公開日:2024-08-05 |
# 長期ビデオ言語接地における環境制約の注入
Infusing Environmental Captions for Long-Form Video Language Grounding ( http://arxiv.org/abs/2408.02336v1 ) ライセンス: Link先を確認 | Hyogun Lee, Soyeon Hong, Mujeen Sung, Jinwoo Choi, | (参考訳) 本研究では,長大なビデオ言語グラウンドリング(VLG)の問題に取り組む。
長文のビデオと自然言語のクエリが与えられた場合、モデルはクエリに応答する正確な瞬間を時間的にローカライズする必要がある。
人間は、経験から得られた広範囲で堅牢な知識を使って、無関係な瞬間を捨てることで、任意に長いビデオでも簡単にVLGのタスクを解ける。
人間とは異なり、既存のVLG法は、たとえ無関係なフレーム内であっても、小さなデータセットから学んだ表面的な手がかりに陥る傾向がある。
この課題を解決するために,マルチモーダル大規模言語モデル(MLLM)が提供するリッチなテキスト情報を活用するVLG手法であるEI-VLGを提案する。
提案手法の有効性を,EgoNLQベンチマークを用いた広範囲な実験により検証した。
In this work, we tackle the problem of long-form video-language grounding (VLG). Given a long-form video and a natural language query, a model should temporally localize the precise moment that answers the query. Humans can easily solve VLG tasks, even with arbitrarily long videos, by discarding irrelevant moments using extensive and robust knowledge gained from experience. Unlike humans, existing VLG methods are prone to fall into superficial cues learned from small-scale datasets, even when they are within irrelevant frames. To overcome this challenge, we propose EI-VLG, a VLG method that leverages richer textual information provided by a Multi-modal Large Language Model (MLLM) as a proxy for human experiences, helping to effectively exclude irrelevant frames. We validate the effectiveness of the proposed method via extensive experiments on a challenging EgoNLQ benchmark. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# ポーランド語のためのPUGGの開発:KBQA, MRC, IRデータセット構築への最近のアプローチ
Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction ( http://arxiv.org/abs/2408.02337v1 ) ライセンス: Link先を確認 | Albert Sawczyn, Katsiaryna Viarenich, Konrad Wojtasik, Aleksandra Domogała, Marcin Oleksy, Maciej Piasecki, Tomasz Kajdanowicz, | (参考訳) AIと自然言語処理の進歩は、質問応答(QA)システムが重要な役割を果たすなど、機械学習と自然言語の相互作用に革命をもたらした。
構造化知識グラフ(KG)を利用した知識ベース質問応答(KBQA)タスクは、幅広い知識集約的な質問を処理することができる。
しかし、KBQAデータセット、特に低リソース言語には大きなギャップがある。
これらのデータセットのための既存の構築パイプラインの多くは時代遅れで、人間の作業では効率が悪く、Large Language Models (LLM)のような現代的な補助ツールを使用していない。
これを解決するために、KBQA、Machine Reading Comprehension(MRC)、Information Retrieval(IR)といったタスクを包含し、低リソース環境向けに明示的に調整された、データセット作成のための現代的な半自動化アプローチを設計、実装しました。
我々はこのパイプラインを実行し、PUGGデータセット、最初のポーランドのKBQAデータセット、MSCとIRのための新しいデータセットを導入した。
さらに、総合的な実装、洞察力のある発見、詳細な統計、ベースラインモデルの評価を提供する。
Advancements in AI and natural language processing have revolutionized machine-human language interactions, with question answering (QA) systems playing a pivotal role. The knowledge base question answering (KBQA) task, utilizing structured knowledge graphs (KG), allows for handling extensive knowledge-intensive questions. However, a significant gap exists in KBQA datasets, especially for low-resource languages. Many existing construction pipelines for these datasets are outdated and inefficient in human labor, and modern assisting tools like Large Language Models (LLM) are not utilized to reduce the workload. To address this, we have designed and implemented a modern, semi-automated approach for creating datasets, encompassing tasks such as KBQA, Machine Reading Comprehension (MRC), and Information Retrieval (IR), tailored explicitly for low-resource environments. We executed this pipeline and introduced the PUGG dataset, the first Polish KBQA dataset, and novel datasets for MRC and IR. Additionally, we provide a comprehensive implementation, insightful findings, detailed statistics, and evaluation of baseline models. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# マルチモーダル最適化問題に対するランドスケープ対応差分進化
A Landscape-Aware Differential Evolution for Multimodal Optimization Problems ( http://arxiv.org/abs/2408.02340v1 ) ライセンス: Link先を確認 | Guo-Yun Lin, Zong-Gan Chen, Yuncheng Jiang, Zhi-Hui Zhan, Jun Zhang, | (参考訳) マルチモーダル最適化問題(MMOP)を解く上では,複数のグローバルピークを同時に検出し,検出したピーク上で一定の精度を達成する方法が重要な2つの課題である。
本稿では,ランドスケープ・アウェア・ディファレンシャル・進化(LADE)アルゴリズムを提案する。
より詳しくは、景観知識は以下の3つの側面で効果的に活用される。
まず、ランドスケープを意識したピーク探索により、各個体が適応的にピークを見つけるのに役立ち、探索履歴に従ってピークの領域をシミュレートし、ピークの位置を特定できないようにする。
第2に、ランドスケープを意識したピーク区別は、個人が新しいグローバルピーク、新しいローカルピーク、または見つかったピークを特定できるかどうかを区別する。
したがって、精度の向上は、探索効率を高めるために、グローバルピークでのみ行うことができる。
第三に、ランドスケープを意識した再初期化は、発見されたピークの分布に応じて個人の初期位置を適応的に特定し、より多くのピークを探索するのに役立つ。
実験は、広く使用されている20のベンチマークMMOPで実施される。
LADEは、最近提案された7つの高性能アルゴリズムと、マルチモーダル最適化のためのIEEE CECコンペティションにおける4つの勝者アルゴリズムと比較して、一般的に良い、あるいは競争的な性能が得られることを示した。
How to simultaneously locate multiple global peaks and achieve certain accuracy on the found peaks are two key challenges in solving multimodal optimization problems (MMOPs). In this paper, a landscape-aware differential evolution (LADE) algorithm is proposed for MMOPs, which utilizes landscape knowledge to maintain sufficient diversity and provide efficient search guidance. In detail, the landscape knowledge is efficiently utilized in the following three aspects. First, a landscape-aware peak exploration helps each individual evolve adaptively to locate a peak and simulates the regions of the found peaks according to search history to avoid an individual locating a found peak. Second, a landscape-aware peak distinction distinguishes whether an individual locates a new global peak, a new local peak, or a found peak. Accuracy refinement can thus only be conducted on the global peaks to enhance the search efficiency. Third, a landscape-aware reinitialization specifies the initial position of an individual adaptively according to the distribution of the found peaks, which helps explore more peaks. The experiments are conducted on 20 widely-used benchmark MMOPs. Experimental results show that LADE obtains generally better or competitive performance compared with seven well-performed algorithms proposed recently and four winner algorithms in the IEEE CEC competitions for multimodal optimization. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# DIART話者ダイアリゼーションパイプラインの最適化手法
An approach to optimize inference of the DIART speaker diarization pipeline ( http://arxiv.org/abs/2408.02341v1 ) ライセンス: Link先を確認 | Roman Aperdannier, Sigurd Schacht, Alexander Piazza, | (参考訳) 話者ダイアリゼーションは、オーディオファイルに対して「誰がいつ話したか」という質問に答える。
ダイアリゼーションのシナリオでは、低レイテンシが書き起こしに必要である。
低レイテンシの話者ダイアリゼーションをオンライン話者ダイアリゼーションと呼ぶ。
DIARTパイプラインはオンライン話者ダイアリゼーションシステムである。
セグメンテーションと埋め込みモデルで構成される。
埋め込みモデルは全体のレイテンシの最大の部分を占めている。
本研究の目的は,DIARTパイプラインの推論遅延を最適化することである。
パイプラインの埋め込みモデルには, 知識の分散, プルーニング, 量子化, 層融合などの異なる推論最適化手法が適用される。
知識蒸留はレイテンシを最適化するが、精度に悪影響を及ぼすことがわかった。
量子化と層融合は、精度を悪化させることなく遅延に肯定的な影響を与える。
一方、プルーニングはレイテンシを改善しない。
Speaker diarization answers the question "who spoke when" for an audio file. In some diarization scenarios, low latency is required for transcription. Speaker diarization with low latency is referred to as online speaker diarization. The DIART pipeline is an online speaker diarization system. It consists of a segmentation and an embedding model. The embedding model has the largest share of the overall latency. The aim of this paper is to optimize the inference latency of the DIART pipeline. Different inference optimization methods such as knowledge distilation, pruning, quantization and layer fusion are applied to the embedding model of the pipeline. It turns out that knowledge distillation optimizes the latency, but has a negative effect on the accuracy. Quantization and layer fusion also have a positive influence on the latency without worsening the accuracy. Pruning, on the other hand, does not improve latency. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 医学診断における機械学習の応用 : 総合的考察
Machine Learning Applications in Medical Prognostics: A Comprehensive Review ( http://arxiv.org/abs/2408.02344v1 ) ライセンス: Link先を確認 | Michael Fascia, | (参考訳) 機械学習(ML)は、疾患予測、リスクアセスメント、患者の予後予測を強化するために、高度なアルゴリズムと臨床データを統合することで、医学的診断に革命をもたらした。
本総説では, 医療診断学における各種ML技術の適用について, その有効性, 課題, 今後の方向性について批判的に考察する。
本手法は,敗血症予測のためのランダムフォレスト(RF),心血管リスク評価のためのロジスティック回帰,がん検出のための畳み込みニューラルネットワーク(CNN),臨床劣化予測のための長期記憶(LSTM)ネットワークなどである。
RFモデルは、高次元データ処理と非線形関係のキャプチャにおいて堅牢な性能を示し、セプシス予測に特に有効である。
ロジスティック回帰は、心血管リスクアセスメントにおいて、その解釈可能性と使いやすさに価値がある。
CNNは、医療画像から複雑な視覚パターンを学習する能力を活用して、がん検出において例外的な精度を示した。
LSTMネットワークは、時間的データの解析に優れ、臨床劣化の正確な予測を提供する。
レビューでは、各テクニックの長所と短所、モデル解釈可能性の重要性、データ品質とプライバシの課題を強調している。
今後の研究の方向性としては、マルチモーダルデータソースの統合、トランスファーラーニングの適用、継続的学習システムの開発などがある。
これらの進歩は、MLモデルの予測力と臨床応用性を高めることを目的としており、最終的に医療設定における患者の結果を改善する。
Machine learning (ML) has revolutionized medical prognostics by integrating advanced algorithms with clinical data to enhance disease prediction, risk assessment, and patient outcome forecasting. This comprehensive review critically examines the application of various ML techniques in medical prognostics, focusing on their efficacy, challenges, and future directions. The methodologies discussed include Random Forest (RF) for sepsis prediction, logistic regression for cardiovascular risk assessment, Convolutional Neural Networks (CNNs) for cancer detection, and Long Short-Term Memory (LSTM) networks for predicting clinical deterioration. RF models demonstrate robust performance in handling high-dimensional data and capturing non-linear relationships, making them particularly effective for sepsis prediction. Logistic regression remains valuable for its interpretability and ease of use in cardiovascular risk assessment. CNNs have shown exceptional accuracy in cancer detection, leveraging their ability to learn complex visual patterns from medical imaging. LSTM networks excel in analyzing temporal data, providing accurate predictions of clinical deterioration. The review highlights the strengths and limitations of each technique, the importance of model interpretability, and the challenges of data quality and privacy. Future research directions include the integration of multi-modal data sources, the application of transfer learning, and the development of continuous learning systems. These advancements aim to enhance the predictive power and clinical applicability of ML models, ultimately improving patient outcomes in healthcare settings. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# カーネル精度行列の高速計算のためのハンケル・トエプリッツの爆発的構造
Exploiting Hankel-Toeplitz Structures for Fast Computation of Kernel Precision Matrices ( http://arxiv.org/abs/2408.02346v1 ) ライセンス: Link先を確認 | Frida Viset, Anton Kullberg, Frederiek Wesel, Arno Solin, | (参考訳) ヒルベルト空間ガウス過程(HGP)アプローチは、GPをM基底関数に射影することでガウス過程(GP)推論を高速化するための超パラメータ非依存基底関数近似を提供する。
これらの性質は、ハイパーパラメータ最適化中にデータ独立な$\mathcal{O}(M^3)$計算の複雑さをもたらすが、$\mathcal{O}(NM^2)$演算を犠牲にする精度行列の1時間前計算を必要とする。
本稿では,この計算複雑性を,余分な近似を伴わない$\mathcal{O}(NM)$に下げる。
これは、精度行列がハンケル・トゥープリッツ行列の和に分解できることに気づき、それぞれが$\mathcal{O}(M)$一意なエントリを持つからである。
この実現に基づいて、これらのユニークなエントリのみを$\mathcal{O}(NM)$コストで計算することを提案する。
さらに、複雑性低減のための十分な条件を規定する2つの定理を、変分フーリエ特徴(VFF)アプローチのような、他の近似GPモデルに対して一般に保持する2つの定理を開発した。
2つの定理は、データに対する仮定がなく、GPモデル自体のさらなる近似も不要である。
このように、我々の貢献は、いくつかの既存の、広く使われているGP近似の純粋なスピードアップを提供するが、それ以上の近似は行わない。
The Hilbert-space Gaussian Process (HGP) approach offers a hyperparameter-independent basis function approximation for speeding up Gaussian Process (GP) inference by projecting the GP onto M basis functions. These properties result in a favorable data-independent $\mathcal{O}(M^3)$ computational complexity during hyperparameter optimization but require a dominating one-time precomputation of the precision matrix costing $\mathcal{O}(NM^2)$ operations. In this paper, we lower this dominating computational complexity to $\mathcal{O}(NM)$ with no additional approximations. We can do this because we realize that the precision matrix can be split into a sum of Hankel-Toeplitz matrices, each having $\mathcal{O}(M)$ unique entries. Based on this realization we propose computing only these unique entries at $\mathcal{O}(NM)$ costs. Further, we develop two theorems that prescribe sufficient conditions for the complexity reduction to hold generally for a wide range of other approximate GP models, such as the Variational Fourier Feature (VFF) approach. The two theorems do this with no assumptions on the data and no additional approximations of the GP models themselves. Thus, our contribution provides a pure speed-up of several existing, widely used, GP approximations, without further approximations. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 地球系データキューブ:地球系研究を進めるためのアベニュー
Earth System Data Cubes: Avenues for advancing Earth system research ( http://arxiv.org/abs/2408.02348v1 ) ライセンス: Link先を確認 | David Montero, Guido Kraemer, Anca Anghelea, César Aybar, Gunnar Brandt, Gustau Camps-Valls, Felix Cremer, Ida Flik, Fabian Gans, Sarah Habershon, Chaonan Ji, Teja Kattenborn, Laura Martínez-Ferrer, Francesco Martinuzzi, Martin Reinhardt, Maximilian Söchting, Khalil Teber, Miguel D. Mahecha, | (参考訳) 地球系科学の最近の進歩は、中程度の時間分解能から高い時間分解能を特徴とする多変量データセットが指数関数的に増加していることに特徴付けられる。
地球系データキューブ(ESDC)は、このデータの洪水をシンプルで堅牢なデータ構造に変換するのに適したソリューションとして登場した。
ESDCは、データを時空間グリッドに整合した分析可能な形式に整理し、ユーザフレンドリな分析を容易にし、広範な技術データ処理知識の必要性を減らし、これを実現している。
これらの大きなメリットにもかかわらず、ESDCライフサイクル全体の完了は依然として困難な課題である。
障害物は技術的な性質だけでなく、地球システム研究における領域固有の問題にも関係している。
新たなクラウドベースの技術、特に特定のアプリケーションドメインに適したデータをキュレートする上で、データ収集の潜在能力を最大限に実現するための障壁がある。
これには、最小歪みの時空間格子に適合するようにデータを変換することや、時空間自己相関問題のような複雑さを管理することが含まれる。
これらの課題に対処することは、AI(Artificial Intelligence)アプローチの効果的な適用において重要である。
さらに、データの普及、再現性、可視化、再利用のためのオープンな科学原則に固執することは、持続可能な研究を促進するために不可欠である。
これらの課題を克服することで、データ駆動型地球システム研究を前進させ、地球システムプロセスの統合多次元ビューの完全な可能性を解き放ちます。
このような研究が革新的な研究パラダイムと技術進歩と組み合わさった場合に特に当てはまる。
Recent advancements in Earth system science have been marked by the exponential increase in the availability of diverse, multivariate datasets characterised by moderate to high spatio-temporal resolutions. Earth System Data Cubes (ESDCs) have emerged as one suitable solution for transforming this flood of data into a simple yet robust data structure. ESDCs achieve this by organising data into an analysis-ready format aligned with a spatio-temporal grid, facilitating user-friendly analysis and diminishing the need for extensive technical data processing knowledge. Despite these significant benefits, the completion of the entire ESDC life cycle remains a challenging task. Obstacles are not only of a technical nature but also relate to domain-specific problems in Earth system research. There exist barriers to realising the full potential of data collections in light of novel cloud-based technologies, particularly in curating data tailored for specific application domains. These include transforming data to conform to a spatio-temporal grid with minimum distortions and managing complexities such as spatio-temporal autocorrelation issues. Addressing these challenges is pivotal for the effective application of Artificial Intelligence (AI) approaches. Furthermore, adhering to open science principles for data dissemination, reproducibility, visualisation, and reuse is crucial for fostering sustainable research. Overcoming these challenges offers a substantial opportunity to advance data-driven Earth system research, unlocking the full potential of an integrated, multidimensional view of Earth system processes. This is particularly true when such research is coupled with innovative research paradigms and technological progress. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 強化学習による変形性膝関節症のアクティブセンシング
Active Sensing of Knee Osteoarthritis Progression with Reinforcement Learning ( http://arxiv.org/abs/2408.02349v1 ) ライセンス: Link先を確認 | Khanh Nguyen, Huy Hoang Nguyen, Egor Panfilov, Aleksei Tiulpin, | (参考訳) 変形性関節症(OA)は最も一般的な筋骨格疾患であり、治療法がない。
Knee OA (KOA) は障害の最も高い原因の1つであり、世界社会には数十億ドルの費用がかかる。
KOAの進行予測は、より効率的な臨床試験を通じて治療開発を進め、より効率的な医療利用を通じて患者の成果を向上させることができるため、何年もの間、コミュニティにとって大きな関心を集めてきた。
しかしながら、既存の KOA 予測のアプローチは、主に静的であり、例えば、単一時点からのデータを将来への何年もの進展を予測するため、膝のレベル、すなわち単一の関節での進行のみを考えるためである。
これらの理由と関連する理由により、これらの手法は予測性能のレベルを達成できず、コスト削減と患者のより良い結果をもたらすのに十分である。
全ての患者から定期的に大量のデータを収集することはこの問題に対処できるが、人口レベルでの高コストによって制限される。
本研究では,OAにおける静的な予測モデルを超えて,情報取得回数を最大化しつつ,その総コストを一定時間で最小化することを目的として,患者を動的に追跡する新しいアクティブセンシング(AS)アプローチを提案する。
我々のアプローチは強化学習(Reinforcement Learning, RL)に基づいており、人間の身体の1つ以上の部分における疾患進行のASに特化して設計された新しい報酬機能を活用している。
提案手法はエンドツーエンドであり,マルチモーダルなDeep Learningに依存し,推論時に人間の入力を必要としない。
徹底的な実験評価を通じて、RLを用いることで、最先端のベースラインと比較して高い金銭的利益が得られることを示す。
Osteoarthritis (OA) is the most common musculoskeletal disease, which has no cure. Knee OA (KOA) is one of the highest causes of disability worldwide, and it costs billions of United States dollars to the global community. Prediction of KOA progression has been of high interest to the community for years, as it can advance treatment development through more efficient clinical trials and improve patient outcomes through more efficient healthcare utilization. Existing approaches for predicting KOA, however, are predominantly static, i.e. consider data from a single time point to predict progression many years into the future, and knee level, i.e. consider progression in a single joint only. Due to these and related reasons, these methods fail to deliver the level of predictive performance, which is sufficient to result in cost savings and better patient outcomes. Collecting extensive data from all patients on a regular basis could address the issue, but it is limited by the high cost at a population level. In this work, we propose to go beyond static prediction models in OA, and bring a novel Active Sensing (AS) approach, designed to dynamically follow up patients with the objective of maximizing the number of informative data acquisitions, while minimizing their total cost over a period of time. Our approach is based on Reinforcement Learning (RL), and it leverages a novel reward function designed specifically for AS of disease progression in more than one part of a human body. Our method is end-to-end, relies on multi-modal Deep Learning, and requires no human input at inference time. Throughout an exhaustive experimental evaluation, we show that using RL can provide a higher monetary benefit when compared to state-of-the-art baselines. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 宇宙膨張が遠方量子系間の通信に与える影響
How cosmological expansion affects communication between distant quantum systems ( http://arxiv.org/abs/2408.02351v1 ) ライセンス: Link先を確認 | Alessio Lapponi, Orlando Luongo, Stefano Mancini, | (参考訳) 量子場と相互作用する高調波発振器検出器間の量子通信プロトコルは、宇宙の膨張背景において開発されている。
宇宙論的な粒子生成のような膨張する宇宙で生じる量子効果が、2つの離れた部分間の通信を促進できるかどうか、または、付加的なノイズ効果を与えるかどうかを確認することを目的としている。
完全な宇宙流体を考えると、結果として、プロトコルの古典的な容量が増加することが分かる。
この増加は、受信機の検出器が磁場と相互作用する直前に後者がシャープ化されない限り、すべての宇宙膨張に対して起こる。
さらに、古典的なキャパシティは、完全流体のバロトロピックパラメータ$w$と、場とスカラー曲率$\xi$とのカップリングに敏感であることが判明した。
結果として、このプロトコルを実行することで、宇宙力学とその背景量子場との結合に関する情報を得ることができる。
A quantum communication protocol between harmonic oscillator detectors, interacting with a quantum field, is developed in a cosmological expanding background. The aim is to see if the quantum effects arising in an expanding universe, such as the cosmological particle production, could facilitate the communication between two distant parts or if they provide an additive noisy effect. By considering a perfect cosmic fluid, the resulting expansion turns out to increase the classical capacity of the protocol. This increasing occurs for all the cosmological expansions unless the latter is sharpened just before the receiver's detector interacts with the field. Moreover, the classical capacity turns out to be sensible to the barotropic parameter $w$ of the perfect fluid and to the coupling between the field and the scalar curvature $\xi$. As a consequence, by performing this protocol, one can achieve information about the cosmological dynamics and its coupling with a background quantum field. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# RECE: 大規模シーケンスレコメンダにおけるクロスエントロピー損失の低減
RECE: Reduced Cross-Entropy Loss for Large-Catalogue Sequential Recommenders ( http://arxiv.org/abs/2408.02354v1 ) ライセンス: Link先を確認 | Danil Gusak, Gleb Mezentsev, Ivan Oseledets, Evgeny Frolov, | (参考訳) スケーラビリティは現代のレコメンデータシステムにおいて大きな課題です。
シーケンシャルなレコメンデーションでは、完全なクロスエントロピー(CE)損失は最先端のレコメンデーション品質を達成するが、大量のアイテムカタログを持つ過剰なGPUメモリを消費し、実用性を制限する。
本稿では,GPUの局所性に敏感なハッシュ型アルゴリズムを用いて,新たなRECE(Reduced Cross-Entropy)ロスを提案する。
RECEは、完全なCE損失の最先端性能を享受しながら、メモリ消費を大幅に削減する。
さまざまなデータセットの実験結果から、RECEはCE損失のパフォーマンス指標を維持したり、超えたりしながら、既存の手法に比べて最大12倍のピークメモリ使用率のトレーニングを削減している。
このアプローチは、他のドメインにおける大規模アプリケーションに対する新たな可能性を開く。
Scalability is a major challenge in modern recommender systems. In sequential recommendations, full Cross-Entropy (CE) loss achieves state-of-the-art recommendation quality but consumes excessive GPU memory with large item catalogs, limiting its practicality. Using a GPU-efficient locality-sensitive hashing-like algorithm for approximating large tensor of logits, this paper introduces a novel RECE (REduced Cross-Entropy) loss. RECE significantly reduces memory consumption while allowing one to enjoy the state-of-the-art performance of full CE loss. Experimental results on various datasets show that RECE cuts training peak memory usage by up to 12 times compared to existing methods while retaining or exceeding performance metrics of CE loss. The approach also opens up new possibilities for large-scale applications in other domains. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# ランダムフォレスト確率を用いた量子回帰
Quantile Regression using Random Forest Proximities ( http://arxiv.org/abs/2408.02355v1 ) ライセンス: Link先を確認 | Mingshu Li, Bhaskarjit Sarmah, Dhruv Desai, Joshua Rosaler, Snigdha Bhagat, Philip Sommer, Dhagash Mehta, | (参考訳) 金融市場の動的な性質のため、時間とともに正確な予測を生み出すモデルを維持することは困難である。
多くの場合、ゴールは単なるポイント予測ではなく、不確実性を決定することです。
不確実性の定量化、特に市場ドライバーの予測不可能な性質による照会不確実性は、投資家が様々なリスクレベルを理解するのに役立つ。
近年、量子回帰林 (QRF) は有望な解決法として出現している: それぞれの量子化に別々のモデルを必要とするほとんどの基本的な量子化回帰法とは異なり、量子化回帰林は、典型的なランダムな森のすべての健全な特徴を維持しつつ、対象変数の条件分布全体を単一のモデルで推定する。
モデルによって学習された近接距離(距離メートル法)を利用して、対象変数の条件分布を推定するランダム森林からの量子レグレッションを計算する新しい手法を提案する。
提案手法を公開データセットを用いて評価し,企業債の平均日量予測問題に適用する。
本研究では,ランダムフォレスト近似を用いた量子レグレッションを用いて,QRFの原バージョンに対する条件目標分布と予測間隔の近似において,優れた性能を示すことを示す。
また,提案手法は従来の量子回帰法よりも計算効率が高いことを示した。
Due to the dynamic nature of financial markets, maintaining models that produce precise predictions over time is difficult. Often the goal isn't just point prediction but determining uncertainty. Quantifying uncertainty, especially the aleatoric uncertainty due to the unpredictable nature of market drivers, helps investors understand varying risk levels. Recently, quantile regression forests (QRF) have emerged as a promising solution: Unlike most basic quantile regression methods that need separate models for each quantile, quantile regression forests estimate the entire conditional distribution of the target variable with a single model, while retaining all the salient features of a typical random forest. We introduce a novel approach to compute quantile regressions from random forests that leverages the proximity (i.e., distance metric) learned by the model and infers the conditional distribution of the target variable. We evaluate the proposed methodology using publicly available datasets and then apply it towards the problem of forecasting the average daily volume of corporate bonds. We show that using quantile regression using Random Forest proximities demonstrates superior performance in approximating conditional target distributions and prediction intervals to the original version of QRF. We also demonstrate that the proposed framework is significantly more computationally efficient than traditional approaches to quantile regressions. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 知性の一貫性のある推論パラドックスとAIの最適信頼について:「私は知らない」の力
On the consistent reasoning paradox of intelligence and optimal trust in AI: The power of 'I don't know' ( http://arxiv.org/abs/2408.02357v1 ) ライセンス: Link先を確認 | Alexander Bastounis, Paolo Campodonico, Mihaela van der Schaar, Ben Adcock, Anders C. Hansen, | (参考訳) 本稿では,Consistent Reasoning Paradox (CRP)を紹介する。
一貫性推論(Consistent reasoning)は、人間の知性の中核にある、同じタスクを扱う能力であり、異なる文で説明される("Tell me the time!"と"What is the time")。
CRPは、一貫性のある推論は誤認を意味すると主張している。
具体的には、例えば、基本的な算術では、推論によって常に人間の知性を模倣し、常に答えようとするAIが、幻覚(間違った、しかし、もっともらしい答え)を無限に繰り返す、という問題が存在する。
パラドックスは、AI(従って人間の知能のレベルにはない)を矛盾なく推論するAIが存在し、同じ問題のセットで正しいということである。
また、CRPは、確率論的意味でも、これらの幻覚を検出することは、元の問題を解決するよりも厳密なものであり、AIが正しく答える可能性のある問題もあるが、その答えにどのように到達したかについての正確な論理的説明を与えることはできないことを示している。
したがって、CRPは、信頼できるAI(つまり、決して正しく答えないAI)が常に「私は知らない」と発言しなければならないことを示唆している。
さらに、これは、私たちが'I don't know'関数と呼ぶ新しい概念を暗黙的に計算することでのみ実現できる。
これらの洞察の観点から、CRPは人工知能(AGI)の振る舞いを垣間見ることもできる。
AGIは「ほとんど確実」ではないし、それ自身を常に説明できないので、信頼できるものとしては「私は知らない」と言えなければならない。
We introduce the Consistent Reasoning Paradox (CRP). Consistent reasoning, which lies at the core of human intelligence, is the ability to handle tasks that are equivalent, yet described by different sentences ('Tell me the time!' and 'What is the time?'). The CRP asserts that consistent reasoning implies fallibility -- in particular, human-like intelligence in AI necessarily comes with human-like fallibility. Specifically, it states that there are problems, e.g. in basic arithmetic, where any AI that always answers and strives to mimic human intelligence by reasoning consistently will hallucinate (produce wrong, yet plausible answers) infinitely often. The paradox is that there exists a non-consistently reasoning AI (which therefore cannot be on the level of human intelligence) that will be correct on the same set of problems. The CRP also shows that detecting these hallucinations, even in a probabilistic sense, is strictly harder than solving the original problems, and that there are problems that an AI may answer correctly, but it cannot provide a correct logical explanation for how it arrived at the answer. Therefore, the CRP implies that any trustworthy AI (i.e., an AI that never answers incorrectly) that also reasons consistently must be able to say 'I don't know'. Moreover, this can only be done by implicitly computing a new concept that we introduce, termed the 'I don't know' function -- something currently lacking in modern AI. In view of these insights, the CRP also provides a glimpse into the behaviour of Artificial General Intelligence (AGI). An AGI cannot be 'almost sure', nor can it always explain itself, and therefore to be trustworthy it must be able to say 'I don't know'. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 制約付きチェーン・オブ・ソートデコーディングによる対話オントロジー関係抽出
Dialogue Ontology Relation Extraction via Constrained Chain-of-Thought Decoding ( http://arxiv.org/abs/2408.02361v1 ) ライセンス: Link先を確認 | Renato Vukovic, David Arps, Carel van Niekerk, Benjamin Matthias Ruppik, Hsien-Chin Lin, Michael Heck, Milica Gašić, | (参考訳) 最先端のタスク指向対話システムは、通常、ユーザクエリを満たすためにタスク固有のオントロジーに依存している。
顧客サービス記録のようなタスク指向の対話データの大部分は、オントロジーやアノテーションを伴わない。
このようなオントロジーは通常手動で構築され、特殊なシステムの適用を制限する。
対話オントロジー構築は、そのプロセスを自動化するアプローチであり、通常、項抽出と関係抽出という2つのステップから構成される。
本研究では,伝達学習における関係抽出に焦点をあてる。
一般化を改善するため,大規模言語モデルの復号化機構の拡張を提案する。
我々は最近、推論問題のために開発されたChain-of-Thought(CoT)デコーディングを生成的関係抽出に適用した。
ここでは、復号空間に複数の分岐を生成し、信頼しきい値に基づいて関係を選択する。
オントロジーの用語や関係に復号を拘束することで、幻覚のリスクを減らしたいと考えている。
広範に使われている2つのデータセットに対して広範囲に実験を行い、ソースの微調整とワンショットによる大きな言語モデルに対するターゲットオントロジーの性能改善を見出した。
State-of-the-art task-oriented dialogue systems typically rely on task-specific ontologies for fulfilling user queries. The majority of task-oriented dialogue data, such as customer service recordings, comes without ontology and annotation. Such ontologies are normally built manually, limiting the application of specialised systems. Dialogue ontology construction is an approach for automating that process and typically consists of two steps: term extraction and relation extraction. In this work, we focus on relation extraction in a transfer learning set-up. To improve the generalisation, we propose an extension to the decoding mechanism of large language models. We adapt Chain-of-Thought (CoT) decoding, recently developed for reasoning problems, to generative relation extraction. Here, we generate multiple branches in the decoding space and select the relations based on a confidence threshold. By constraining the decoding to ontology terms and relations, we aim to decrease the risk of hallucination. We conduct extensive experimentation on two widely used datasets and find improvements in performance on target ontology for source fine-tuned and one-shot prompted large language models. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# StoDIP:深部画像と確率的反復を用いた高能率3次元MRF画像再構成
StoDIP: Efficient 3D MRF image reconstruction with deep image priors and stochastic iterations ( http://arxiv.org/abs/2408.02367v1 ) ライセンス: Link先を確認 | Perla Mayo, Matteo Cencini, Carolin M. Pirkl, Marion I. Menzel, Michela Tosetti, Bjoern H. Menze, Mohammad Golbabaee, | (参考訳) MRF(Magnetic Resonance Fingerprinting)は、マルチパラメトリック組織マッピングのための定量的MRIのための時間効率なアプローチである。
定量的マップの再構成には、圧縮されたサンプルMRFからアーティファクトを除去するアルゴリズムが必要である。
文献で見られるアプローチの中で、多くのアプローチは2次元(2D)画像再構成にのみ焦点をあてており、高い関連性と臨床的価値にもかかわらず、ボリューム(3D)スキャンへの拡張を無視している。
この理由として、適切な緩和なしに3Dイメージングに移行することは、計算コストとストレージの要求の増加、およびトレーニングのための大量のグランドトルース(アーテファクトフリー)データの必要性など、大きな課題を生じさせる。
これらの問題に対処するため、StoDIPを導入し、DIP再構成を3次元MRFイメージングに拡張した。
StoDIPでは、マルチコイルMRFデータ全体にわたるメモリ効率の高い確率的更新、慎重に選択されたニューラルネットワークアーキテクチャ、高速な非一様FFT(NUFFT)変換を採用している。
これにより、これらの機能なしで従来のDIP実装と比較してより高速な収束が可能となる。
健康なボランティアの脳全体をスキャンしたデータセットを用いて、StoDIPは、質的にも質的にも、地道な再建ベースラインよりも優れたパフォーマンスを示した。
Magnetic Resonance Fingerprinting (MRF) is a time-efficient approach to quantitative MRI for multiparametric tissue mapping. The reconstruction of quantitative maps requires tailored algorithms for removing aliasing artefacts from the compressed sampled MRF acquisitions. Within approaches found in the literature, many focus solely on two-dimensional (2D) image reconstruction, neglecting the extension to volumetric (3D) scans despite their higher relevance and clinical value. A reason for this is that transitioning to 3D imaging without appropriate mitigations presents significant challenges, including increased computational cost and storage requirements, and the need for large amount of ground-truth (artefact-free) data for training. To address these issues, we introduce StoDIP, a new algorithm that extends the ground-truth-free Deep Image Prior (DIP) reconstruction to 3D MRF imaging. StoDIP employs memory-efficient stochastic updates across the multicoil MRF data, a carefully selected neural network architecture, as well as faster nonuniform FFT (NUFFT) transformations. This enables a faster convergence compared against a conventional DIP implementation without these features. Tested on a dataset of whole-brain scans from healthy volunteers, StoDIP demonstrated superior performance over the ground-truth-free reconstruction baselines, both quantitatively and qualitatively. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# CNVSRC 2024における視覚音声認識のためのNPU-ASLPシステム記述
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024 ( http://arxiv.org/abs/2408.02369v1 ) ライセンス: Link先を確認 | He Wang, Lei Xie, | (参考訳) 本稿では,NPU-ASLP (Team 237) が導入した2回目の中国連続視覚音声認識チャレンジ (CNVSRC 2024) について述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用されている。
VSRモデルは、統合CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用し、拡張ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、双方向トランスフォーマーデコーダを導入している。
提案手法では, シングルスピーカタスクが30.47%, マルチスピーカタスクが34.30%, シングルスピーカタスクが2位, その他の3トラックが1位となっている。
This paper delineates the visual speech recognition (VSR) system introduced by the NPU-ASLP (Team 237) in the second Chinese Continuous Visual Speech Recognition Challenge (CNVSRC 2024), engaging in all four tracks, including the fixed and open tracks of Single-Speaker VSR Task and Multi-Speaker VSR Task. In terms of data processing, we leverage the lip motion extractor from the baseline1 to produce multiscale video data. Besides, various augmentation techniques are applied during training, encompassing speed perturbation, random rotation, horizontal flipping, and color transformation. The VSR model adopts an end-to-end architecture with joint CTC/attention loss, introducing Enhanced ResNet3D visual frontend, E-Branchformer encoder, and Bi-directional Transformer decoder. Our approach yields a 30.47% CER for the Single-Speaker Task and 34.30% CER for the Multi-Speaker Task, securing second place in the open track of the Single-Speaker Task and first place in the other three tracks. | 翻訳日:2024-08-06 13:56:46 公開日:2024-08-05 |
# 共振結合と単光子ルーティングのためのストリップローディングナノフォトニックインタフェース
Strip-Loaded Nanophotonic Interfaces for Resonant Coupling and Single-Photon Routing ( http://arxiv.org/abs/2408.02372v1 ) ライセンス: Link先を確認 | Katharine Snow, Fatemeh Moradiani, Hamidreza Siampour, | (参考訳) 共振結合と光子ルーティング効率の向上を目的としたストリップ装荷ナノフォトニックインタフェースの設計とシミュレーションについて報告する。
我々の設計では、誘導モードは高インデックス薄膜によって平面内に閉じ込められ、低インデックスストリップによって横に緩く閉じ込められている。
水素シリセスキオキサン (HSQ) ストリップ, 二酸化チタンコア, 二酸化ケイ素基板を用いて, 光の最大横方向閉じ込めのために導波路寸法を最適化する。
具体的には, ポリマーを用いたブラッググレーティングキャビティとリング共振器を提案する。
シミュレーションにより, V_{\text{eff}} \approx 7.0 \left(\frac{\lambda}{n}\right)^3 のモード体積と 7000 の Q-factor の空洞は, 4K で 97% の光子を生成できることが示唆された。
さらに,光子ルーティングの効率化に向けた指向性カプラについて検討し,フォトニック構造とプラズモニック材料構造を比較した。
純粋なフォトニック構造は損失を減らし、品質を向上するが、曲げ半径の面では実用的な制限に直面している。
逆に、プラズモニック構造は短い曲げ半径を提供するが、高い伝播損失を与える。
本研究は、量子光学応用のための光子生成とルーティング機能の向上を目的とした、将来のナノフォトニクス設計の基礎となるものである。
We report on the design and simulation of strip-loaded nanophotonic interfaces aimed at improving resonant coupling and photon routing efficiency. In our design, the guided mode is confined within a plane by a high-index thin film and is loosely confined laterally by a lower index strip. Using a hydrogen silsesquioxane (HSQ) strip, titanium dioxide core, and silicon dioxide substrate, we optimise the waveguide dimensions for maximum lateral confinement of light. Specifically, we propose a polymer-based Bragg grating cavity and ring resonator that achieve near-optimal mode volumes and high Q-factors. Our simulations suggest that a cavity with a mode volume of V_{\text{eff}} \approx 7.0 \left(\frac{\lambda}{n}\right)^3 and a Q-factor of 7000 can produce photons with 97% indistinguishability at 4K. Additionally, we investigate directional couplers for efficient photon routing, comparing photonic and plasmonic material structures. While pure photonic structures demonstrate lower loss and improved quality factors, they face practical limitations in terms of bending radius. Conversely, plasmonic structures offer shorter bending radii but higher propagation losses. This research lays the groundwork for future nanophotonic designs, aiming to enhance photon generation and routing capabilities for quantum optical applications. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# プライバシーに配慮したアシスタントにおけるコンテキスト統合の運用
Operationalizing Contextual Integrity in Privacy-Conscious Assistants ( http://arxiv.org/abs/2408.02373v1 ) ライセンス: Link先を確認 | Sahra Ghalebikesabi, Eugene Bagdasaryan, Ren Yi, Itay Yona, Ilia Shumailov, Aneesh Pappu, Chongyang Shi, Laura Weidinger, Robert Stanforth, Leonard Berrada, Pushmeet Kohli, Po-Sen Huang, Borja Balle, | (参考訳) 高度なAIアシスタントは、フロンティアLSMとツールアクセスを組み合わせて、ユーザに代わって自律的に複雑なタスクを実行する。
このようなアシスタントの利便性は、メールやドキュメントなどのユーザー情報へのアクセスによって劇的に向上するが、これは、アシスタントがユーザーの監督なしに第三者と不適切な情報を共有することに対するプライバシー上の懸念を提起する。
情報共有アシスタントをプライバシの期待に応えて振る舞うために,プライバシを所定のコンテキストにおける適切な情報の流れと一致するフレームワークである$\textit{contextual integrity}$ (CI)を運用することを提案する。
特に、我々は、アシスタントの情報共有アクションをCI準拠にするための多くの戦略を設計し、評価する。
我々の評価は、合成データと人間のアノテーションからなる新しいフォームフィリングベンチマークに基づいており、フロンティアLSMがCIベースの推論を行うよう促すと、強い結果が得られます。
Advanced AI assistants combine frontier LLMs and tool access to autonomously perform complex tasks on behalf of users. While the helpfulness of such assistants can increase dramatically with access to user information including emails and documents, this raises privacy concerns about assistants sharing inappropriate information with third parties without user supervision. To steer information-sharing assistants to behave in accordance with privacy expectations, we propose to operationalize $\textit{contextual integrity}$ (CI), a framework that equates privacy with the appropriate flow of information in a given context. In particular, we design and evaluate a number of strategies to steer assistants' information-sharing actions to be CI compliant. Our evaluation is based on a novel form filling benchmark composed of synthetic data and human annotations, and it reveals that prompting frontier LLMs to perform CI-based reasoning yields strong results. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 深層学習を用いたクビットゲートのパルス波形の最適化
Optimisation of Pulse Waveforms for Qubit Gates using Deep Learning ( http://arxiv.org/abs/2408.02376v1 ) ライセンス: Link先を確認 | Zachary Fillingham, Hossein Nevisi, Shirin Dora, | (参考訳) 本稿では,量子ビット状態を操作するためにパルス波形のパラメータを最適化するために,ディープニューラルネットワーク(DNN)を用いた新しい手法を提案する。
高忠実度量子シミュレーションは、現在の量子コンピュータのスケールアップに不可欠である。
提案手法はDNNを用いて、スケジューリングに使用されるパルス波形の振幅と対応する忠実度との関数関係をモデル化する。
DNNは、Qiskitの量子シミュレーションによって得られた振幅とそれに対応する忠実度のデータセットを用いて訓練される。
トレーニングされたDNNで2段階のアプローチを使用して、最も忠実度の高い振幅を得る。
提案手法は,単一 (Hadamard と Pauli-X) と2つの qubit gate (CNOT) のパルススケジューリングの振幅を推定して評価する。
その結果,アダマールゲートとパウリXゲートでそれぞれ0.999976と0.999923の忠実度を持つ単一量子ゲートの忠実度実装を実現することが可能であることが示唆された。
CNOTゲートでは0.695313が最も忠実である。
これは絡み合いの影響と、予測モデル内で考慮すべき位相パラメータの必要性に起因している。
In this paper, we propose a novel method using Deep Neural Networks (DNNs) to optimise the parameters of pulse waveforms used for manipulating qubit states, resulting in high fidelity implementation of qubit gates. High fidelity quantum simulations are crucial for scaling up current quantum computers. The proposed approach uses DNNs to model the functional relationship between amplitudes of pulse waveforms used in scheduling and the corresponding fidelities. The DNNs are trained using a dataset of amplitude and corresponding fidelities obtained through quantum simulations in Qiskit. A two-stage approach is used with the trained DNNs to obtain amplitudes that yield the highest fidelity. The proposed method is evaluated by estimating the amplitude for pulse scheduling of single (Hadamard and Pauli-X) and two qubit gates (CNOT). The results clearly indicate that the method can achieve high fidelity implementations of single-qubit gates with fidelities of 0.999976 and 0.999923 for Hadamard and Pauli-X gates, respectively. For the CNOT gate, the best fidelity obtained is 0.695313. This can be attributed to the effects of entanglement and the need for the phase parameter to be accounted for within the predictive model. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 大規模言語モデルを用いた関係抽出領域適応のための数ショットアプローチ
A Few-Shot Approach for Relation Extraction Domain Adaptation using Large Language Models ( http://arxiv.org/abs/2408.02377v1 ) ライセンス: Link先を確認 | Vanni Zavarella, Juan Carlos Gamero-Salinas, Sergio Consoli, | (参考訳) 知識グラフ(KG)は、複雑な科学的および技術的領域の分析に成功しており、テキスト内のドメインエンティティ間のきめ細かい関係をキャプチャする関係抽出モデルに基づいて構築される自動KG生成手法が一般的である。
これらの関係は科学的領域にわたって完全に適用できるが、既存のモデルはSciERCのような少数のドメイン固有のデータセットで訓練されており、新しいターゲットドメインではうまく機能しない。
本稿では,大規模言語モデルのコンテキスト内学習機能を活用してスキーマ制約付きデータアノテーションを実行し,アーキテクチャ,構築,エンジニアリング,運用(AECO)ドメインにおける研究論文のタイトルや要約上に展開されたトランスフォーマーベースの関係抽出モデルに対して,ドメイン内トレーニングインスタンスを収集する実験を行う。
ドメイン外のデータに基づいてトレーニングされたベースラインディープラーニングアーキテクチャの性能向上を評価することで、構造化されたプロンプトと最小限のエキスパートアノテーションを用いた数ショットの学習戦略を用いることで、提案手法が科学KG生成モデルのドメイン適応を支援する可能性があることを示す。
Knowledge graphs (KGs) have been successfully applied to the analysis of complex scientific and technological domains, with automatic KG generation methods typically building upon relation extraction models capturing fine-grained relations between domain entities in text. While these relations are fully applicable across scientific areas, existing models are trained on few domain-specific datasets such as SciERC and do not perform well on new target domains. In this paper, we experiment with leveraging in-context learning capabilities of Large Language Models to perform schema-constrained data annotation, collecting in-domain training instances for a Transformer-based relation extraction model deployed on titles and abstracts of research papers in the Architecture, Construction, Engineering and Operations (AECO) domain. By assessing the performance gain with respect to a baseline Deep Learning architecture trained on off-domain data, we show that by using a few-shot learning strategy with structured prompts and only minimal expert annotation the presented approach can potentially support domain adaptation of a science KG generation model. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# ポストポンピングによるモンテカルロの完全情報化
Perfect Information Monte Carlo with Postponing Reasoning ( http://arxiv.org/abs/2408.02380v1 ) ライセンス: Link先を確認 | Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave, | (参考訳) BridgeやSkatのような不完全な情報ゲームは、状態空間の爆発と隠れた情報による課題を示し、検索アルゴリズムに重大な障害を生じさせる。
決定に基づくアルゴリズムは、隠れた情報をサンプリングし、完璧な情報設定でゲームを解くことで解決し、迅速かつ効果的なアクション推定を容易にする。
しかし、完全情報への移行には、特に戦略融合(英語版)と呼ばれる課題が伴う。この研究は、最先端の決定に基づくアプローチであるPerfect Information Monte Carlo (PIMC)にインスパイアされたオンラインアルゴリズムである「Extended Perfect Information Monte Carlo (EPIMC)」を導入する。
EPIMCは、完全な情報解決を延期することでPIMCの機能を強化し、戦略融合に関わる問題を緩和する。
しかし、葉評価を延期する決定は、事前の推論レベルと新たに延期された解決との相互作用など、新しい考察をもたらす。
実験分析では, EPIMCの性能を多種多様なゲームで検証し, 戦略融合の度合いに特化して検討した。
戦略融合がゲームプレイに大きく影響を与えるゲームでは,特に顕著なパフォーマンス向上がみられた。
さらに,本研究は,戦略融合に関わる課題に対処する決定性に基づくアルゴリズムの理論的基礎に寄与する。
その結果,不完全な情報ゲームシナリオのコンテキストにおいて,これらのアルゴリズムの理解を深めることができた。
Imperfect information games, such as Bridge and Skat, present challenges due to state-space explosion and hidden information, posing formidable obstacles for search algorithms. Determinization-based algorithms offer a resolution by sampling hidden information and solving the game in a perfect information setting, facilitating rapid and effective action estimation. However, transitioning to perfect information introduces challenges, notably one called strategy fusion.This research introduces `Extended Perfect Information Monte Carlo' (EPIMC), an online algorithm inspired by the state-of-the-art determinization-based approach Perfect Information Monte Carlo (PIMC). EPIMC enhances the capabilities of PIMC by postponing the perfect information resolution, reducing alleviating issues related to strategy fusion. However, the decision to postpone the leaf evaluator introduces novel considerations, such as the interplay between prior levels of reasoning and the newly deferred resolution. In our empirical analysis, we investigate the performance of EPIMC across a range of games, with a particular focus on those characterized by varying degrees of strategy fusion. Our results demonstrate notable performance enhancements, particularly in games where strategy fusion significantly impacts gameplay. Furthermore, our research contributes to the theoretical foundation of determinization-based algorithms addressing challenges associated with strategy fusion.%, thereby enhancing our understanding of these algorithms within the context of imperfect information game scenarios. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 地理空間画像の疎結合化のためのクロス・プシュード・スーパービジョン・フレームワーク
Cross Psuedo Supervision Framework for Sparsely Labelled Geo-spatial Images ( http://arxiv.org/abs/2408.02382v1 ) ライセンス: Link先を確認 | Yash Dixit, Naman Srivastava, Joel D Joy, Rohan Olikara, Swarup E, Rakshit Ramesh, | (参考訳) 土地利用土地被覆(LULC)マッピングは、都市計画や資源計画に不可欠であり、スマートで持続可能な都市開発における重要な要素の1つである。
本研究では,インドと異なる地域におけるデータ分布の多様性に富んだ高解像度衛星画像を用いたLULC予測のための半教師付きセグメンテーションモデルを提案する。
当社のアプローチは, 異なるタイプの建物, 道路, 木々, 水域にまたがる堅牢な一般化を実現する。
粗いラベル付きデータに基づいて画像分割モデルをトレーニングするクロス擬似スーパービジョンフレームワークを提案する。
提案フレームワークは,半教師付き学習における一般的な "Cross Pseudo Supervision" 手法の限界に対処する。
具体的には、ノイズの多い衛星画像データにスパースラベルと不正確なラベルでセグメンテーションモデルをトレーニングする際の課題に対処する。
この総合的なアプローチは、様々な都市計画分野におけるLULCマッピングの精度と有用性を高める。
Land Use Land Cover (LULC) mapping is essential for urban and resource planning and is one of the key elements in developing smart and sustainable cities. This study introduces a semi-supervised segmentation model for LULC prediction using high-resolution satellite images with a huge diversity in data distributions in different areas from the country of India. Our approach ensures a robust generalization across different types of buildings, roads, trees, and water bodies within these distinct areas. We propose a modified Cross Pseudo Supervision framework to train image segmentation models on sparsely labelled data. The proposed framework addresses the limitations of the popular "Cross Pseudo Supervision" technique for semi-supervised learning. Specifically, it tackles the challenges of training segmentation models on noisy satellite image data with sparse and inaccurate labels. This comprehensive approach enhances the accuracy and utility of LULC mapping for various urban planning applications. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 安定化器を用いた新しいクイディット用エンタングルメント蒸留プロトコル
A Novel Stabilizer-based Entanglement Distillation Protocol for Qudits ( http://arxiv.org/abs/2408.02383v1 ) ライセンス: Link先を確認 | Christopher Popp, Tobias C. Sutter, Beatrix C. Hiesmayr, | (参考訳) ローカライズ・オペレーショナル・コミュニケーション(LOCC)を用いた弱い絡み合い状態から最大絡み合い状態へ変換するエンタングルメント蒸留は、エラー発生環境における堅牢な絡み合い支援量子情報処理において重要である。
安定化器符号に基づく構築は、そのようなプロトコルを設計するための効果的な方法を提供する。
任意の次元の符号に対する安定化器プロトコルの有効作用を解析することにより、繰り返し安定化器を用いた蒸留の出力状態の標準形式を確立する。
これは入力状態、安定化器、エンコーディングの特性とプロトコルの特性を結びつける。
これらの知見に基づいて,任意の素次元におけるベル対角線状態の反復毎の忠実度増加を最大化する,新しい2コピ蒸留プロトコルを提案する。
この枠組みとプロトコルのパワーは、他の確立された再帰プロトコルと比較して、低忠実度状態の効率と蒸留性において優れた性能を示す数値的な研究によって実証される。
状態, エラー, プロトコル間の相互作用を解明することにより, 任意の次元にわたる高効率蒸留プロトコルの体系的開発を進め, 蒸留可能性の理解を深める。
Entanglement distillation, the process of converting weakly entangled states into maximally entangled ones using Local Operations and Classical Communication (LOCC), is pivotal for robust entanglement-assisted quantum information processing in error-prone environments. A construction based on stabilizer codes offers an effective method for designing such protocols. By analytically investigating the effective action of stabilizer protocols for codes in arbitrary dimensions, we establish a standard form for the output states of recurrent stabilizer-based distillation. This links the properties of input states, stabilizers, and encodings to the properties of the protocol. Based on those insights, we present a novel two-copy distillation protocol, applicable to all bipartite states, that maximizes the fidelity increase per iteration for Bell-diagonal states in any prime dimension. The power of this framework and the protocol is demonstrated through numerical investigations, which provide evidence of its superior performance in terms of efficiency and distillability of low-fidelity states compared to other well-established recurrence protocols. By elucidating the interplay between states, errors, and protocols, our contribution advances the systematic development of highly effective distillation protocols across arbitrary dimensions, enhancing our understanding of distillability. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 戦略的フェデレーション学習 - スマートメーターデータクラスタリングへの応用
Strategic Federated Learning: Application to Smart Meter Data Clustering ( http://arxiv.org/abs/2408.02384v1 ) ライセンス: Link先を確認 | Hassan Mohamad, Chao Zhang, Samson Lasaulce, Vineeth S Varma, Mérouane Debbah, Mounir Ghogho, | (参考訳) フェデレートラーニング(FL)には、各クライアントが独自のデータでトレーニングしたモデルであるフュージョンセンタ(FC)と共有する複数のクライアントが含まれる。
従来のFLは推定や歪みに基づくアプローチと解釈できるが、FCや他のクライアントによるモデル情報(MI)の最終的な使用は無視される。
本稿では,FCがMIの集約バージョンを使用してクライアントのユーティリティ機能に影響を与える決定を行う,新しいFLフレームワークを提案する。
クライアントは決定を選択できず、FCに報告されたMIしか使用できない。
クライアントとFCユーティリティの整合性に応じて、クライアントはモデルに戦略的ノイズを加えることに個別の関心を持つかもしれない。
この一般的なフレームワークは、ノイズの多いクラスタ代表情報が報告されるクラスタリングのケースに特化して記述される。
これは消費電力スケジューリングの問題に適用される。
この文脈では、例えば、電力の価格が低いときにクライアントが消費したいときにユーティリティ非アライメントが発生し、FCは総電力が低いときに消費を期待する。
これは Ausgrid \cite{ausgrid} から収集された実データで示される。
解析の結果,FCに報告されたモデルに雑音を加えることで,クライアントが有効性を向上できることが明らかとなった。
対応する結果とソースコードは \cite{source-code} からダウンロードできる。
Federated learning (FL) involves several clients that share with a fusion center (FC), the model each client has trained with its own data. Conventional FL, which can be interpreted as an estimation or distortion-based approach, ignores the final use of model information (MI) by the FC and the other clients. In this paper, we introduce a novel FL framework in which the FC uses an aggregate version of the MI to make decisions that affect the client's utility functions. Clients cannot choose the decisions and can only use the MI reported to the FC to maximize their utility. Depending on the alignment between the client and FC utilities, the client may have an individual interest in adding strategic noise to the model. This general framework is stated and specialized to the case of clustering, in which noisy cluster representative information is reported. This is applied to the problem of power consumption scheduling. In this context, utility non-alignment occurs, for instance, when the client wants to consume when the price of electricity is low, whereas the FC wants the consumption to occur when the total power is the lowest. This is illustrated with aggregated real data from Ausgrid \cite{ausgrid}. Our numerical analysis clearly shows that the client can increase his utility by adding noise to the model reported to the FC. Corresponding results and source codes can be downloaded from \cite{source-code}. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 外部レーザー場における相対論的渦電子のダイナミクス
Dynamics of Relativistic Vortex Electrons in External Laser Fields ( http://arxiv.org/abs/2408.02390v1 ) ライセンス: Link先を確認 | Mamutjan Ababekri, Yu Wang, Ren-Tong Guo, Zhong-Peng Li, Jian-Xing Li, | (参考訳) 電磁場との渦電子相互作用の調査は、粒子加速技術の進歩、背景場の散乱理論、材料診断のための新しい電子ビームの獲得に不可欠である。
外部レーザー場における渦電子のダイナミクスとレーザー誘起渦モードの探索に関する系統的研究は依然として不十分である。
本研究では, 線形偏光(LP)および円偏光(CP)レーザーパルスにおける渦電子の伝播を, 2モードレーザーパルスにおいて別々に, 組み合わせて検討した。
ボルコフ・ベッセル波動関数を用いて理論定式化を行い, 重要な観測量として4電流密度を求める。
数値的な結果は、渦電子のビーム中心が点電荷電子の古典的な運動に追従し、渦固有状態と重ね合わせモードの両方の確率分布構造を維持していることを示す。
2モードレーザー場におけるLPおよびCPレーザーパルスの複合効果により、フェムト秒およびサブナノメートルスケールでLPまたはCPレーザー単独で欠く渦電子の多目的制御が可能となる。
レーザーパルスによる渦電子の多角的制御は, レーザー背景における渦散乱の基準となり, レーザー制御による新たな渦モードの達成を刺激し, 特殊な材料を標的とした診断プローブとして実現した。
Investigating vortex electron interactions with electromagnetic fields is essential for advancing particle acceleration techniques, scattering theory in background fields, and obtaining novel electron beams for material diagnostics. A systematic investigation into the dynamics of vortex electrons in external laser fields and the exploration of laser-induced vortex modes remains lacking. In this work, we study the propagation of vortex electrons in linearly polarized (LP) and circularly polarized (CP) laser pulses, both separately and in their combined form in two-mode laser pulses. The theoretical formalism is developed by utilizing Volkov-Bessel wave functions, and the four-current density is obtained as a crucial observable quantity. Numerical results illustrate the dynamics of vortex electrons in external lasers, showing that the beam center of the vortex electron follows the classical motion of a point charge electron, while maintaining the probability distribution structure for both vortex eigenstates and superposition modes. The combined effect of LP and CP laser pulses in the two-mode laser field allows for the versatile control of vortex electrons, which is absent with LP or CP lasers alone, at femtosecond and sub-nanometer scales. Our findings demonstrate the versatile control over vortex electrons via laser pulses, with our formalism providing a reference for vortex scattering in laser backgrounds and inspiring the laser-controlled achievement of novel vortex modes as targeted diagnostic probes for specialized materials. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# MaFreeI2P:Active Camera Pose Retrievalを備えたマッチングフリーのイメージツーポイントクラウド登録パラダイム
MaFreeI2P: A Matching-Free Image-to-Point Cloud Registration Paradigm with Active Camera Pose Retrieval ( http://arxiv.org/abs/2408.02392v1 ) ライセンス: Link先を確認 | Gongxin Yao, Xinyang Li, Yixin Xuan, Yu Pan, | (参考訳) Image-to-point クラウドの登録は、相対的なカメラのポーズを推定しようとするが、これはデータモダリティのギャップのために未解決の問題である。
最近のマッチングベースの手法は、2D-3D対応を構築することでこの問題に対処する傾向がある。
本稿では,これらの手法に固有の情報損失を明らかにし,MaFreeI2Pというマッチングフリーなパラダイムを提案する。
我々の重要な洞察は、ポイントクラウドとクエリイメージの幾何学的特徴を対比することにより、SE(3)空間でカメラのポーズを積極的に回収することである。
これを実現するために、まず、候補となるカメラのポーズのセットをサンプリングし、クロスモーダル機能を用いてコストを見積もる。
マッチングの上位に、コストボリュームはより多くの情報を保存することができ、その特徴的類似性は、サンプリングされたポーズの信頼性レベルを暗黙的に反映する。
その後、畳み込みネットワークを用いて類似度評価関数を適応的に定式化し、フィルタとポーズに基づく重み付けにより入力コストのボリュームをさらに改善する。
最後に、類似度スコアに基づいてカメラポーズを更新し、収束のためのポーズサンプリング空間を反復的に縮小するヒューリスティック戦略を採用する。
我々のMaFreeI2Pは、KITTI-OdometryとApollo-DaoxiangLakeデータセットの非常に競合的な登録精度とリコールを実現しています。
Image-to-point cloud registration seeks to estimate their relative camera pose, which remains an open question due to the data modality gaps. The recent matching-based methods tend to tackle this by building 2D-3D correspondences. In this paper, we reveal the information loss inherent in these methods and propose a matching-free paradigm, named MaFreeI2P. Our key insight is to actively retrieve the camera pose in SE(3) space by contrasting the geometric features between the point cloud and the query image. To achieve this, we first sample a set of candidate camera poses and construct their cost volume using the cross-modal features. Superior to matching, cost volume can preserve more information and its feature similarity implicitly reflects the confidence level of the sampled poses. Afterwards, we employ a convolutional network to adaptively formulate a similarity assessment function, where the input cost volume is further improved by filtering and pose-based weighting. Finally, we update the camera pose based on the similarity scores, and adopt a heuristic strategy to iteratively shrink the pose sampling space for convergence. Our MaFreeI2P achieves a very competitive registration accuracy and recall on the KITTI-Odometry and Apollo-DaoxiangLake datasets. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 非中心データに対する独立推定のないグラフィカルモデリング
Graphical Modelling without Independence Assumptions for Uncentered Data ( http://arxiv.org/abs/2408.02393v1 ) ライセンス: Link先を確認 | Bailey Andrew, David R. Westhead, Luisa Cutillo, | (参考訳) 独立性の仮定は、自身のモデリングフレームワークのトラクタビリティを高めるための有用なツールである。
しかし、この仮定は現実と一致しない。依存関係を考慮に入れていないと、モデルが劇的に失敗する可能性がある。
マルチ軸グラフィカルモデリング(マルチウェイモデリング、Kronecker-separable modellingとも呼ばれる)の分野は過去10年間に成長してきたが、これらのモデルでは平均値がゼロであることが要求されている。
多軸の場合、推論は通常、単一のサンプルシナリオで行われ、平均推論は不可能である。
本稿では,ゼロ平均仮定が過度なモデリング誤差を引き起こすことを実証するとともに,そのような誤りを回避することを可能とするゼロ平均仮定への緩和を提案する。
具体的には、「Kronecker-sum-structured mean」という仮定を提案し、これは非凸だが一様対数様のモデルに導かれる。
The independence assumption is a useful tool to increase the tractability of one's modelling framework. However, this assumption does not match reality; failing to take dependencies into account can cause models to fail dramatically. The field of multi-axis graphical modelling (also called multi-way modelling, Kronecker-separable modelling) has seen growth over the past decade, but these models require that the data have zero mean. In the multi-axis case, inference is typically done in the single sample scenario, making mean inference impossible. In this paper, we demonstrate how the zero-mean assumption can cause egregious modelling errors, as well as propose a relaxation to the zero-mean assumption that allows the avoidance of such errors. Specifically, we propose the "Kronecker-sum-structured mean" assumption, which leads to models with nonconvex-but-unimodal log-likelihoods that can be solved efficiently with coordinate descent. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# CMR-Agent: 反復的なイメージ・ツー・ポイントクラウド登録のためのクロスモーダルエージェントを学習する
CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration ( http://arxiv.org/abs/2408.02394v1 ) ライセンス: Link先を確認 | Gongxin Yao, Yixin Xuan, Xinyang Li, Yu Pan, | (参考訳) Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
プリビルドされたLiDARマップ内のカメラローカライゼーションにおいて重要な役割を果たす。
モダリティのギャップにもかかわらず、ほとんどの学習ベースの手法は、反復最適化のためのフィードバック機構を使わずに特徴空間で2D-3Dポイント対応を確立する。
本稿では,各中間状態に基づいてカメラポーズの漸進的な調整を可能にするため,登録手順を反復マルコフ決定プロセスとして再構築することを提案する。
これを実現するために、我々は強化学習を用いてクロスモーダル登録エージェント(CMR-Agent)を開発し、模倣学習を用いて、その登録ポリシーを安定と訓練の迅速開始のために初期化する。
本研究では,RGB画像の微細な特徴をフル活用する2D-3Dハイブリッド状態表現を提案する。
さらに、全体的なフレームワークはワンショットのクロスモーダルな埋め込みを効率的に再利用できるように設計されており、反復的かつ時間を要する機能抽出を避けている。
KITTI-OdometryとNuScenesデータセットの大規模な実験は、CMR-Agentが登録において競合する精度と効率を達成することを示した。
ワンショットの埋め込みが完了すると、各イテレーションは数ミリ秒しかかからない。
Image-to-point cloud registration aims to determine the relative camera pose of an RGB image with respect to a point cloud. It plays an important role in camera localization within pre-built LiDAR maps. Despite the modality gaps, most learning-based methods establish 2D-3D point correspondences in feature space without any feedback mechanism for iterative optimization, resulting in poor accuracy and interpretability. In this paper, we propose to reformulate the registration procedure as an iterative Markov decision process, allowing for incremental adjustments to the camera pose based on each intermediate state. To achieve this, we employ reinforcement learning to develop a cross-modal registration agent (CMR-Agent), and use imitation learning to initialize its registration policy for stability and quick-start of the training. According to the cross-modal observations, we propose a 2D-3D hybrid state representation that fully exploits the fine-grained features of RGB images while reducing the useless neutral states caused by the spatial truncation of camera frustum. Additionally, the overall framework is well-designed to efficiently reuse one-shot cross-modal embeddings, avoiding repetitive and time-consuming feature extraction. Extensive experiments on the KITTI-Odometry and NuScenes datasets demonstrate that CMR-Agent achieves competitive accuracy and efficiency in registration. Once the one-shot embeddings are completed, each iteration only takes a few milliseconds. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 回転と高速相互相関のためのテンソルテンプレートマッチングとトモグラフィーへの応用
Tensorial template matching for fast cross-correlation with rotations and its application for tomography ( http://arxiv.org/abs/2408.02398v1 ) ライセンス: Link先を確認 | Antonio Martinez-Sanchez, Ulrike Homberg, José María Almira, Harold Phelippeau, | (参考訳) 物体検出はコンピュータビジョンの主要な課題である。
テンプレートマッチングは任意のテンプレートでオブジェクトを検出するリファレンスメソッドである。
しかし、テンプレートマッチング計算の複雑さは、大きな3次元画像(トモグラム)の制限因子である回転精度に依存する。
ここでは、テンソル場を持つテンプレートのすべての回転を表す数学的枠組みに基づいて、テンソルテンプレートマッチングと呼ばれる新しいアルゴリズムを実装した。
標準的なテンプレートマッチングとは対照的に、提案アルゴリズムの計算複雑性は回転精度とは無関係である。
トモグラフィーからの合成データと実データの両方を用いて、テンソルテンプレートマッチングはテンプレートマッチングよりもはるかに高速であり、その精度を向上させる可能性があることを示す。
Object detection is a main task in computer vision. Template matching is the reference method for detecting objects with arbitrary templates. However, template matching computational complexity depends on the rotation accuracy, being a limiting factor for large 3D images (tomograms). Here, we implement a new algorithm called tensorial template matching, based on a mathematical framework that represents all rotations of a template with a tensor field. Contrary to standard template matching, the computational complexity of the presented algorithm is independent of the rotation accuracy. Using both, synthetic and real data from tomography, we demonstrate that tensorial template matching is much faster than template matching and has the potential to improve its accuracy | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# 行動研究の指導
Teaching Action Research ( http://arxiv.org/abs/2408.02399v1 ) ライセンス: Link先を確認 | Miroslaw Staron, | (参考訳) アクションリサーチは、最後の千年紀の終わりにソフトウェアエンジニアリング研究の危機に対する反応の1つとして、ソフトウェアエンジニアリングに参入した。
この危機における課題の1つは、経験的な結果の欠如と、研究結果を実践に移すことであり、アクションリサーチはこれらの課題に対処する可能性がある。
コラボレーションとホスト組織が知識発見、開発、ドキュメントの焦点となる方法論です。
この手法は産業の文脈ではよく受け入れられるが、経験が必要で組織によって異なるため、簡単には学べない。
この章では、アクションリサーチの柱を方法論として記述し、それらを教える方法について説明する。
この章には、学士、修士、博士号のレベルでアクション研究を教える例が含まれている。
説のほか、実例もある。
Action research entered into software engineering as one of the responses to the software engineering research crisis at the end of the last millennium. As one of the challenges in the crisis was the lack of empirical results and the transfer of research results into practices, action research could address these challenges. It is a methodology where collaboration and host organizations are the focus of knowledge discovery, development, and documentation. Although the method is often well received in industrial contexts, it isn't easy to learn as it requires experience and varies from organization to organization. This chapter describes the pillars of action research as a methodology and how to teach them. The chapter includes examples of teaching action research at the bachelor, master, and PhD levels. In addition to theory, the chapter contains examples from practice. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# コンテキスト情報によるAIベースのソフトウェアエクスプロイット生成の強化
Enhancing AI-based Generation of Software Exploits with Contextual Information ( http://arxiv.org/abs/2408.02402v1 ) ライセンス: Link先を確認 | Pietro Liguori, Cristina Improta, Roberto Natella, Bojan Cukic, Domenico Cotroneo, | (参考訳) この実践経験レポートでは、自然言語(NL)記述から攻撃的セキュリティコードを生成するニューラルネットワーク翻訳(NMT)モデルの能力について検討し、文脈理解の重要性とモデルパフォーマンスへの影響を強調している。
本研究では,情報不足,必要なコンテキスト,不要なコンテキストなど,さまざまなシナリオでモデルを評価するために,実際のシェルコードからなるデータセットを用いる。
実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。
その結果,文脈データの導入は性能を著しく向上させることがわかった。
しかし、追加のコンテキストの利点は特定の点を超えて減少し、モデルトレーニングに最適な文脈情報レベルを示す。
さらに、モデルは不要なコンテキストをフィルタリングし、攻撃的セキュリティコードの生成において高いレベルの精度を維持する能力を示す。
この研究は、AI駆動コード生成におけるコンテキスト使用の最適化について、特に攻撃コード生成のような高度な技術的精度を必要とするアプリケーションについて、今後の研究の道を開くものである。
This practical experience report explores Neural Machine Translation (NMT) models' capability to generate offensive security code from natural language (NL) descriptions, highlighting the significance of contextual understanding and its impact on model performance. Our study employs a dataset comprising real shellcodes to evaluate the models across various scenarios, including missing information, necessary context, and unnecessary context. The experiments are designed to assess the models' resilience against incomplete descriptions, their proficiency in leveraging context for enhanced accuracy, and their ability to discern irrelevant information. The findings reveal that the introduction of contextual data significantly improves performance. However, the benefits of additional context diminish beyond a certain point, indicating an optimal level of contextual information for model training. Moreover, the models demonstrate an ability to filter out unnecessary context, maintaining high levels of accuracy in the generation of offensive security code. This study paves the way for future research on optimizing context use in AI-driven code generation, particularly for applications requiring a high degree of technical precision such as the generation of offensive code. | 翻訳日:2024-08-06 13:46:54 公開日:2024-08-05 |
# Terracorder: Sense Long and Prosper
Terracorder: Sense Long and Prosper ( http://arxiv.org/abs/2408.02407v1 ) ライセンス: Link先を確認 | Josh Millar, Sarab Sethi, Hamed Haddadi, Anil Madhavapeddy, | (参考訳) インサイトセンシングデバイスは、長期にわたってリモート環境にデプロイする必要がある。その運用寿命とカバレッジの両方を最大化する上で、消費電力を最小限に抑えることが不可欠である。
多様なマルチセンサーデバイスであるTerracorderを導入し、デバイス上の強化学習スケジューラを用いて、非常に低消費電力の電力を実演する。
我々は,生物多様性監視のためのユニークな装置を試作し,スケジューラを用いたバッテリ寿命を,いくつかの固定スケジュールと比較した。
次に、協調スケジューラがデバイスのネットワークの有用な操作を最大化し、ネットワークの電力消費とロバスト性を改善する方法について検討する。
In-situ sensing devices need to be deployed in remote environments for long periods of time; minimizing their power consumption is vital for maximising both their operational lifetime and coverage. We introduce Terracorder -- a versatile multi-sensor device -- and showcase its exceptionally low power consumption using an on-device reinforcement learning scheduler. We prototype a unique device setup for biodiversity monitoring and compare its battery life using our scheduler against a number of fixed schedules; the scheduler captures more than 80% of events at less than 50% of the number of activations of the best-performing fixed schedule. We then explore how a collaborative scheduler can maximise the useful operation of a network of devices, improving overall network power consumption and robustness. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# Denoising Diffusion Modelを用いたマルチウェザークロスビュージオローカライゼーション
Multi-weather Cross-view Geo-localization Using Denoising Diffusion Models ( http://arxiv.org/abs/2408.02408v1 ) ライセンス: Link先を確認 | Tongtong Feng, Qing Li, Xin Wang, Mingzi Wang, Guangyao Li, Wenwu Zhu, | (参考訳) GNSSデニッド環境におけるクロスビューのジオローカライゼーションは、ドローンビュー画像と、大きなギャラリーからの正確なジオタグ付き衛星ビュー画像とをマッチングすることにより、未知の場所を決定することを目的としている。
近年の研究では、特定の気象条件下での識別的画像表現の学習が、性能を大幅に向上させることが示されている。
しかし、目に見えない極度の天候が頻繁に起こると、進行が妨げられる。
本稿では,気象条件に適応する多天候クロスビュージオローカライゼーションフレームワークであるMCGFを紹介する。
MCGFはデノナイジング拡散モデルを用いて画像復元とジオローカライゼーションを共同で最適化する。
画像復元のため、MCGFは共有エンコーダと軽量復元モジュールを内蔵し、バックボーンが気象情報を排除するのに役立つ。
ジオローカライゼーションでは、MCGFはEVA-02を特徴抽出のバックボーンとして使用し、トレーニングにはクロスエントロピーロス、テストにはコサイン距離が使用される。
大学160k-WXにおける大規模な実験により、MCGFは様々な気象条件下での局地化の競争的な結果が得られることが示された。
Cross-view geo-localization in GNSS-denied environments aims to determine an unknown location by matching drone-view images with the correct geo-tagged satellite-view images from a large gallery. Recent research shows that learning discriminative image representations under specific weather conditions can significantly enhance performance. However, the frequent occurrence of unseen extreme weather conditions hinders progress. This paper introduces MCGF, a Multi-weather Cross-view Geo-localization Framework designed to dynamically adapt to unseen weather conditions. MCGF establishes a joint optimization between image restoration and geo-localization using denoising diffusion models. For image restoration, MCGF incorporates a shared encoder and a lightweight restoration module to help the backbone eliminate weather-specific information. For geo-localization, MCGF uses EVA-02 as a backbone for feature extraction, with cross-entropy loss for training and cosine distance for testing. Extensive experiments on University160k-WX demonstrate that MCGF achieves competitive results for geo-localization in varying weather conditions. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# PENDRAM:汎用DRAMデータマッピングポリシによるディープニューラルネットワークの高性能・高効率処理の実現
PENDRAM: Enabling High-Performance and Energy-Efficient Processing of Deep Neural Networks through a Generalized DRAM Data Mapping Policy ( http://arxiv.org/abs/2408.02412v1 ) ライセンス: Link先を確認 | Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、機械学習タスクを解決するための最先端のソリューションとして登場した。
CNN推論の性能とエネルギー効率を向上させるため、特殊なハードウェアアクセラレーターの利用が一般的である。
しかし、CNNアクセラレータは、高オフチップメモリ(DRAM)アクセスレイテンシとエネルギのため、パフォーマンスとエネルギー効率の課題に直面している。
さらに、異なるDRAMアーキテクチャはアクセスレイテンシとエネルギのプロファイルが異なるため、高性能でエネルギー効率のよいCNNアクセラレータ向けに最適化することは困難である。
そこで本研究では,汎用DRAMデータマッピングポリシを通じて,高性能でエネルギー効率の高いCNN加速を実現する新しい設計空間探索手法であるPENDRAMを提案する。
具体的には、異なるDRAMデータマッピングポリシーと、異なるCNNパーティショニングおよびスケジューリングスキームにわたるDRAMアーキテクチャが、DRAMアクセスのレイテンシとエネルギに与える影響を調査し、最適設計選択を識別する。
実験結果から,我々のDRAMデータマッピングポリシは,CNNアクセラレータにおけるDRAMアクセスのエネルギー遅延生成を,他のマッピングポリシよりも最大96%向上することが示された。
このようにして、当社のPENDRAM方法論は、様々な組み込みAIアプリケーションに対して、任意のDRAMアーキテクチャの下で、高性能でエネルギー効率の良いCNN加速を提供する。
Convolutional Neural Networks (CNNs), a prominent type of Deep Neural Networks (DNNs), have emerged as a state-of-the-art solution for solving machine learning tasks. To improve the performance and energy efficiency of CNN inference, the employment of specialized hardware accelerators is prevalent. However, CNN accelerators still face performance- and energy-efficiency challenges due to high off-chip memory (DRAM) access latency and energy, which are especially crucial for latency- and energy-constrained embedded applications. Moreover, different DRAM architectures have different profiles of access latency and energy, thus making it challenging to optimize them for high performance and energy-efficient CNN accelerators. To address this, we present PENDRAM, a novel design space exploration methodology that enables high-performance and energy-efficient CNN acceleration through a generalized DRAM data mapping policy. Specifically, it explores the impact of different DRAM data mapping policies and DRAM architectures across different CNN partitioning and scheduling schemes on the DRAM access latency and energy, then identifies the pareto-optimal design choices. The experimental results show that our DRAM data mapping policy improves the energy-delay-product of DRAM accesses in the CNN accelerator over other mapping policies by up to 96%. In this manner, our PENDRAM methodology offers high-performance and energy-efficient CNN acceleration under any given DRAM architectures for diverse embedded AI applications. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# なぜプロンプトが漏れているのか? カスタマイズされた大規模言語モデルにおけるプロンプト抽出の脅威
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models ( http://arxiv.org/abs/2408.02416v1 ) ライセンス: Link先を確認 | Zi Liang, Haibo Hu, Qingqing Ye, Yaxin Xiao, Haoyang Li, | (参考訳) 大規模言語モデル(LLM)パラメータの劇的な増加は、プロンプト、すなわちタスク記述による微調整不要な下流のカスタマイズの新しい研究方向につながった。
これらのプロンプトベースのサービス(例えばOpenAIのGPT)は、多くのビジネスにおいて重要な役割を担っているが、これらのサービスの知的特性を損なう、ダウンストリーム攻撃を引き起こす急激なリークに対する懸念が高まっている。
本稿では,プロンプトリークのメカニズムを解析し,プロンプトメモリ化(promise memorization)と呼び,対応する防御戦略を開発する。
プロンプト抽出におけるスケーリング法則を探索することにより,モデルサイズ,プロンプト長,およびプロンプトの種類など,プロンプト抽出に影響を与える重要な属性を解析する。
次に、LLMがどのようにプロンプトを公開するかを説明する2つの仮説を提案する。
1つは、LLMがテキストに親しみやすいこと、もう1つは注意行列の単純なトークン翻訳経路に基づいていることによる。
このような脅威に対して防御するために、アライメントがプロンプトの抽出を損なうかどうかを検討する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、最も簡単なユーザ攻撃の下でも、抽出攻撃を早めるために非常に脆弱であることがわかった。
そこで我々は, Llama2-7B と GPT-3.5 の即時抽出速度において, 83.8\% と 71.0\% の低下を達成できる, 知見のインスピレーションを得て, いくつかの防衛戦略を立案した。
ソースコードは \url{https://github.com/liangzid/PromptExtractionEval} で検証可能である。
The drastic increase of large language models' (LLMs) parameters has led to a new research direction of fine-tuning-free downstream customization by prompts, i.e., task descriptions. While these prompt-based services (e.g. OpenAI's GPTs) play an important role in many businesses, there has emerged growing concerns about the prompt leakage, which undermines the intellectual properties of these services and causes downstream attacks. In this paper, we analyze the underlying mechanism of prompt leakage, which we refer to as prompt memorization, and develop corresponding defending strategies. By exploring the scaling laws in prompt extraction, we analyze key attributes that influence prompt extraction, including model sizes, prompt lengths, as well as the types of prompts. Then we propose two hypotheses that explain how LLMs expose their prompts. The first is attributed to the perplexity, i.e. the familiarity of LLMs to texts, whereas the second is based on the straightforward token translation path in attention matrices. To defend against such threats, we investigate whether alignments can undermine the extraction of prompts. We find that current LLMs, even those with safety alignments like GPT-4, are highly vulnerable to prompt extraction attacks, even under the most straightforward user attacks. Therefore, we put forward several defense strategies with the inspiration of our findings, which achieve 83.8\% and 71.0\% drop in the prompt extraction rate for Llama2-7B and GPT-3.5, respectively. Source code is avaliable at \url{https://github.com/liangzid/PromptExtractionEval}. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# タスク指向対話システムへの感情注入:理解・管理・生成
Infusing Emotions into Task-oriented Dialogue Systems: Understanding, Management, and Generation ( http://arxiv.org/abs/2408.02417v1 ) ライセンス: Link先を確認 | Shutong Feng, Hsien-chin Lin, Christian Geishauser, Nurul Lubis, Carel van Niekerk, Michael Heck, Benjamin Ruppik, Renato Vukovic, Milica Gašić, | (参考訳) 感情は人間のコミュニケーションには欠かせないが、タスク指向対話(ToD)モデリングではしばしば見過ごされる。
既存の研究は、一部のToDタスクでユーザー感情や同様の概念を探求してきたが、完全なToDシステムに感情をモデリングしたり、人間やシミュレーションユーザーとのインタラクションを行ったりすることは、これまでなかった。
本研究では,完全なToD処理ループに感情を組み込み,理解,管理,生成を行う。
この目的のために、EmoWOZデータセット(Feng et al , 2022)をシステムの感情行動ラベルで拡張する。
シミュレーションと人間の両方のユーザによるインタラクティブな実験を通じて,提案手法がユーザの感情体験とタスク成功を著しく向上させることを示す。
Emotions are indispensable in human communication, but are often overlooked in task-oriented dialogue (ToD) modelling, where the task success is the primary focus. While existing works have explored user emotions or similar concepts in some ToD tasks, none has so far included emotion modelling into a fully-fledged ToD system nor conducted interaction with human or simulated users. In this work, we incorporate emotion into the complete ToD processing loop, involving understanding, management, and generation. To this end, we extend the EmoWOZ dataset (Feng et al., 2022) with system affective behaviour labels. Through interactive experimentation involving both simulated and human users, we demonstrate that our proposed framework significantly enhances the user's emotional experience as well as the task success. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# FE-Adapter: 画像ベースの感情分類器をビデオに適応させる
FE-Adapter: Adapting Image-based Emotion Classifiers to Videos ( http://arxiv.org/abs/2408.02421v1 ) ライセンス: Link先を確認 | Shreyank N Gowda, Boyan Gao, David A. Clifton, | (参考訳) 特定のタスクにトレーニング済みの大きなモデルを使用することで、素晴らしい結果が得られました。
しかし、これらの大規模モデルの完全な微調整は、資源集約化が禁じられている。
これにより、パラメータ効率のよい移動学習、主に同じモダリティに焦点が当てられるようになった。
しかし、このアプローチには制限があり、特に適切な事前訓練されたモデルが一般的でないビデオ理解においてである。
そこで本研究では,パラメータ効率のよい画像間移動学習と呼ぶ,画像からビデオへのモダリティ間移動学習手法を提案する。
本稿では,映像タスクの微調整を効率よく行うために設計された表情適応器(FE-Adapter)について述べる。
このアダプタは、伝統的に時間的処理能力に欠ける訓練済みの画像モデルに対して、ダイナミックなビデオコンテンツを効率的に分析することを可能にする。
特に、従来の手法の約15倍のパラメータを使用し、精度を向上している。
我々のビデオ感情認識実験は、FE-Adapterが既存の微調整およびビデオ感情モデルと性能と効率の両方で一致または超えることを示した。
このブレークスルーは、AIモデルの能力、特に効率性と精度の需要が絶えず上昇しているビデオ感情分析のような分野における、モダリティ間のアプローチの可能性を強調している。
Utilizing large pre-trained models for specific tasks has yielded impressive results. However, fully fine-tuning these increasingly large models is becoming prohibitively resource-intensive. This has led to a focus on more parameter-efficient transfer learning, primarily within the same modality. But this approach has limitations, particularly in video understanding where suitable pre-trained models are less common. Addressing this, our study introduces a novel cross-modality transfer learning approach from images to videos, which we call parameter-efficient image-to-video transfer learning. We present the Facial-Emotion Adapter (FE-Adapter), designed for efficient fine-tuning in video tasks. This adapter allows pre-trained image models, which traditionally lack temporal processing capabilities, to analyze dynamic video content efficiently. Notably, it uses about 15 times fewer parameters than previous methods, while improving accuracy. Our experiments in video emotion recognition demonstrate that the FE-Adapter can match or even surpass existing fine-tuning and video emotion models in both performance and efficiency. This breakthrough highlights the potential for cross-modality approaches in enhancing the capabilities of AI models, particularly in fields like video emotion analysis where the demand for efficiency and accuracy is constantly rising. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# FPT+:高分解能医用画像分類のためのパラメータとメモリ効率の学習方法
FPT+: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification ( http://arxiv.org/abs/2408.02426v1 ) ライセンス: Link先を確認 | Yijin Huang, Pujin Cheng, Roger Tam, Xiaoying Tang, | (参考訳) 大規模事前訓練モデルの成功により、下流タスクの大幅な改善を実現するための標準手法として微調整が確立された。
しかし、事前訓練されたモデルのパラメータ集合全体を微調整するのはコストがかかる。
パラメータ効率変換学習(PETL)は、最近、下流タスクに事前学習されたモデルを適用するための費用対効果の代替手段として登場した。
その利点にもかかわらず、モデルサイズと入力解像度の増大は、トレーニングメモリ消費がパラメータ使用量ほど効果的に減少しないため、PETLの課題となる。
本稿では,高分解能な医用画像分類のためのPETL法であるFPT+を導入し,他のPETL法と比較してメモリ消費を大幅に削減する。
FPT+は、軽量なサイドネットワークをトレーニングし、微細なプロンプトと融合モジュールを通して、大きな事前訓練されたモデル(LPM)から事前訓練された知識にアクセスすることによって、転送学習を実行する。
具体的には、LPMを凍結し、学習可能な軽量サイドネットワークを構築する。
凍結したLPMは高解像度画像を処理してきめ細かな特徴を抽出し、一方、サイドネットワークは対応する低解像度画像を用いてメモリ使用量を最小化する。
サイドネットワークが事前学習した知識を活用できるようにするために,LPMの中間活性化を通じて情報を要約する,きめ細かなプロンプトと融合モジュールを提案する。
FPT+は, サイズ, モダリティ, 複雑さの異なる8つの医用画像データセットで評価した。
実験の結果、FPT+は他のPETL法よりも優れており、学習可能なパラメータの1.03%とViT-Bモデル全体を微調整するために必要なメモリの3.18%しか使用していない。
私たちのコードはhttps://github.com/YijinHuang/FPT.comで公開されています。
The success of large-scale pre-trained models has established fine-tuning as a standard method for achieving significant improvements in downstream tasks. However, fine-tuning the entire parameter set of a pre-trained model is costly. Parameter-efficient transfer learning (PETL) has recently emerged as a cost-effective alternative for adapting pre-trained models to downstream tasks. Despite its advantages, the increasing model size and input resolution present challenges for PETL, as the training memory consumption is not reduced as effectively as the parameter usage. In this paper, we introduce Fine-grained Prompt Tuning plus (FPT+), a PETL method designed for high-resolution medical image classification, which significantly reduces memory consumption compared to other PETL methods. FPT+ performs transfer learning by training a lightweight side network and accessing pre-trained knowledge from a large pre-trained model (LPM) through fine-grained prompts and fusion modules. Specifically, we freeze the LPM and construct a learnable lightweight side network. The frozen LPM processes high-resolution images to extract fine-grained features, while the side network employs the corresponding down-sampled low-resolution images to minimize the memory usage. To enable the side network to leverage pre-trained knowledge, we propose fine-grained prompts and fusion modules, which collaborate to summarize information through the LPM's intermediate activations. We evaluate FPT+ on eight medical image datasets of varying sizes, modalities, and complexities. Experimental results demonstrate that FPT+ outperforms other PETL methods, using only 1.03% of the learnable parameters and 3.18% of the memory required for fine-tuning an entire ViT-B model. Our code is available at https://github.com/YijinHuang/FPT. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 添加性粉末の2次元ラジオグラフィーにおける細孔欠陥の減衰調整深層学習
Attenuation-adjusted deep learning of pore defects in 2D radiographs of additive manufacturing powders ( http://arxiv.org/abs/2408.02427v1 ) ライセンス: Link先を確認 | Andreas Bjerregaard, David Schumacher, Jon Sporring, | (参考訳) 添加剤製造用金属原料粉末中のガス細孔の存在は、最終AM生成物に大きな影響を及ぼす。
現在のポロシティ分析では、試料をフル回転させたX線CTスキャン(英語版)が用いられることが多いため、製造中のインラインポロシティ分析を可能にするため、高いスループットを実現する方法を模索するモチベーションが存在する。
粉体の1つの2次元ラジオグラフに細孔のピクセルをラベル付けすることで、このような将来の効率的なセットアップをシミュレートする。
高セグメンテーション精度は、粒子によるX線減衰のモデルと広く応用されたUNetアーキテクチャの変種を組み合わせることで達成される。
提案した細孔セグメンテーションは以下の通りである。
1) 合成データによる事前学習
2 固い粒子カットアウトをし、
3) ランベルト・ビアス法則に着想を得た距離写像から生じる孔のない理想粒子を減算する。
本稿では,F1-score$0.78$,F1-score$0.87$の0.291s$の平均0.014s$で粒子を高速(未最適化)セグメント化する4つの画像処理手法について検討する。
スケーラブルな性質のため、これらの戦略は添加物製造のための金属原料粉末の高スループットポロシティ分析に関わっている。
The presence of gas pores in metal feedstock powder for additive manufacturing greatly affects the final AM product. Since current porosity analysis often involves lengthy X-ray computed tomography (XCT) scans with a full rotation around the sample, motivation exists to explore methods that allow for high throughput -- possibly enabling in-line porosity analysis during manufacturing. Through labelling pore pixels on single 2D radiographs of powders, this work seeks to simulate such future efficient setups. High segmentation accuracy is achieved by combining a model of X-ray attenuation through particles with a variant of the widely applied UNet architecture; notably, F1-score increases by $11.4\%$ compared to the baseline UNet. The proposed pore segmentation is enabled by: 1) pretraining on synthetic data, 2) making tight particle cutouts, and 3) subtracting an ideal particle without pores generated from a distance map inspired by Lambert-Beers law. This paper explores four image processing methods, where the fastest (yet still unoptimized) segments a particle in mean $0.014s$ time with F1-score $0.78$, and the most accurate in $0.291s$ with F1-score $0.87$. Due to their scalable nature, these strategies can be involved in making high throughput porosity analysis of metal feedstock powder for additive manufacturing. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 量子計算による次世代電力系統計画・運用へのギャップの埋め合わせ
Bridging the Gap to Next Generation Power System Planning and Operation with Quantum Computation ( http://arxiv.org/abs/2408.02432v1 ) ライセンス: Link先を確認 | Priyanka Arkalgud Ganeshamurthy, Kumar Ghosh, Corey O'Meara, Giorgio Cortiana, Jan Schiefelbein-Lach, | (参考訳) クリーンな形態のエネルギーで供給される電力需要の増加に対応するため、革新的なソリューションと開発が検査されている。
再生可能エネルギー世代の統合, 自然負荷の変化, 配電システムの積極的な役割の重要性, グリッド運用における消費者の参加が, 従来の電力グリッドの景観を変えた。
グリッドを計画、監視、安全に運用するためのよりスマートなアプリケーションの実装は、グリッドの効率的でセキュアで信頼性の高い機能にとって最重要と考えられる。
時間的クリティカルな方法で有用な情報を生成するために大量のデータを処理するための高度な計算は、将来のグリッド操作のパラダイムであるが、計算複雑性の重荷を伴っている。
量子技術の進歩は、電力系統関連アプリケーションの計算複雑性の要求に対処するための有望な解決策である。
本稿では,電力システムアプリケーションに関連する計算負荷問題を解決するために,量子解を求める動機を明らかにする。
次に、現在の文献で利用可能な各種電力系統関連アプリケーションに対する量子解の概要と今後の研究課題について述べる。
さらに、完全量子能力を活用するための既存の量子ソリューションの課題を強調します。
さらに,本論文は,電力技術者の量子世界へのブリッジとして,電力系統計算の将来へのスムーズな移行を可能にするために必要不可欠な量子計算の基礎を概説する。
Innovative solutions and developments are being inspected to tackle rising electrical power demand to be supplied by clean forms of energy. The integration of renewable energy generations, varying nature loads, importance of active role of distribution system and consumer participation in grid operation has changed the landscape of classical power grids. Implementation of smarter applications to plan, monitor, operate the grid safely are deemed paramount for efficient, secure and reliable functioning of grid. Although sophisticated computations to process gigantic volume of data to produce useful information in a time critical manner is the paradigm of future grid operations, it brings along the burden of computational complexity. Advancements in quantum technologies holds promising solution for dealing with demanding computational complexity of power system related applications. In this article, we lay out clear motivations for seeking quantum solutions for solving computational burden challenges associated with power system applications. Next we present an overview of quantum solutions for various power system related applications available in current literature and suggest future topics for research. We further highlight challenges with existing quantum solutions for exploiting full quantum capabilities. Additionally, this paper serves as a bridge for power engineers to the quantum world by outlining essential quantum computation fundamentals for enabling smoother transition to future of power system computations. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 最適次元還元における確率的埋め込みについて
On Probabilistic Embeddings in Optimal Dimension Reduction ( http://arxiv.org/abs/2408.02433v1 ) ライセンス: Link先を確認 | Ryan Murray, Adam Pickarski, | (参考訳) 次元削減アルゴリズムは多くのデータサイエンスパイプラインにおいて重要な部分であり、データ探索、特徴生成と選択、デノナイズなどが含まれる。
広く利用されているにもかかわらず、多くの非線形次元還元アルゴリズムは理論的観点からは理解されていない。
本研究では,高次元特徴空間から低次元埋め込み空間への写像が特徴空間における分布の内積やノルムを保存しようとする最適化問題として提案される多次元スケーリングの一般化版について考察する。
この問題の変動特性を解析的に検討し、以下の知見を得た。
1) 標準粒子降下法による解は非決定論的埋め込みにつながる可能性がある。
2 問題の緩和的又は確率的定式化は、容易に解釈可能な必要条件の解を認める。
3) 緩和された問題に対する大域的最適解は、実際には決定論的埋め込みを与える必要がある。
この結果の進展は、古典的な最適輸送の発達を反映しており、グロモフ=ヴァッサーシュタイン距離に関する場合、パラメトリック的に決定され不連続な最適埋め込みの構造に関する明確な洞察を実際に与えている。
最後に、このタスクの標準的な計算実装は決定論的埋め込みを学ばず、つまり、準最適写像を学習し、その文脈で学んだ埋め込みはクラスタリング構造を非常に誤解させるものであり、この問題を計算的に解くという繊細な性質を暗示している。
Dimension reduction algorithms are a crucial part of many data science pipelines, including data exploration, feature creation and selection, and denoising. Despite their wide utilization, many non-linear dimension reduction algorithms are poorly understood from a theoretical perspective. In this work we consider a generalized version of multidimensional scaling, which is posed as an optimization problem in which a mapping from a high-dimensional feature space to a lower-dimensional embedding space seeks to preserve either inner products or norms of the distribution in feature space, and which encompasses many commonly used dimension reduction algorithms. We analytically investigate the variational properties of this problem, leading to the following insights: 1) Solutions found using standard particle descent methods may lead to non-deterministic embeddings, 2) A relaxed or probabilistic formulation of the problem admits solutions with easily interpretable necessary conditions, 3) The globally optimal solutions to the relaxed problem actually must give a deterministic embedding. This progression of results mirrors the classical development of optimal transportation, and in a case relating to the Gromov-Wasserstein distance actually gives explicit insight into the structure of the optimal embeddings, which are parametrically determined and discontinuous. Finally, we illustrate that a standard computational implementation of this task does not learn deterministic embeddings, which means that it learns sub-optimal mappings, and that the embeddings learned in that context have highly misleading clustering structure, underscoring the delicate nature of solving this problem computationally. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# ロシア分析のための長期入力ベンチマーク
Long Input Benchmark for Russian Analysis ( http://arxiv.org/abs/2408.02439v1 ) ライセンス: Link先を確認 | Igor Churin, Murat Apishev, Maria Tikhonova, Denis Shevelev, Aydar Bulatov, Yuri Kuratov, Sergej Averkiev, Alena Fenogenova, | (参考訳) 自然言語処理(NLP)の最近の進歩は、多種多様なタスクを解決できる大規模言語モデル(LLM)の開発を後押ししている。
アプリケーションの重要な側面の1つは、長いテキスト文書で作業し、トークンの長いシーケンスを処理する能力である。
これにより、長文理解の適切な評価の要求が生まれている。
そこで本稿では,LIBRA(Long Input Benchmark for Russian Analysis)を提案する。
テストは4つの複雑性グループに分けられ、4kから128kまでのさまざまなコンテキスト長のモデルの評価が可能になる。
我々はLIBRAのオープンソースデータセット、コードベース、公開リーダボードを提供し、今後の研究をガイドしています。
Recent advancements in Natural Language Processing (NLP) have fostered the development of Large Language Models (LLMs) that can solve an immense variety of tasks. One of the key aspects of their application is their ability to work with long text documents and to process long sequences of tokens. This has created a demand for proper evaluation of long-context understanding. To address this need for the Russian language, we propose LIBRA (Long Input Benchmark for Russian Analysis), which comprises 21 adapted datasets to study the LLM's abilities to understand long texts thoroughly. The tests are divided into four complexity groups and allow the evaluation of models across various context lengths ranging from 4k up to 128k tokens. We provide the open-source datasets, codebase, and public leaderboard for LIBRA to guide forthcoming research. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 自由に話しましょうか?大言語モデルの性能に及ぼすフォーマット制限の影響に関する研究
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models ( http://arxiv.org/abs/2408.02442v1 ) ライセンス: Link先を確認 | Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen, | (参考訳) JSONやXMLのような標準化されたフォーマットでコンテンツを生成する構造化生成は、大規模言語モデル(LLM)から重要な出力情報を抽出するために、現実世界のアプリケーションで広く利用されている。
本研究では,ジェネレーション空間におけるそのような制約が,推論やドメイン知識の理解を含むLLMの能力に影響を及ぼすかどうかを検討する。
具体的には、様々な共通タスクに対して自由形式の応答を生成するよりも、構造化形式に順応することを制限された場合のLLMの性能を評価する。
意外なことに,書式制限下でのLLMの推論能力は著しく低下している。
さらに、より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下を引き起こす。
Structured generation, the process of producing content in standardized formats like JSON and XML, is widely utilized in real-world applications to extract key output information from large language models (LLMs). This study investigates whether such constraints on generation space impact LLMs' abilities, including reasoning and domain knowledge comprehension. Specifically, we evaluate LLMs' performance when restricted to adhere to structured formats versus generating free-form responses across various common tasks. Surprisingly, we observe a significant decline in LLMs' reasoning abilities under format restrictions. Furthermore, we find that stricter format constraints generally lead to greater performance degradation in reasoning tasks. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 恒星間量子通信とフェルミパラドックスについて
On Interstellar Quantum Communication and the Fermi Paradox ( http://arxiv.org/abs/2408.02445v1 ) ライセンス: Link先を確認 | Latham Boyle, | (参考訳) 開始以来、地球外知能(SETI)の探索は星間通信に焦点を当ててきた。
最近、Berera \cite{Berera:2020rpl} は、ある周波数において、光子量子ビットは恒星間距離(および銀河間距離)の量子コヒーレンスを保ち、恒星間量子通信の見通しを高めることを指摘した。
量子通信は古典的な通信では不可能なタスクを許容し、他の通信では指数的なスピードアップを可能にするため、これは興味深い可能性である。
(星間文脈におけるモチベーションをいくつか提案する。)
しかし、量子コヒーレンスだけでは量子通信には不十分である。ここで初めて、恒星間チャネルの「emph{quantum capacity} $Q$」を分析する。
非零量子容量$Q>0$を持つためには、距離$L$は波長$\lambda < 26.5\,cm$(宇宙マイクロ波背景による非分極を避けるために)と有効直径$D>0.78\sqrt{\lambda L}$(量子消去制約を満たすために)の 'emph{enormous} 望遠鏡を使用する必要がある。
例えば、地球上の直径$D$とProxima Centauriの2つの望遠鏡の場合、これはD>100\,km$!
これは、信頼できる一方通行の量子通信を可能にするための技術的しきい値であり、フェルミパラドックスの根本的な新しい解決法を示唆している。
Since it began \cite{CocconiMorrison}, the search for extraterrestrial intelligence (SETI) has focused on interstellar \emph{classical} communication. Recently, Berera \cite{Berera:2020rpl} pointed out that, at certain frequencies, photon qubits can retain their quantum coherence over interstellar (and even intergalactic) distances, raising the prospect of interstellar \emph{quantum} communication. This is an intriguing possibility, since quantum communication permits certain tasks that would be impossible with classical communication, and allow exponential speed-ups for others. (We suggest some motivations in the interstellar context.) But quantum coherence alone is not sufficient for quantum communication: here, for the first time, we analyze the \emph{quantum capacity} $Q$ of an interstellar channel. We point out that, to have non-zero quantum capacity $Q>0$, interstellar communication over a distance $L$ must use wavelengths $\lambda < 26.5\,cm$ (to avoid depolarization by the cosmic microwave background), and \emph{enormous} telescopes of effective diameter $D>0.78\sqrt{\lambda L}$ (to satisfy quantum erasure constraints). For example, for two telescopes of diameter $D$ on Earth and Proxima Centauri, this implies $D>100\,km$! This is a technological threshold that remains to be crossed in order for reliable one-way quantum communication to become possible, and suggests a fundamental new resolution of the Fermi paradox. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# LLMによるサイバー物理システムの要求モデリングの評価
An Evaluation of Requirements Modeling for Cyber-Physical Systems via LLMs ( http://arxiv.org/abs/2408.02450v1 ) ライセンス: Link先を確認 | Dongming Jin, Shengxin Zhao, Zhi Jin, Xiaohong Chen, Chunhui Wang, Zheng Fang, Hongbin Xiao, | (参考訳) サイバー物理システム(CPS)は、サイバーおよび物理的コンポーネントを統合し、ユーザのニーズを満たすために相互に対話できるようにする。
CPSのニーズは、医療や医療、スマートホーム、スマートビルディングなど、豊富なアプリケーションドメインにまたがる。
これは、CPSがすべて現実世界の問題を解決することを示唆している。
センサデバイスやエフェクターの多さにより、CPSで解決したいという問題はますます複雑になりつつある。
また、CPS要求を正確に抽出し、表現することがますます困難になっている。
問題枠のアプローチは、要求を表現する上で問題図が中心となるコンポーネントの特性と相互接続をキャプチャすることで、現実世界の問題を形成することを目的としている。
CPSの要件は一般的に、通常自然言語で表現されるドメイン固有の文書で示される。
現在、自然言語文書から問題図を抽出する方法は存在しない。
CPSの要求抽出とモデリングは一般的に手作業で行われる。
大規模言語モデル(LLM)は、自然言語理解において優れた性能を示している。
LLMがドメイン固有の文書を理解し、モデリング要素を識別する能力について検討することは興味深い。
この目的を達成するために、まず2つのタスク(エンティティ認識とインタラクション抽出)を定式化し、CPSBenchと呼ばれるベンチマークを提案する。
このベンチマークに基づいて、7つの高度なLCMの能力と限界を評価するための広範囲な実験を行った。
興味深い洞察がいくつかあります。
最後に,問題図を用いたCPSs要求モデルにおけるLLMの幻覚の分類法を確立する。
これらの結果は、自動CPS要求モデリングにおけるLLMの使用に関する研究を刺激する。
Cyber-physical systems (CPSs) integrate cyber and physical components and enable them to interact with each other to meet user needs. The needs for CPSs span rich application domains such as healthcare and medicine, smart home, smart building, etc. This indicates that CPSs are all about solving real-world problems. With the increasing abundance of sensing devices and effectors, the problems wanted to solve with CPSs are becoming more and more complex. It is also becoming increasingly difficult to extract and express CPS requirements accurately. Problem frame approach aims to shape real-world problems by capturing the characteristics and interconnections of components, where the problem diagram is central to expressing the requirements. CPSs requirements are generally presented in domain-specific documents that are normally expressed in natural language. There is currently no effective way to extract problem diagrams from natural language documents. CPSs requirements extraction and modeling are generally done manually, which is time-consuming, labor-intensive, and error-prone. Large language models (LLMs) have shown excellent performance in natural language understanding. It can be interesting to explore the abilities of LLMs to understand domain-specific documents and identify modeling elements, which this paper is working on. To achieve this goal, we first formulate two tasks (i.e., entity recognition and interaction extraction) and propose a benchmark called CPSBench. Based on this benchmark, extensive experiments are conducted to evaluate the abilities and limitations of seven advanced LLMs. We find some interesting insights. Finally, we establish a taxonomy of LLMs hallucinations in CPSs requirements modeling using problem diagrams. These results will inspire research on the use of LLMs for automated CPSs requirements modeling. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# 進化的アルゴリズムにおける大規模言語モデルを用いたハイパーパラメータチューニングに関する研究
An investigation on the use of Large Language Models for hyperparameter tuning in Evolutionary Algorithms ( http://arxiv.org/abs/2408.02451v1 ) ライセンス: Link先を確認 | Leonardo Lucio Custode, Fabio Caraffini, Anil Yaman, Giovanni Iacca, | (参考訳) ハイパーパラメータ最適化は進化計算において重要な問題である。
実際、ハイパーパラメータの値は最適化プロセスによって取られた軌道に直接影響を与え、その選択には人間の操作者による広範な推論が必要である。
この論文では、様々な自己適応進化アルゴリズムが提案されているが、決定的な解決策は見つかっていない。
本研究では,超パラメータ値の選択につながる推論プロセスを自動化するための予備的な調査を行う。
Llama2-70bとMixtralという2つのオープンソースのLarge Language Models(LLMs)を用いて、最適化ログをオンラインで分析し、新しいリアルタイムハイパーパラメーターレコメンデーションを提供する。
本研究では, (1+1)-ESのステップサイズ適応の文脈におけるアプローチについて検討する。
以上の結果から, LLMは進化戦略におけるハイパーパラメータの最適化に有効である可能性が示唆された。
Hyperparameter optimization is a crucial problem in Evolutionary Computation. In fact, the values of the hyperparameters directly impact the trajectory taken by the optimization process, and their choice requires extensive reasoning by human operators. Although a variety of self-adaptive Evolutionary Algorithms have been proposed in the literature, no definitive solution has been found. In this work, we perform a preliminary investigation to automate the reasoning process that leads to the choice of hyperparameter values. We employ two open-source Large Language Models (LLMs), namely Llama2-70b and Mixtral, to analyze the optimization logs online and provide novel real-time hyperparameter recommendations. We study our approach in the context of step-size adaptation for (1+1)-ES. The results suggest that LLMs can be an effective method for optimizing hyperparameters in Evolution Strategies, encouraging further research in this direction. | 翻訳日:2024-08-06 13:37:05 公開日:2024-08-05 |
# GATに基づく新しいアプローチによる異種知識グラフ補完の強化
Enhancing Heterogeneous Knowledge Graph Completion with a Novel GAT-based Approach ( http://arxiv.org/abs/2408.02456v1 ) ライセンス: Link先を確認 | Wanxu Wei, Yitong Song, Bin Yao, | (参考訳) 知識グラフ(KG)は、検索結果の強化やレコメンデーションシステムにおいて重要な役割を果たす。
KGsは急速に増加し、不正確で不完全になっている。
この問題は、グラフ注意ネットワーク(GAT)に基づく手法が優れた性能で際立っている知識グラフ補完法によって解決できる。
しかし、既存のGATベースの知識グラフ補完法は、不均一な知識グラフを扱う際にしばしば過度に適合する問題に悩まされる。
さらに、これらの手法は、同じ関係を持つ尾(頭)エンティティと他者との頭(尾)エンティティを予測する上で、パフォーマンスが劣っていることを示す。
これらの問題を解決するため, ヘテロジニアスKGを対象としたGATH法を提案する。
GATHには2つの異なるアテンションネットワークモジュールが組み込まれている。
また、新しい符号化手法と特徴変換手法を導入し、不均衡なサンプルを持つシナリオにおけるGATHの堅牢な性能を実現する。
GATHの性能を評価するための総合的な実験を行った。
Hits@10とMRRの既存のSOTA GATベースのモデルと比較すると、FB15K-237データセットでは5.2%、WN18RRデータセットでは4.5%、14.6%のパフォーマンスが向上しています。
Knowledge graphs (KGs) play a vital role in enhancing search results and recommendation systems. With the rapid increase in the size of the KGs, they are becoming inaccuracy and incomplete. This problem can be solved by the knowledge graph completion methods, of which graph attention network (GAT)-based methods stand out since their superior performance. However, existing GAT-based knowledge graph completion methods often suffer from overfitting issues when dealing with heterogeneous knowledge graphs, primarily due to the unbalanced number of samples. Additionally, these methods demonstrate poor performance in predicting the tail (head) entity that shares the same relation and head (tail) entity with others. To solve these problems, we propose GATH, a novel GAT-based method designed for Heterogeneous KGs. GATH incorporates two separate attention network modules that work synergistically to predict the missing entities. We also introduce novel encoding and feature transformation approaches, enabling the robust performance of GATH in scenarios with imbalanced samples. Comprehensive experiments are conducted to evaluate the GATH's performance. Compared with the existing SOTA GAT-based model on Hits@10 and MRR metrics, our model improves performance by 5.2% and 5.2% on the FB15K-237 dataset, and by 4.5% and 14.6% on the WN18RR dataset, respectively. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# AIに基づくシネCMRセグメンテーションにおけるレースバイアスの原因に関する研究
An investigation into the causes of race bias in AI-based cine CMR segmentation ( http://arxiv.org/abs/2408.02462v1 ) ライセンス: Link先を確認 | Tiarna Lee, Esther Puyol-Anton, Bram Ruijsink, Sebastien Roujol, Theodore Barfoot, Shaheim Ogbomo-Harmitt, Miaojing Shi, Andrew P. King, | (参考訳) 人工心臓磁気共鳴(CMR)画像の自動分割に人工知能(AI)法がますます使われてきている。
しかし、これらの手法は人種バイアス、すなわちAIモデルのトレーニングに使用されるデータのバランスに応じて異なる人種のパフォーマンスを示すことが示されている。
本稿では,このバイアスの源泉を解明し,根本原因を解明し,効果的に緩和できるようにする。
英国バイオバンクの黒と白の被験者から得られた短軸シネCMR画像の分類とセグメンテーション実験を行い、その結果を理解するためにAIの解釈可能性手法を適用した。
分類実験では,画像のみから高い精度で人種を予測できるが,真理セグメンテーションでは精度が低いことが判明し,AIバイアスの原因となる人種間の分布変化が,主にセグメンテーションベースではなくイメージベースであることが示唆された。
分類モデルでは皮下脂肪などの非ハート領域に注意が向けられた。
心臓の周囲をしっかりと撮影すると、分類精度は偶然のレベルまで低下した。
同様に、レースはバイアス付きセグメンテーションモデルの潜在表現から予測することができ、レース情報はモデルに符号化されていることを示唆している。
心臓周囲の画像の収集は困難であったが, セグメンテーションバイアスは排除されなかった。
また,共同ファウンダーが観察されるバイアスに与える影響についても検討した。
Artificial intelligence (AI) methods are being used increasingly for the automated segmentation of cine cardiac magnetic resonance (CMR) imaging. However, these methods have been shown to be subject to race bias, i.e. they exhibit different levels of performance for different races depending on the (im)balance of the data used to train the AI model. In this paper we investigate the source of this bias, seeking to understand its root cause(s) so that it can be effectively mitigated. We perform a series of classification and segmentation experiments on short-axis cine CMR images acquired from Black and White subjects from the UK Biobank and apply AI interpretability methods to understand the results. In the classification experiments, we found that race can be predicted with high accuracy from the images alone, but less accurately from ground truth segmentations, suggesting that the distributional shift between races, which is often the cause of AI bias, is mostly image-based rather than segmentation-based. The interpretability methods showed that most attention in the classification models was focused on non-heart regions, such as subcutaneous fat. Cropping the images tightly around the heart reduced classification accuracy to around chance level. Similarly, race can be predicted from the latent representations of a biased segmentation model, suggesting that race information is encoded in the model. Cropping images tightly around the heart reduced but did not eliminate segmentation bias. We also investigate the influence of possible confounders on the bias observed. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# コンピュータビジョンにおける公平性とバイアス軽減
Fairness and Bias Mitigation in Computer Vision: A Survey ( http://arxiv.org/abs/2408.02464v1 ) ライセンス: Link先を確認 | Sepehr Dehdashtian, Ruozhen He, Yi Li, Guha Balakrishnan, Nuno Vasconcelos, Vicente Ordonez, Vishnu Naresh Boddeti, | (参考訳) コンピュータビジョンシステムは、この分野における複数の進歩により、過去20年間に急速な進歩を目撃してきた。
これらのシステムは、高レベルな現実世界のアプリケーションにますます導入されているため、歴史的または人為的なデータにおける差別傾向の伝播や増幅、あるいは急激な相関から不注意にバイアスを学習しないことを確実にする必要がある。
本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
私たちが議論するトピックには
1) 公正性の起源と技術的定義は、より広い公正な機械学習文献と隣接分野から引き出されたものである。
2)コンピュータビジョンシステムにおけるバイアスの発見と分析を目的とした作業。
3)近年のコンピュータビジョンシステムにおけるバイアス軽減手法の概要
4) 偏見を測り,分析し,緩和し,公平性を高めるため,研究者が作成したリソースとデータセットの包括的要約。
5) この分野の成功, マルチモーダル基盤と生成モデルという文脈における継続的な傾向, 未解決のギャップについて考察する。
提示された特徴は、コンピュータビジョンにおける偏見の特定と緩和の重要性とフィールドの状態を理解し、将来の研究の潜在的な方向を特定するのに役立つ。
Computer vision systems have witnessed rapid progress over the past two decades due to multiple advances in the field. As these systems are increasingly being deployed in high-stakes real-world applications, there is a dire need to ensure that they do not propagate or amplify any discriminatory tendencies in historical or human-curated data or inadvertently learn biases from spurious correlations. This paper presents a comprehensive survey on fairness that summarizes and sheds light on ongoing trends and successes in the context of computer vision. The topics we discuss include 1) The origin and technical definitions of fairness drawn from the wider fair machine learning literature and adjacent disciplines. 2) Work that sought to discover and analyze biases in computer vision systems. 3) A summary of methods proposed to mitigate bias in computer vision systems in recent years. 4) A comprehensive summary of resources and datasets produced by researchers to measure, analyze, and mitigate bias and enhance fairness. 5) Discussion of the field's success, continuing trends in the context of multimodal foundation and generative models, and gaps that still need to be addressed. The presented characterization should help researchers understand the importance of identifying and mitigating bias in computer vision and the state of the field and identify potential directions for future research. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 注意に基づくTinyML: 不均一なアクセラレーションアーキテクチャと自動デプロイメントフロー
Toward Attention-based TinyML: A Heterogeneous Accelerated Architecture and Automated Deployment Flow ( http://arxiv.org/abs/2408.02473v1 ) ライセンス: Link先を確認 | Philip Wiese, Gamze İslamoğlu, Moritz Scherer, Luka Macan, Victor J. B. Jung, Alessio Burrello, Francesco Conti, Luca Benini, | (参考訳) Tiny Machine Learning(tinyML)の課題のひとつは、畳み込みニューラルネットワークからトランスフォーマーへのマシンラーニングモデルの進化に追随することだ。
我々は、RISC-Vプロセッサとハードワイヤ型アクセラレータを結合した異種アーキテクチャテンプレートを活用することで、この問題に対処する。
我々は,小容量のMLパワーエンベロープに,オクタコアクラスタとアクタライズされたアテンションのアクセラレータを結合したアテンションモデルを示す。
デプロイメントフローにより,52.0 mW (0.65 V, 22 nm FD-SOI) で2960 GOp/J, 154 GOp/sの先進エネルギー効率とスループットを実現することができる。
One of the challenges for Tiny Machine Learning (tinyML) is keeping up with the evolution of Machine Learning models from Convolutional Neural Networks to Transformers. We address this by leveraging a heterogeneous architectural template coupling RISC-V processors with hardwired accelerators supported by an automated deployment flow. We demonstrate an Attention-based model in a tinyML power envelope with an octa-core cluster coupled with an accelerator for quantized Attention. Our deployment flow enables an end-to-end 8-bit MobileBERT, achieving leading-edge energy efficiency and throughput of 2960 GOp/J and 154 GOp/s at 32.5 Inf/s consuming 52.0 mW (0.65 V, 22 nm FD-SOI technology). | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 光学共振器におけるBECの動的位相
Dynamical phases of a BEC in a bad optical cavity at optomechanical resonance ( http://arxiv.org/abs/2408.02478v1 ) ライセンス: Link先を確認 | Gage W. Harmon, Giovanna Morigi, Simon B. Jäger, | (参考訳) 本研究では, 発散キャビティモードに光学的に結合し, レーザによって横方向に駆動されるボース・アインシュタイン凝縮体の動的相の出現について検討した。
我々は、原子の屈折率が空洞を共鳴にシフトし、高速な空洞緩和を仮定する、光学共鳴に近い状態に焦点をあてる。
本研究では,原子-空洞結合における摂動理論を用いて自由度を除去し,全モデルに基づく数値シミュレーションを用いてその予測をベンチマークする原子運動の有効なモデルを提案する。
光力学的共鳴とは違い、低次の摂動理論(断熱除去)は力学を確実に記述し、不安定な振動を伴うカオス相を予測する。
興味深いことに、オプトメカニカル共鳴に近いダイナミクスは、次の次への補正(非断熱補正)を含めることによってのみ定性的に捕獲される。
この状態において、明確に定義された周波数で密度の安定な振動を記述する極限周期位相を求める。
さらに,そのような極限サイクル解がアディバティックモデルのメタスタブルな構成であることを示す。
我々の研究は、動的相を観察し、相当な時間スケールの分離が存在する原子空洞系におけるそれらの存在を予測するために必要なメカニズムに光を当てている。
We study the emergence of dynamical phases of a Bose-Einstein condensate that is optomechanically coupled to a dissipative cavity mode and transversally driven by a laser. We focus on the regime close to the optomechanical resonance, where the atoms' refractive index shifts the cavity into resonance, assuming fast cavity relaxation. We derive an effective model for the atomic motion, where the cavity degrees of freedom are eliminated using perturbation theory in the atom-cavity coupling and benchmark its predictions using numerical simulations based on the full model. Away from the optomechanical resonance, perturbation theory in the lowest order (adiabatic elimination) reliably describes the dynamics and predicts chaotic phases with unstable oscillations. Interestingly, the dynamics close to the optomechanical resonance are qualitatively captured only by including the corrections to next order (non-adiabatic corrections). In this regime we find limit cycle phases that describe stable oscillations of the density with a well defined frequency. We further show that such limit cycle solutions are metastable configurations of the adiabatic model. Our work sheds light on the mechanisms that are required to observe dynamical phases and predict their existence in atom-cavity systems where a substantial timescale separation is present. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# LLMからLLMベースのソフトウェアエンジニアリングエージェントへ:現状と課題と将来
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future ( http://arxiv.org/abs/2408.02479v1 ) ライセンス: Link先を確認 | Haolin Jin, Linghan Huang, Haipeng Cai, Jun Yan, Bo Li, Huaming Chen, | (参考訳) 大規模言語モデル(LLM)の台頭に伴い、研究者たちは、ソフトウェア工学などの様々な分野において、その応用を模索している。
LLMはコード生成や脆弱性検出といった分野で大きな成功を収めています。
しかし、それらはまた、多くの制限と欠点も示している。
人工知能(AGI)の可能性を秘めた新しい技術ノロジーであるLLMベースのエージェントは、LLMを意思決定とアクションテイクのコアとして組み合わせ、自律性の欠如や自己改善といったLLMの本質的な制限に対処する。
ソフトウェア工学でLLMを使用する可能性を探る多くの研究や調査にもかかわらず、LLMとLLMベースのエージェントを明確に区別するものではない。
統一標準とLLMソリューションを LLM ベースのエージェントとして評価するためのベンチマークはまだ初期段階にある。
本研究では,ソフトウェア工学におけるLLMとLLMをベースとしたエージェントの現在の実践と解決策を幅広く検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
これらの6つのトピックからLLMとLLMをベースとしたエージェントの作業について,タスク,ベンチマーク,評価指標の相違点と類似点について検討し,評価を行った。
最後に、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
我々はこの研究が将来の研究のために、ソフトウェア工学におけるLLMベースのエージェントの境界を推し進めることに光を当てることを期待している。
With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 分類問題における依存的特徴の影響--ゲーム理論の視点から
On the influence of dependent features in classification problems: a game-theoretic perspective ( http://arxiv.org/abs/2408.02481v1 ) ライセンス: Link先を確認 | Laura Davila-Pena, Alejandro Saavedra-Nieves, Balbina Casas-Méndez, | (参考訳) 本稿では,各特徴が分類問題における応答変数に与える影響を,特定の特徴部分集合間の潜在的な依存性を考慮に入れた新しい尺度について検討する。
本フレームワークでは,各特徴が有限範囲の値を含み,バイナリ応答変数に基づいて分類される,特定の特徴を特徴とする個体のサンプルを考察する。
この尺度は、既存の文献で調べられ、協調ゲーム理論に関連する影響尺度であることが判明した。
協調ゲーム理論から具体的文脈への特性の調整により,提案した影響尺度の公理的特徴付けを行う。
さらに、我々の影響尺度が、分類問題の観点から、事前結合を持つゲームにおいてよく知られたバンジャフ=オウェン値の一般的な特徴付けとなることを示す。
本報告では, 数値例および各種応用例を用いて, 本手法に関する実践的な知見を提示する。
This paper deals with a new measure of the influence of each feature on the response variable in classification problems, accounting for potential dependencies among certain feature subsets. Within this framework, we consider a sample of individuals characterized by specific features, each feature encompassing a finite range of values, and classified based on a binary response variable. This measure turns out to be an influence measure explored in existing literature and related to cooperative game theory. We provide an axiomatic characterization of our proposed influence measure by tailoring properties from the cooperative game theory to our specific context. Furthermore, we demonstrate that our influence measure becomes a general characterization of the well-known Banzhaf-Owen value for games with a priori unions, from the perspective of classification problems. The definitions and results presented herein are illustrated through numerical examples and various applications, offering practical insights into our methodologies. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 量子MIMOチャネルの多様性と多重化
Diversity and Multiplexing in Quantum MIMO Channels ( http://arxiv.org/abs/2408.02483v1 ) ライセンス: Link先を確認 | Junaid ur Rehman, Leonardo Oleynik, Seid Koudia, Mert Bayraktar, Symeon Chatzinotas, | (参考訳) マルチインプット多重出力(MIMO)通信における送信機と受信機の間の複数のチャネルの特性と利用は、古典的な通信システムにおいてパラダイムシフトをもたらした。
MIMO通信システムを中心に開発された技術は,通信速度に先例のない進歩をもたらしただけでなく,低エラー率で測定された通信の信頼性も大幅に向上した。
ここでは、量子MIMO通信のパラダイムにおいて、同じ考え方を探求する。
具体的には、近似量子クローニングを用いて、クロストーク、損失、偏極ノイズを含むMIMOチャネル上で同じ量子状態の複数のコピーを送信する。
この戦略により、このMIMO設定に対する平均忠実度と通信速度の間に達成可能なトレードオフが見つかる。
Characterization and exploitation of multiple channels between the transmitter and the receiver in multiple-input multiple-output (MIMO) communications brought a paradigm shift in classical communication systems. The techniques developed around MIMO communication systems not only brought unprecedented advancements in the communication rates but also substantially improved the reliability of communication, measured by low error rates. Here, we explore the same ideas in the paradigm of quantum MIMO communication. Specifically, we utilize approximate quantum cloning to transmit multiple copies of the same quantum state over a MIMO channel that incorporates crosstalk, losses, and depolarizing noise. With this strategy, we find an achievable tradeoff between the average fidelity and communication rate over this MIMO setup. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# ゼロショットHOI検出のための条件付きマルチモーダルプロンプトの探索
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection ( http://arxiv.org/abs/2408.02484v1 ) ライセンス: Link先を確認 | Ting Lei, Shaofeng Yin, Yuxin Peng, Yang Liu, | (参考訳) Zero-shot Human-Object Interaction (HOI) 検出がフロンティアトピックとして登場した。
このタスクは、人間と対象のペアの対話性を識別し、それらをローカライズするだけでなく、目に見えない相互作用カテゴリと見えない相互作用カテゴリの両方を認識する。
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
このアプローチは、HOI検出のために微調整された場合、CLIPのような大規模な基盤モデルの一般化を促進する。
従来のプロンプト学習法とは違って,対話性を考慮した視覚特徴抽出と一般化可能な対話分類のために,視覚と言語を分離した学習プロンプトを提案する。
具体的には、入力条件付きインスタンスとグローバル空間パターンを含む、異なる粒度の事前知識を条件付き視覚プロンプトに統合する。
前者は、画像エンコーダに、見知らぬHOI概念に属するインスタンスを平等に扱うように促し、後者は、相互作用中の人間とオブジェクトの、代表的でわかりやすい空間構成を提供する。
さらに,大基盤モデルの知識を保存し,テキストブランチのより優れた一般化を可能にするために,一貫性制約付き言語対応の即時学習を採用する。
各種ゼロショット設定の未確認クラスでは, 従来よりも高い精度で, 条件付きマルチモーダルプロンプトによる検出の有効性が実証された。
コードとモデルは \url{https://github.com/ltttpku/CMMP} で公開されている。
Zero-shot Human-Object Interaction (HOI) detection has emerged as a frontier topic due to its capability to detect HOIs beyond a predefined set of categories. This task entails not only identifying the interactiveness of human-object pairs and localizing them but also recognizing both seen and unseen interaction categories. In this paper, we introduce a novel framework for zero-shot HOI detection using Conditional Multi-Modal Prompts, namely CMMP. This approach enhances the generalization of large foundation models, such as CLIP, when fine-tuned for HOI detection. Unlike traditional prompt-learning methods, we propose learning decoupled vision and language prompts for interactiveness-aware visual feature extraction and generalizable interaction classification, respectively. Specifically, we integrate prior knowledge of different granularity into conditional vision prompts, including an input-conditioned instance prior and a global spatial pattern prior. The former encourages the image encoder to treat instances belonging to seen or potentially unseen HOI concepts equally while the latter provides representative plausible spatial configuration of the human and object under interaction. Besides, we employ language-aware prompt learning with a consistency constraint to preserve the knowledge of the large foundation model to enable better generalization in the text branch. Extensive experiments demonstrate the efficacy of our detector with conditional multi-modal prompts, outperforming previous state-of-the-art on unseen classes of various zero-shot settings. The code and models are available at \url{https://github.com/ltttpku/CMMP}. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# コード生成におけるLCMのライセンス適合性についての一考察
A First Look at License Compliance Capability of LLMs in Code Generation ( http://arxiv.org/abs/2408.02487v1 ) ライセンス: Link先を確認 | Weiwei Xu, Kai Gao, Hao He, Minghui Zhou, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、コード生成に革命をもたらし、開発者がAIコーディングツールを広く採用するに至った。
しかし、LLMはライセンス保護されたコードを生成するために、必要なライセンス情報を提供することなく、ソフトウェア製造中に知的財産権侵害を起こす可能性がある。
本稿では,LLM が生成するコードに対する正確なライセンス情報提供能力を評価するベンチマークを確立することにより,LLM 生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
このベンチマークを確立するために、我々は、LCM出力と特定のオープンソースコードとのコピー関係を示す独立した生成の可能性を排除する「類似性を探る」ための妥当な標準を特定するための実証的研究を行った。
本規格に基づいて,LLMのライセンスコンプライアンス能力を評価するための評価ベンチマークLiCoEvalを提案する。
LiCoEvalを用いて14の人気のあるLLMを評価し、トップパフォーマンスのLLMでさえ、既存のオープンソース実装と著しく類似したコードの非無視比(0.88%から2.01%)を生んでいることを発見した。
特に、ほとんどのLLMは、特にコピーレフトライセンス下のコードに対して、正確なライセンス情報を提供していない。
これらの知見は、コード生成タスクにおけるLCMコンプライアンス機能を強化する緊急の必要性を浮き彫りにしている。
我々の研究は、AI支援ソフトウェア開発におけるライセンスコンプライアンスを改善するための将来の研究と開発のための基盤を提供し、オープンソースソフトウェア著作権の保護とLLMユーザに対する法的リスクの軽減に寄与する。
Recent advances in Large Language Models (LLMs) have revolutionized code generation, leading to widespread adoption of AI coding tools by developers. However, LLMs can generate license-protected code without providing the necessary license information, leading to potential intellectual property violations during software production. This paper addresses the critical, yet underexplored, issue of license compliance in LLM-generated code by establishing a benchmark to evaluate the ability of LLMs to provide accurate license information for their generated code. To establish this benchmark, we conduct an empirical study to identify a reasonable standard for "striking similarity" that excludes the possibility of independent creation, indicating a copy relationship between the LLM output and certain open-source code. Based on this standard, we propose an evaluation benchmark LiCoEval, to evaluate the license compliance capabilities of LLMs. Using LiCoEval, we evaluate 14 popular LLMs, finding that even top-performing LLMs produce a non-negligible proportion (0.88% to 2.01%) of code strikingly similar to existing open-source implementations. Notably, most LLMs fail to provide accurate license information, particularly for code under copyleft licenses. These findings underscore the urgent need to enhance LLM compliance capabilities in code generation tasks. Our study provides a foundation for future research and development to improve license compliance in AI-assisted software development, contributing to both the protection of open-source software copyrights and the mitigation of legal risks for LLM users. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 共通雑音を伴う連続時間における探索線形2次平均場制御問題に対するポリシー勾配学習アルゴリズムの完全誤差解析
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise ( http://arxiv.org/abs/2408.02489v1 ) ライセンス: Link先を確認 | Noufel Frikha, Huyên Pham, Xuanye Song, | (参考訳) 本稿では,線形二次平均場制御(LQ)問題において,連続時間における無限地平線上の最適ポリシを求めるための強化学習(RL)手法について検討する。
政策勾配(PG)学習について検討し、適切な勾配支配条件を確立することによりモデルベース環境での収束を初めて示す。さらに、我々の主な貢献は包括的誤差解析であり、未知パラメータを持つモデルフリー環境での2点勾配推定によるPGアルゴリズムの大域的線形収束とサンプル複雑性を証明している。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習され、具体的には、実装されたアルゴリズムの収束を支持する数値的な証拠を提供する。
We consider reinforcement learning (RL) methods for finding optimal policies in linear quadratic (LQ) mean field control (MFC) problems over an infinite horizon in continuous time, with common noise and entropy regularization. We study policy gradient (PG) learning and first demonstrate convergence in a model-based setting by establishing a suitable gradient domination condition.Next, our main contribution is a comprehensive error analysis, where we prove the global linear convergence and sample complexity of the PG algorithm with two-point gradient estimates in a model-free setting with unknown parameters. In this setting, the parameterized optimal policies are learned from samples of the states and population distribution.Finally, we provide numerical evidence supporting the convergence of our implemented algorithms. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# ヒルベルト空間における非エルミート・ハミルトニアンによるユニタリ性および任意の物理内積
Non-Hermitian-Hamiltonian-induced unitarity and optional physical inner products in Hilbert space ( http://arxiv.org/abs/2408.02491v1 ) ライセンス: Link先を確認 | Miloslav Znojil, | (参考訳) 準エルミート量子力学の枠組みにおいて、ヒルベルト空間幾何学の等方性の弱化は、進化がユニタリであるパラメータの領域を拡大するのに役立つことが示されている。
このアイデアは、資格のあるメトリクスの単純化されたサブセットと、正確に解決可能な2つのモデルを使ってテストされる。
In the framework of quasi-Hermitian quantum mechanics it is shown that a weakening of the isotropy of the Hilbert-space geometry can help us to enlarge the domain of the parameters at which the evolution is unitary. The idea is tested using a simplified subset of eligible metrics and two exactly solvable models. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# HyperSpaceX:超球次元の放射と角探査
HyperSpaceX: Radial and Angular Exploration of HyperSpherical Dimensions ( http://arxiv.org/abs/2408.02494v1 ) ライセンス: Link先を確認 | Chiranjeev Chiranjeev, Muskan Dosi, Kartik Thakral, Mayank Vatsa, Richa Singh, | (参考訳) 従来のディープラーニングモデルは、分類や顔認識といったタスクにおいて、ソフトマックスのクロスエントロピーやArcFaceの損失といった手法に依存している。
これらの手法は主に超球面空間における角的特徴を探索し、多くのクラスにまたがる密接な角データにより、しばしばクラス間特徴が絡み合う結果となる。
本稿では,多球面空間における角次元と半径次元の両方を探索することにより,クラス識別を向上させるHyperSpaceXと呼ばれる新たな特徴探索手法を提案する。
提案したDistArc損失は、3つの特徴配置成分を含む: 2つの角と1つの放射状、クラス内結合とクラス間分離を多径配置で実施し、特徴識別性を向上させる。
斬新な表現のためのHyperSpaceXフレームワークの評価は、角要素と半径要素の両方を考慮に入れた予測測度を利用しており、標準測度を超えるモデルの精度をより包括的に評価する。
7つのオブジェクト分類と6つの顔認識データセットによる実験は、HyperSpaceXから得られた最先端(SoTA)結果を示し、より低次元の大規模オブジェクトデータセットで最大20%のパフォーマンス向上と、より高次元での最大6%のゲインを実現している。
Traditional deep learning models rely on methods such as softmax cross-entropy and ArcFace loss for tasks like classification and face recognition. These methods mainly explore angular features in a hyperspherical space, often resulting in entangled inter-class features due to dense angular data across many classes. In this paper, a new field of feature exploration is proposed known as HyperSpaceX which enhances class discrimination by exploring both angular and radial dimensions in multi-hyperspherical spaces, facilitated by a novel DistArc loss. The proposed DistArc loss encompasses three feature arrangement components: two angular and one radial, enforcing intra-class binding and inter-class separation in multi-radial arrangement, improving feature discriminability. Evaluation of HyperSpaceX framework for the novel representation utilizes a proposed predictive measure that accounts for both angular and radial elements, providing a more comprehensive assessment of model accuracy beyond standard metrics. Experiments across seven object classification and six face recognition datasets demonstrate state-of-the-art (SoTA) results obtained from HyperSpaceX, achieving up to a 20% performance improvement on large-scale object datasets in lower dimensions and up to 6% gain in higher dimensions. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# 複数のコホートにおける不完全海馬インバージョンの自動評価
Automatic rating of incomplete hippocampal inversions evaluated across multiple cohorts ( http://arxiv.org/abs/2408.02496v1 ) ライセンス: Link先を確認 | Lisa Hemforth, Baptiste Couvy-Duchesne, Kevin De Matos, Camille Brianceau, Matthieu Joulot, Tobias Banaschewski, Arun L. W. Bokde, Sylvane Desrivières, Herta Flor, Antoine Grigis, Hugh Garavan, Penny Gowland, Andreas Heinz, Rüdiger Brühl, Jean-Luc Martinot, Marie-Laure Paillère Martinot, Eric Artiges, Dimitri Papadopoulos, Herve Lemaitre, Tomas Paus, Luise Poustka, Sarah Hohmann, Nathalie Holz, Juliane H. Fröhner, Michael N. Smolka, Nilakshi Vaidya, Henrik Walter, Robert Whelan, Gunter Schumann, Christian Büchel, JB Poline, Bernd Itterman, Vincent Frouin, Alexandre Martin, IMAGEN study group, Claire Cury, Olivier Colliot, | (参考訳) 不完全海馬内転 (IHI) は海馬奇形と呼ばれ、一般人口の約20%で見られる海馬の非定型的解剖学的パターンである。
IHIは4つの解剖学的基準を組み合わせた複合スコアを用いて,T1強調MR画像のコロナスライスに基づいて視覚的に評価できる。
IHIはいくつかの脳疾患(てんかん、統合失調症)と関連している。
しかし、これらの研究は小さなサンプルに基づいていた。
さらに、IHIの発生に寄与する要因(遺伝子または環境)はほとんど不明である。
したがって、IHIとその神経学的、精神医学的障害との関係をより深く理解するためには、大規模な研究が必要である。
しかし、視覚的評価は長く、面倒であり、自動的な方法の必要性を正当化する。
本稿では,IHIを自動評価する手法を提案する。
我々は,4つの解剖学的基準を予測し,それをまとめてIHIスコアを作成し,解釈可能なスコアの利点を提供する。
我々は、さまざまな機械学習手法とトレーニング戦略について、広範囲にわたる実験的研究を行った。
各種ディープラーニングモデル(conv5-FC3, ResNet, SECNN)とリッジ回帰を用いた自動評価を行った。
我々は、異なるコホートを用いてモデルの一般化を研究し、マルチコホート学習を行った。
調査対象はNatureNによる2,008人,QTIM/QTABによる993人,および403人,UKBiobankによる985人であった。
深層学習モデルは隆起回帰よりも優れていた。
我々は,conv5-FC3ネットワークの性能が,低複雑性と計算時間を維持しながら,より複雑なネットワークに匹敵することが実証された。
一つのコホートでのトレーニングは、いくつかのコホートでのトレーニングが一般化を改善する一方で、多様性に欠ける可能性があることを示した。
Incomplete Hippocampal Inversion (IHI), sometimes called hippocampal malrotation, is an atypical anatomical pattern of the hippocampus found in about 20% of the general population. IHI can be visually assessed on coronal slices of T1 weighted MR images, using a composite score that combines four anatomical criteria. IHI has been associated with several brain disorders (epilepsy, schizophrenia). However, these studies were based on small samples. Furthermore, the factors (genetic or environmental) that contribute to the genesis of IHI are largely unknown. Large-scale studies are thus needed to further understand IHI and their potential relationships to neurological and psychiatric disorders. However, visual evaluation is long and tedious, justifying the need for an automatic method. In this paper, we propose, for the first time, to automatically rate IHI. We proceed by predicting four anatomical criteria, which are then summed up to form the IHI score, providing the advantage of an interpretable score. We provided an extensive experimental investigation of different machine learning methods and training strategies. We performed automatic rating using a variety of deep learning models (conv5-FC3, ResNet and SECNN) as well as a ridge regression. We studied the generalization of our models using different cohorts and performed multi-cohort learning. We relied on a large population of 2,008 participants from the IMAGEN study, 993 and 403 participants from the QTIM/QTAB studies as well as 985 subjects from the UKBiobank. We showed that deep learning models outperformed a ridge regression. We demonstrated that the performances of the conv5-FC3 network were at least as good as more complex networks while maintaining a low complexity and computation time. We showed that training on a single cohort may lack in variability while training on several cohorts improves generalization. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# Flow with FlorDB: マシンラーニングライフサイクルにおけるインクリメンタルコンテキストメンテナンス
Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle ( http://arxiv.org/abs/2408.02498v1 ) ライセンス: Link先を確認 | Rolando Garcia, Pragya Kallanagoudar, Chithra Anand, Sarah E. Chasins, Joseph M. Hellerstein, Aditya G. Parameswaran, | (参考訳) コード、データ、構成、フィードバックを予測モデルに統合するメタデータは様々で複雑です。
この複雑さは、データサイエンティストや機械学習エンジニアが好むアジャイル開発プラクティスによってさらに複雑化されます。
これらのプラクティスは、高い実験速度と頻繁なデプロイメントを強調しており、関連するすべてのメタデータを追跡するのが難しくなります。
アジャイルメソッドの反復的な性質は、モデル、データセット、設定が常に進化していることを意味します。
各実験には、データ前処理ステップの微調整、モデルハイパーパラメータの変更、デプロイメント環境のアップデートが含まれる。
迅速なイテレーションの必要性は、ドキュメントやメタデータ管理のショートカットや監視につながる可能性がある。
効果的なメタデータ管理には堅牢でフレキシブルなツールとプラクティスが必要です。
従来のコンテキスト管理では,‘metadata first’アプローチが強調されることが多い。
FlorDBは、マルチバージョン後向きのロギングとインクリメンタルなコンテキストメンテナンスによって、この摩擦を減らす。
この‘metadata later’アプローチは、より柔軟でインクリメンタルな開発プロセスを可能にし、データサイエンティストは、前もってドキュメントの負担なしに、モデルの作成と改善に集中することができる。
デモで示されているように、FlorDBは、統合トレイン推論パイプラインとマネージドフィードバックループを備えたAI/MLアプリケーションを構築するために使用することができる。
最終的にFlorDBの目標は、迅速なペースのアジャイルワークフローであっても、クリティカルなメタデータが正確かつ効率的にメンテナンスされることを保証することです。
The metadata involved in integrating code, data, configuration, and feedback into predictive models is varied and complex. This complexity is further compounded by the agile development practices favored by data scientists and machine learning engineers. These practices emphasize high experimentation velocity and frequent deployments, which can make it challenging to keep track of all the relevant metadata. The iterative nature of agile methods means that models, datasets, and configurations are constantly evolving. Each experiment might involve tweaks to the data preprocessing steps, changes in model hyperparameters, or updates to the deployment environment. The need for rapid iteration can lead to shortcuts or oversights in documentation and metadata management. Effective metadata management requires robust yet flexible tools and practices that can integrate and organize this information without slowing down the development process. Traditional context management often emphasizes a ``metadata first'' approach, which can introduce significant friction for developers. FlorDB reduces this friction through multiversion hindsight logging and incremental context maintenance, allowing developers to add and refine metadata after the fact. This ``metadata later'' approach enables a more flexible and incremental development process, allowing data scientists to focus on model creation and refinement without the burden of documentation upfront. As shown in a demo, FlorDB can be used to build AI/ML applications with integrated train-infer pipelines and managed feedback loops. Ultimately, the goal of FlorDB is to ensure that critical metadata is maintained accurately and efficiently, even in fast-paced agile workflows. | 翻訳日:2024-08-06 13:26:57 公開日:2024-08-05 |
# コンテキストコンカヤパラメータ:コミットメッセージ生成におけるプロプライエタリLLMの性能
Context Conquers Parameters: Outperforming Proprietary LLM in Commit Message Generation ( http://arxiv.org/abs/2408.02502v1 ) ライセンス: Link先を確認 | Aaron Imani, Iftekhar Ahmed, Mohammad Moshirpour, | (参考訳) コミットメッセージは、自然言語を使ってコミットで行った変更の説明を提供する。
近年のLLM(Large Language Models)の発展は、Omniscient Message Generator (OMG)のような高品質なコミットメッセージの生成に寄与している。
この方法はGPT-4を使って最先端のコミットメッセージを生成する。
しかし、コーディングタスクにおける GPT-4 のような独自 LLM の使用は、プライバシとサステナビリティの懸念を生じさせ、産業的採用を妨げる可能性がある。
コンパイラバリデーションなどの開発者タスクにおいて,オープンソースのLLMが競争力のあるパフォーマンスを達成したことを考慮し,OMGに匹敵するコミットメッセージの生成に利用することができるかを検討する。
実験の結果,オープンソース LLM はOMG に匹敵するコミットメッセージを生成することができることがわかった。
さらに,4ビット量子化8BオープンソースLCMを用いたCMG手法であるlOcal MessagE GenerAtor (OMEGA)を提案する。
OMEGAは最先端のコミットメッセージを生成し、実践者の好みでGPT-4のパフォーマンスを上回っている。
Commit messages provide descriptions of the modifications made in a commit using natural language, making them crucial for software maintenance and evolution. Recent developments in Large Language Models (LLMs) have led to their use in generating high-quality commit messages, such as the Omniscient Message Generator (OMG). This method employs GPT-4 to produce state-of-the-art commit messages. However, the use of proprietary LLMs like GPT-4 in coding tasks raises privacy and sustainability concerns, which may hinder their industrial adoption. Considering that open-source LLMs have achieved competitive performance in developer tasks such as compiler validation, this study investigates whether they can be used to generate commit messages that are comparable with OMG. Our experiments show that an open-source LLM can generate commit messages that are comparable to those produced by OMG. In addition, through a series of contextual refinements, we propose lOcal MessagE GenerAtor (OMEGA) , a CMG approach that uses a 4-bit quantized 8B open-source LLM. OMEGA produces state-of-the-art commit messages, surpassing the performance of GPT-4 in practitioners' preference. | 翻訳日:2024-08-06 13:17:12 公開日:2024-08-05 |
# UnifiedMLLM:大規模言語モデルによるマルチモーダルマルチタスクの統一表現の実現
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model ( http://arxiv.org/abs/2408.02503v1 ) ライセンス: Link先を確認 | Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang, | (参考訳) MLLM(Multi-modal large language model)の分野では、様々なタスクに対する理解と推論において、その顕著な能力を示す重要な進歩が最近達成されている。
しかしながら、これらのモデルは特定のタスクのために訓練され、タスク固有の入出力フォーマットに依存し、適用範囲を幅広いタスクに制限する。
MLLMの一般化性を最大化するために、異なるマルチモーダルタスクを表現および処理するための統一的なアプローチを開発することができるか?
本稿では,統一表現を用いて様々なタスクを表現できる包括的モデルUnifiedMLLMを提案する。
本モデルは,ユーザの指示の暗黙的な意図を理解し,事前推論を行う上で,強力な能力を示す。
テキスト応答の生成に加えて,タスクの種類やタスクの粒度の指標として,タスクトークンやグラウンドトークンも出力する。
これらの出力はタスクルータを介してルーティングされ、タスク完了のための特定の専門家モデルに向けられる。
モデルをトレーニングするために,タスク固有のデータセットと,複雑なシナリオを含む100kのマルチタスクデータセットを構築した。
3段階の学習戦略を応用し,その一般化能力と知識貯水池を維持しつつ,頑健な推論とタスク処理能力を備えたモデルを構築した。
大規模な実験では、既存の方法論を超越して、様々なタスクにまたがる統一表現アプローチの印象的なパフォーマンスを示す。
さらに,本手法は,優れたスケーラビリティと汎用性を示す。
私たちのコード、モデル、データセットは、 \url{https://github.com/lzw-lzw/UnifiedMLLM}で公開されます。
Significant advancements has recently been achieved in the field of multi-modal large language models (MLLMs), demonstrating their remarkable capabilities in understanding and reasoning across diverse tasks. However, these models are often trained for specific tasks and rely on task-specific input-output formats, limiting their applicability to a broader range of tasks. This raises a fundamental question: Can we develop a unified approach to represent and handle different multi-modal tasks to maximize the generalizability of MLLMs? In this paper, we propose UnifiedMLLM, a comprehensive model designed to represent various tasks using a unified representation. Our model exhibits strong capabilities in comprehending the implicit intent of user instructions and preforming reasoning. In addition to generating textual responses, our model also outputs task tokens and grounding tokens, serving as indicators of task types and task granularity. These outputs are subsequently routed through the task router and directed to specific expert models for task completion. To train our model, we construct a task-specific dataset and an 100k multi-task dataset encompassing complex scenarios. Employing a three-stage training strategy, we equip our model with robust reasoning and task processing capabilities while preserving its generalization capacity and knowledge reservoir. Extensive experiments showcase the impressive performance of our unified representation approach across various tasks, surpassing existing methodologies. Furthermore, our approach exhibits exceptional scalability and generality. Our code, model, and dataset will be available at \url{https://github.com/lzw-lzw/UnifiedMLLM}. | 翻訳日:2024-08-06 13:17:12 公開日:2024-08-05 |
# 非シグナリング相関による二部量子チャネルの双方向古典的通信コスト
Bidirectional classical communication cost of a bipartite quantum channel assisted by non-signalling correlations ( http://arxiv.org/abs/2408.02506v1 ) ライセンス: Link先を確認 | Chengkai Zhu, Xuanqiang Zhao, Xin Wang, | (参考訳) 量子チャネルをシミュレートする古典的な通信コストを理解することは、量子情報理論の基本的な問題であり、量子情報処理における非局所性の役割を考えると、さらに興味深い問題となる。
本稿では,非シグナリング相関による二部分量子チャネルのシミュレーションによる双方向の古典的通信コストについて検討する。
このような非シグナリング相関は、両者の空間的次元だけでなく、チャネルシミュレーションプロトコルの時間的次元に沿っても許容される。
非シグナリングなスーパーチャネルを導入することにより、非シグナリングなバイパルタイトなスーパーチャネルを介し、1ショットの正確な双方向古典通信コストに対する半定値プログラミング(SDP)の定式化を導出する。
さらに、双方向古典通信の漸近的コストに基づいて、効率よく計算可能な下界として、チャネルの2部条件の最小エントロピーを導入する。
コンタングルメントが両パーティで利用可能であり,プロトコルのタイムラインをまたいで利用できるシナリオでは,ワンショットと漸近的な設定の両方において,エンタングルメント支援シミュレーションコストの低いバウンドが提供される。
数値実験により、様々な量子チャネルの通信コストの推定における境界の有効性が示され、異なるシナリオにおいて境界が厳密であることが示される。
我々の結果は、量子通信における非局所性の役割を解明し、バイパルタイトシナリオにおける量子反転シャノン理論の探索の道を開く。
Understanding the classical communication cost of simulating a quantum channel is a fundamental problem in quantum information theory, which becomes even more intriguing when considering the role of non-locality in quantum information processing. This paper investigates the bidirectional classical communication cost of simulating a bipartite quantum channel assisted by non-signalling correlations. Such non-signalling correlations are permitted not only across spatial dimension between the two parties but also along the temporal dimension of the channel simulation protocol. By introducing non-signalling superchannels, we derive semidefinite programming (SDP) formulations for the one-shot exact bidirectional classical communication cost via non-signalling bipartite superchannels. We further introduce a channel's bipartite conditional min-entropy as an efficiently computable lower bound on the asymptotic cost of bidirectional classical communication. Our results in both one-shot and asymptotic settings provide lower bounds on the entanglement-assisted simulation cost in scenarios where entanglement is available to the two parties and can be utilized across the timeline of the protocol. Numerical experiments demonstrate the effectiveness of our bounds in estimating communication costs for various quantum channels, showing that our bounds can be tight in different scenarios. Our results elucidate the role of non-locality in quantum communication and pave the way for exploring quantum reverse Shannon theory in bipartite scenarios. | 翻訳日:2024-08-06 13:17:12 公開日:2024-08-05 |
# セグメンテーションモデルによるPBF-LB/Mプロセスの細孔位置推定
Estimating Pore Location of PBF-LB/M Processes with Segmentation Models ( http://arxiv.org/abs/2408.02507v1 ) ライセンス: Link先を確認 | Hans Aoyang Zhou, Jan Theunissen, Marco Kemmerling, Anas Abdelrazeq, Johannes Henrich Schleifenbaum, Robert H. Schmitt, | (参考訳) 欠陥のない製品を製造することは、レーザー粉層融合プロセスにとって依然としてオープンな課題である。
特に、しばしば発生する細孔は疲労性能などの機械的特性に悪影響を及ぼす。
したがって、細孔の正確な局所化は品質保証には必須であるが、コンピュータ断層撮影のような時間を要する。
In-situモニタリングデータを用いた既存のソリューションは、層内の細孔発生を検出することができるが、それらの位置決め精度は制限されている。
そこで本稿では,ガウス核密度推定を用いて単一層内における位置を推定する多孔性局所化手法を提案する。
これにより、セグメンテーションモデルは、その場監視データと細孔発生の導出確率分布との相関を学習することができる。
実験では,機械パラメータの設定や幾何学的特徴に依存するセグメンテーションモデルの予測性能を比較した。
以上の結果から,本手法は最小限のデータ前処理を必要とする細孔の正確な局所化を可能にすると結論付けた。
我々の研究は、より精密な細孔検出システムの基礎を提供することで、文献を拡大する。
Reliably manufacturing defect free products is still an open challenge for Laser Powder Bed Fusion processes. Particularly, pores that occur frequently have a negative impact on mechanical properties like fatigue performance. Therefore, an accurate localisation of pores is mandatory for quality assurance, but requires time-consuming post-processing steps like computer tomography scans. Although existing solutions using in-situ monitoring data can detect pore occurrence within a layer, they are limited in their localisation precision. Therefore, we propose a pore localisation approach that estimates their position within a single layer using a Gaussian kernel density estimation. This allows segmentation models to learn the correlation between in-situ monitoring data and the derived probability distribution of pore occurrence. Within our experiments, we compare the prediction performance of different segmentation models depending on machine parameter configuration and geometry features. From our results, we conclude that our approach allows a precise localisation of pores that requires minimal data preprocessing. Our research extends the literature by providing a foundation for more precise pore detection systems. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# ブラックボックスコード補完エンジンに対する実践的攻撃
Practical Attacks against Black-box Code Completion Engines ( http://arxiv.org/abs/2408.02509v1 ) ライセンス: Link先を確認 | Slobodan Jenko, Jingxuan He, Niels Mündler, Mark Vero, Martin Vechev, | (参考訳) 大規模言語モデルを利用した現代のコード補完エンジンは、周囲のコンテキストに基づいて機能的に正しいコードを生成する印象的な能力を実証している。
これらのツールは数百万の開発者が広く使用しているため、セキュリティ上の影響を調べることが重要です。
本稿では、コード補完エンジンを脆弱性のあるコードを生成するよう指示する新しい攻撃であるINSECを紹介する。
GitHub Copilotのようなほとんどの商用の補完エンジンと並行して、INSECは、エンジンの内部に関する知識を必要とせずに、ターゲットエンジンへのブラックボックスクエリアクセスのみを前提としている。
我々の攻撃は、完了入力に悪意のある攻撃文字列を短いコメントとして挿入することで機能する。
攻撃文字列を導出するために、我々は一連の特殊初期化スキームとさらなる改善のための最適化手順を設計する。
私たちはINSECの強みを、最先端のオープンソースモデルだけでなく、OpenAI APIやGitHub Copilotといったブラックボックスの商用サービスにも示しています。
5つのプログラミング言語にわたる16のCWEをカバーするセキュリティクリティカルなテストケースの包括的なセットにおいて、INSECは、機能的に正しいコードを生成する能力を維持しながら、安全でないコードを生成する際の検討された完了エンジンの可能性を50%以上向上させた。
同時に、我々の攻撃はリソースの要求が低く、コモディティハードウェア上で10ドル以下で開発することができる。
Modern code completion engines, powered by large language models, have demonstrated impressive capabilities to generate functionally correct code based on surrounding context. As these tools are extensively used by millions of developers, it is crucial to investigate their security implications. In this work, we present INSEC, a novel attack that directs code completion engines towards generating vulnerable code. In line with most commercial completion engines, such as GitHub Copilot, INSEC assumes only black-box query access to the targeted engine, without requiring any knowledge of the engine's internals. Our attack works by inserting a malicious attack string as a short comment in the completion input. To derive the attack string, we design a series of specialized initialization schemes and an optimization procedure for further refinement. We demonstrate the strength of INSEC not only on state-of-the-art open-source models but also on black-box commercial services such as the OpenAI API and GitHub Copilot. On a comprehensive set of security-critical test cases covering 16 CWEs across 5 programming languages, INSEC significantly increases the likelihood of the considered completion engines in generating unsafe code by >50% in absolute, while maintaining the ability in producing functionally correct code. At the same time, our attack has low resource requirements, and can be developed for a cost of well under ten USD on commodity hardware. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# OneLove beyond the field -- カタールで開催されたFIFAワールドカップにおけるトピックと感情分析のための数発のパイプライン
OneLove beyond the field -- A few-shot pipeline for topic and sentiment analysis during the FIFA World Cup in Qatar ( http://arxiv.org/abs/2408.02520v1 ) ライセンス: Link先を確認 | Christoph Rauchegger, Sonja Mei Wang, Pieter Delobelle, | (参考訳) カタールで開催されたFIFAワールドカップはニュースやソーシャルメディアで広く議論された。
人権侵害の訴えが報道されたため、ボイコットの要請があった。
OneLoveのアームバンドを着用することは、計画された抗議活動の一部だった。
腕章をめぐる論争は、FIFAがそれを着用する船長に制裁を課すと脅した時に起こった。
Twitterユーザがツイートしたトピックと、ドイツのTwitterユーザーの意見がOneLoveのアームバンドに向かっているのかを理解するために、私たちは、LLMを用いたコンテキスト内学習を使用して、ワールドカップ中に公開されたドイツのつぶやきを分析した。
私たちはそのラベルを人間のアノテーションで検証した。
Twitterのユーザーは当初、アームバンドの影響、LGBTの権利、政治について議論していた。
我々の評価は,スポーツアクティビズムの影響と世論の進化を探求する将来の研究の枠組みとして機能する。
これは特に、イベントが展開されている場合など、特定の意見に対するデータセットのラベル付けが不可能な設定で有効である。
The FIFA World Cup in Qatar was discussed extensively in the news and on social media. Due to news reports with allegations of human rights violations, there were calls to boycott it. Wearing a OneLove armband was part of a planned protest activity. Controversy around the armband arose when FIFA threatened to sanction captains who wear it. To understand what topics Twitter users Tweeted about and what the opinion of German Twitter users was towards the OneLove armband, we performed an analysis of German Tweets published during the World Cup using in-context learning with LLMs. We validated the labels on human annotations. We found that Twitter users initially discussed the armband's impact, LGBT rights, and politics; after the ban, the conversation shifted towards politics in sports in general, accompanied by a subtle shift in sentiment towards neutrality. Our evaluation serves as a framework for future research to explore the impact of sports activism and evolving public sentiment. This is especially useful in settings where labeling datasets for specific opinions is unfeasible, such as when events are unfolding. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# シングルタップまたはダブルタップ予測によるシングルタップレイテンシ低減
Single-tap Latency Reduction with Single- or Double- tap Prediction ( http://arxiv.org/abs/2408.02525v1 ) ライセンス: Link先を確認 | Naoto Nishida, Kaori Ikematsu, Junichi Sato, Shota Yamanaka, Kota Tsubouchi, | (参考訳) タッチ面はスマートフォン、タブレットPC、ラップトップ(タッチパッド)に広く使われており、シングルタップとダブルタップが最も基本的な操作である。
シングルタップまたはダブルタップの検出は、シングルタップレイテンシの問題を引き起こし、タッチ入力の感度のボトルネックを引き起こす。
シングルタップのレイテンシを低減するため,PredicTapsと呼ばれる新しい機械学習ベースのタップ予測手法を提案する。
検出したタップが単一タップなのか,あるいはダブルタップの最初の接触なのかを,従来必要だった数百ミリ秒を待たなくても予測できる。
本研究では,2つのフォームファクター(タッチパッドとスマートフォン)上で,様々なタップ状況に対する適用性とユーザビリティを示す3つの評価と1つのユーザ評価を示す。
その結果、PredicTapsはシングルタップのレイテンシを、ノートパソコンでは150-500msから12ms、スマートフォンでは17.6msに削減した。
Touch surfaces are widely utilized for smartphones, tablet PCs, and laptops (touchpad), and single and double taps are the most basic and common operations on them. The detection of single or double taps causes the single-tap latency problem, which creates a bottleneck in terms of the sensitivity of touch inputs. To reduce the single-tap latency, we propose a novel machine-learning-based tap prediction method called PredicTaps. Our method predicts whether a detected tap is a single tap or the first contact of a double tap without having to wait for the hundreds of milliseconds conventionally required. We present three evaluations and one user evaluation that demonstrate its broad applicability and usability for various tap situations on two form factors (touchpad and smartphone). The results showed PredicTaps reduces the single-tap latency from 150-500 ms to 12 ms on laptops and to 17.6 ms on smartphones without reducing usability. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# 強化学習の具体的価値について
Counterfactual Shapley Values for Explaining Reinforcement Learning ( http://arxiv.org/abs/2408.02529v1 ) ライセンス: Link先を確認 | Yiwei Shi, Qi Zhang, Kevin McAreavey, Weiru Liu, | (参考訳) 本稿では,補足価値と反事実分析を統合することで,強化学習(RL)における説明可能性を高める新しい手法を提案する。
このアプローチは、異なる状態次元のコントリビューションをさまざまなアクション選択に定量化し比較することを目的としている。
これらの影響をより正確に分析するために,新しい特徴値関数である `Counterfactual difference Characteristics Value" と `Average Counterfactal Difference Characteristics Value を導入する。
これらの関数はShapley値の計算に役立ち、最適なアクションと非最適アクションのコントリビューションの違いを評価する。
GridWorld、FrozenLake、Taxiなど、いくつかのRLドメインにわたる実験は、CSVメソッドの有効性を実証している。
その結果, この手法は複雑なRLシステムの透明性を向上するだけでなく, 様々な決定の相違を定量化する。
This paper introduces a novel approach Counterfactual Shapley Values (CSV), which enhances explainability in reinforcement learning (RL) by integrating counterfactual analysis with Shapley Values. The approach aims to quantify and compare the contributions of different state dimensions to various action choices. To more accurately analyze these impacts, we introduce new characteristic value functions, the ``Counterfactual Difference Characteristic Value" and the ``Average Counterfactual Difference Characteristic Value." These functions help calculate the Shapley values to evaluate the differences in contributions between optimal and non-optimal actions. Experiments across several RL domains, such as GridWorld, FrozenLake, and Taxi, demonstrate the effectiveness of the CSV method. The results show that this method not only improves transparency in complex RL systems but also quantifies the differences across various decisions. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# HPOベンチマークのポストホック解析のためのLMEM
LMEMs for post-hoc analysis of HPO Benchmarking ( http://arxiv.org/abs/2408.02533v1 ) ライセンス: Link先を確認 | Anton Geburek, Neeratyoy Mallik, Danny Stoll, Xavier Bouthillier, Frank Hutter, | (参考訳) 機械学習(ML)とディープラーニング(DL)におけるハイパーパラメータのチューニングの重要性は、新しいハイパーパラメータ最適化(HPO)アルゴリズムの増加と、コミュニティが着実に追加しているベンチマークから明らかである。
しかし、多くのデータセットの平均性能を用いた現在のベンチマーク手法は、特にペア比較においてHPO法との主な違いを曖昧にしている可能性がある。
本稿では,HPOベンチマーク実行後解析における線形混合効果モデル(LMEM)の意義試験を適用した。
LMEMは、ベンチマークメタ機能などの情報を含む実験データ全体のフレキシブルで表現力のあるモデリングを可能にし、現在の分析プラクティスよりも深い洞察を提供する。
本稿では,本論文で報告されていない知見を見つけるために,PresideBand論文の実験データに関するケーススタディを通じてこれを実証する。
The importance of tuning hyperparameters in Machine Learning (ML) and Deep Learning (DL) is established through empirical research and applications, evident from the increase in new hyperparameter optimization (HPO) algorithms and benchmarks steadily added by the community. However, current benchmarking practices using averaged performance across many datasets may obscure key differences between HPO methods, especially for pairwise comparisons. In this work, we apply Linear Mixed-Effect Models-based (LMEMs) significance testing for post-hoc analysis of HPO benchmarking runs. LMEMs allow flexible and expressive modeling on the entire experiment data, including information such as benchmark meta-features, offering deeper insights than current analysis practices. We demonstrate this through a case study on the PriorBand paper's experiment data to find insights not reported in the original work. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# 量子ドットハイブリッド円形ブラッググレーティングキャビティの高パーセル化による未分化光子のGHzクロック発生
High Purcell-enhancement in quantum-dot hybrid circular Bragg grating cavities for GHz-clockrate generation of indistinguishable photons ( http://arxiv.org/abs/2408.02543v1 ) ライセンス: Link先を確認 | Lucas Rickert, Daniel A. Vajner, Martin von Helversen, Johannes Schall, Sven Rodt, Stephan Reitzenstein, Hanqing Liu, Shulun Li, Haiqiao Ni, Zhichuan Niu, Tobias Heindel, | (参考訳) 本稿では,Purcell-enhanced(F_\mathrm{P} > 25$) 半導体 InAs 量子ドット放射寿命$T_1 < 30~\mathrm{ps}$ を,決定論的ハイブリッドブラッグ格子 (hCBGs) により実現した。
準共振および厳密な共振励起に対する2光子不一致性に対するこれらの短いT1倍の利点について検討し、連続的に放出される光子の12.5ns時間遅延における振動率$\geq96\%$を観測した。
強いパーセルの減衰時間により、最大30Kまでの高温で高い不明瞭性が得られ、さらに最大1.28GHzの繰り返しの励起が可能となる。
我々の研究は、GHzクロックレートで動作する量子情報や技術への応用のための、高紫外高強度固体量子エミッタの展望を浮き彫りにしている。
We present Purcell-enhanced ($F_\mathrm{P} > 25$) semiconductor InAs quantum dot radiative lifetimes of $T_1 < 30~\mathrm{ps}$, enabled by deterministic hybrid circular Bragg gratings (hCBGs). We investigate the benefits of these short T1 times on the two-photon indistinguishability for quasi-resonant and strictly resonant excitation, and observe visibilities $\geq96\%$ at 12.5 ns time delay of consecutively emitted photons. The strongly Purcell-enhanced decay times enable a high degree of indistinguishability for elevated temperatures of up to 30 K, and moreover, allow for excitation of up to 1.28 GHz repetition rate. Our work highlights the prospects of high Purcell enhanced solid-state quantum emitters for applications in quantum information and technologies operating at GHz clock-rates. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# 環境への注意:マルチモーダル・エージェントは環境破壊にかかわる
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions ( http://arxiv.org/abs/2408.02544v1 ) ライセンス: Link先を確認 | Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao, | (参考訳) 本稿では,GUI環境におけるマルチモーダル大規模言語モデル (MLLM) エージェントの忠実さを考察し,マルチモーダルGUIエージェントが環境コンテキストによって邪魔されるかどうかという研究課題に対処することを目的とする。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
シミュレーションデータセットを用いて多種多様なMLLMをGUIエージェントとして評価する。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
近年の研究では、マルチモーダル剤の有効性(作用精度)に主に焦点が当てられているが、これらの薬剤は環境に邪魔される傾向があり、不誠実な行動をもたらすことが示唆されている。
さらに, 敵の視点に切り替え, 環境注入を行い, このような不信感を活用できることを実証し, 予期せぬリスクを生じさせる。
This paper investigates the faithfulness of multimodal large language model (MLLM) agents in the graphical user interface (GUI) environment, aiming to address the research question of whether multimodal GUI agents can be distracted by environmental context. A general setting is proposed where both the user and the agent are benign, and the environment, while not malicious, contains unrelated content. A wide range of MLLMs are evaluated as GUI agents using our simulated dataset, following three working patterns with different levels of perception. Experimental results reveal that even the most powerful models, whether generalist agents or specialist GUI agents, are susceptible to distractions. While recent studies predominantly focus on the helpfulness (i.e., action accuracy) of multimodal agents, our findings indicate that these agents are prone to environmental distractions, resulting in unfaithful behaviors. Furthermore, we switch to the adversarial perspective and implement environment injection, demonstrating that such unfaithfulness can be exploited, leading to unexpected risks. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# RAG Foundry: 検索拡張ジェネレーションのためのLLMの強化フレームワーク
RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation ( http://arxiv.org/abs/2408.02545v1 ) ライセンス: Link先を確認 | Daniel Fleischer, Moshe Berchansky, Moshe Wasserblat, Peter Izsak, | (参考訳) Retrieval-Augmented Generation (RAG)システムの実装は本質的に複雑で、データの深い理解、ユースケース、複雑な設計決定が必要になる。
さらに,これらのシステム評価には,検索精度と生成品質の両方を多面的アプローチで評価する必要がある重要な課題がある。
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合し、RAG設定で大規模な言語モデルをトレーニングおよび評価するためのデータ拡張データセットの作成を容易にする。
この統合により、様々なRAGテクニックによる迅速なプロトタイピングと実験が可能になり、ユーザーは容易にデータセットを生成し、内部または専門的な知識ソースを使用してRAGモデルをトレーニングすることができる。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を実証し,知識集約型データセット間で一貫した改善を示す。
Codeはhttps://github.com/IntelLabs/RAGFoundryでオープンソースとして公開されている。
Implementing Retrieval-Augmented Generation (RAG) systems is inherently complex, requiring deep understanding of data, use cases, and intricate design decisions. Additionally, evaluating these systems presents significant challenges, necessitating assessment of both retrieval accuracy and generative quality through a multi-faceted approach. We introduce RAG Foundry, an open-source framework for augmenting large language models for RAG use cases. RAG Foundry integrates data creation, training, inference and evaluation into a single workflow, facilitating the creation of data-augmented datasets for training and evaluating large language models in RAG settings. This integration enables rapid prototyping and experimentation with various RAG techniques, allowing users to easily generate datasets and train RAG models using internal or specialized knowledge sources. We demonstrate the framework effectiveness by augmenting and fine-tuning Llama-3 and Phi-3 models with diverse RAG configurations, showcasing consistent improvements across three knowledge-intensive datasets. Code is released as open-source in https://github.com/IntelLabs/RAGFoundry. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# ヒューマン・マシン・インタフェースにおける手のジェスチャー知覚改善における機能筋ネットワークの役割
The Role of Functional Muscle Networks in Improving Hand Gesture Perception for Human-Machine Interfaces ( http://arxiv.org/abs/2408.02547v1 ) ライセンス: Link先を確認 | Costanza Armanini, Tuka Alhanai, Farah E. Shamout, S. Farokh Atashzar, | (参考訳) 正確な手の動き知覚モデルを開発することは、人間と機械間の効果的なコミュニケーションを可能にし、神経ロボティクスや対話型ロボットに直接影響を与える様々なロボットアプリケーションにとって重要である。
近年、表面筋電図(SEMG)は、高度な機械学習アプローチやウェアラブルシステムと組み合わせることで、豊富な情報コンテキストとアクセシビリティのために研究されている。
この文献は、sEMGを使用して神経ロボットの堅牢性を確保しつつ、パフォーマンスを向上させるための多くのアプローチを示し、しばしば、高い処理能力、大規模なデータセット、よりスケーラブルなソリューションを必要とするモデルをもたらす。
本稿では,個々の筋の活性化ではなく,筋の同期の復号化を提案することで,この問題に対処する。
我々は,コヒーレンスに基づく機能的筋ネットワークを知覚モデルの中核として研究し,筋とグラフに基づく筋接続ネットワーク間の機能的同期が,意図した手の動きに関するコンテキスト情報を符号化することを示した。
これは、ディープ・テンポラル・ネットワークを必要とせずに、浅い機械学習アプローチでデコードできる。
我々の技術は、計算負担を減らし、効率を高めることにより、神経ロボットの筋電制御に影響を及ぼす可能性がある。
このアプローチは、Ninaproデータベース上でベンチマークされ、40人の被験者から17のハンドジェスチャを実行する12のEMG信号が含まれている。
85.1%の精度を実現し、計算能力を大幅に低下させながら、既存の手法に比べて性能が向上した。
その結果、コヒーレンスに基づく機能筋ネットワークは、ジェスチャー実行に関連する重要な情報を符号化し、神経ロボティクスシステムやインタラクティブマシンへの潜在的な応用により手の動き知覚を著しく向上させるという仮説を支持した。
Developing accurate hand gesture perception models is critical for various robotic applications, enabling effective communication between humans and machines and directly impacting neurorobotics and interactive robots. Recently, surface electromyography (sEMG) has been explored for its rich informational context and accessibility when combined with advanced machine learning approaches and wearable systems. The literature presents numerous approaches to boost performance while ensuring robustness for neurorobots using sEMG, often resulting in models requiring high processing power, large datasets, and less scalable solutions. This paper addresses this challenge by proposing the decoding of muscle synchronization rather than individual muscle activation. We study coherence-based functional muscle networks as the core of our perception model, proposing that functional synchronization between muscles and the graph-based network of muscle connectivity encode contextual information about intended hand gestures. This can be decoded using shallow machine learning approaches without the need for deep temporal networks. Our technique could impact myoelectric control of neurorobots by reducing computational burdens and enhancing efficiency. The approach is benchmarked on the Ninapro database, which contains 12 EMG signals from 40 subjects performing 17 hand gestures. It achieves an accuracy of 85.1%, demonstrating improved performance compared to existing methods while requiring much less computational power. The results support the hypothesis that a coherence-based functional muscle network encodes critical information related to gesture execution, significantly enhancing hand gesture perception with potential applications for neurorobotic systems and interactive machines. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# プロセス制約付きバッチベイズ法によるマルチリアクタシステムにおける収率最適化
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems ( http://arxiv.org/abs/2408.02551v1 ) ライセンス: Link先を確認 | Markus Grimm, Sébastien Paul, Pierre Chainais, | (参考訳) ヘテロジニアス触媒研究の先進的なツールであるマルチリアクターシステムの収率の最適化は、階層的技術的制約により大きな課題を呈している。
この観点から、トンプソンサンプリング(pc-BO-TS)と一般化階層拡張(hpc-BO-TS)によるプロセス制約バッチベイズ最適化と呼ばれる新しいアプローチを導入する。
この手法はマルチリアクタシステムの効率要求に適合し、連続バッチ最適化戦略において探索とエクスプロイトの間の実験的制約とバランスを統合する。
他のベイズ最適化法よりも改善されている。
pc-BO-TSとhpc-BO-TSの性能は、REALCATプラットフォームで利用可能なマルチリアクターシステムで行った高スループット実験から得られたデータに基づいて、合成ケースや現実的なシナリオで検証される。
提案手法は、他の逐次ベイズ最適化法や既存のプロセス制約バッチベイズ最適化法よりも優れていることが多い。
本研究は, 反応の収率を最適化する新しい手法を提案し, デジタル触媒の進歩, 一般に化学工学の最適化手法について述べる。
The optimization of yields in multi-reactor systems, which are advanced tools in heterogeneous catalysis research, presents a significant challenge due to hierarchical technical constraints. To this respect, this work introduces a novel approach called process-constrained batch Bayesian optimization via Thompson sampling (pc-BO-TS) and its generalized hierarchical extension (hpc-BO-TS). This method, tailored for the efficiency demands in multi-reactor systems, integrates experimental constraints and balances between exploration and exploitation in a sequential batch optimization strategy. It offers an improvement over other Bayesian optimization methods. The performance of pc-BO-TS and hpc-BO-TS is validated in synthetic cases as well as in a realistic scenario based on data obtained from high-throughput experiments done on a multi-reactor system available in the REALCAT platform. The proposed methods often outperform other sequential Bayesian optimizations and existing process-constrained batch Bayesian optimization methods. This work proposes a novel approach to optimize the yield of a reaction in a multi-reactor system, marking a significant step forward in digital catalysis and generally in optimization methods for chemical engineering. | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# MeshAnything V2: 隣接するメッシュのトークン化を備えたアーティストによるメッシュ生成
MeshAnything V2: Artist-Created Mesh Generation With Adjacent Mesh Tokenization ( http://arxiv.org/abs/2408.02555v1 ) ライセンス: Link先を確認 | Yiwen Chen, Yikai Wang, Yihao Luo, Zhengyi Wang, Zilong Chen, Jun Zhu, Chi Zhang, Guosheng Lin, | (参考訳) 本稿では,Artist-Created Meshes (AM) を生成する自動回帰変換器であるMeshAnything V2を紹介する。
高品質で制御性の高いAM生成を実現するために、様々な3Dアセット生産パイプラインと統合することができる。
MeshAnything V2は、同じサイズのモデルを使用して、効率とパフォーマンスの両方において、以前のメソッドを上回ります。
これらの改善は、新たに提案したメッシュトークン化方法であるAdjacent Mesh Tokenization (AMT)によるものだ。
3つの頂点を持つ各面を表す従来の方法とは異なり、ATTは可能な限り1つの頂点を使用する。
従来の手法と比較して、AMTは平均的に同じメッシュを表すのにトークンシーケンスの長さの約半分を必要とする。
さらに、AMTのトークン配列はよりコンパクトで構造が良く、AM生成に基本的に有利である。
AMTはAM生成の効率と性能を著しく向上させる。
Project Page: https://buaacyw.github.io/meshanything-v2/
We introduce MeshAnything V2, an autoregressive transformer that generates Artist-Created Meshes (AM) aligned to given shapes. It can be integrated with various 3D asset production pipelines to achieve high-quality, highly controllable AM generation. MeshAnything V2 surpasses previous methods in both efficiency and performance using models of the same size. These improvements are due to our newly proposed mesh tokenization method: Adjacent Mesh Tokenization (AMT). Different from previous methods that represent each face with three vertices, AMT uses a single vertex whenever possible. Compared to previous methods, AMT requires about half the token sequence length to represent the same mesh in average. Furthermore, the token sequences from AMT are more compact and well-structured, fundamentally benefiting AM generation. Our extensive experiments show that AMT significantly improves the efficiency and performance of AM generation. Project Page: https://buaacyw.github.io/meshanything-v2/ | 翻訳日:2024-08-06 13:17:11 公開日:2024-08-05 |
# AutoFL: ソフトウェアリポジトリの自動多言語ラベリングツール
AutoFL: A Tool for Automatic Multi-granular Labelling of Software Repositories ( http://arxiv.org/abs/2408.02557v1 ) ライセンス: Link先を確認 | Cezar Sas, Andrea Capiluppi, | (参考訳) ソフトウェアの理解、特に新しいコードベースは、開発者、特にさまざまなドメインにまたがる複数の機能を持つ大規模プロジェクトでは時間がかかります。
この作業を減らすための1つの戦略は、含まれている機能を記述する意味のあるラベルでファイルに注釈を付けることである。
しかし、これまでの研究はREADMEファイルをプロキシとして使用してプロジェクト全体を分類することに重点を置いており、結果として開発者からの情報はほとんど得られていない。
我々の目標は、ソースコードを入力として、適切なアプリケーションドメインでファイルのラベル付けを合理化することです。
これを実現するために,従来の研究において,弱いラベル付け手法を用いて自動アノテート機能の評価を行った。
本稿では,ソースコードからソフトウェアリポジトリを自動的にラベル付けするツールであるAutoFLについて述べる。
AutoFLは、以下の複数の粒度のアノテーションを可能にする。
ツールの内部について概説し、AutoFLが利用可能な例分析を行い、制約と今後の作業について議論する。
Software comprehension, especially of new code bases, is time consuming for developers, especially in large projects with multiple functionalities spanning various domains. One strategy to reduce this effort involves annotating files with meaningful labels that describe the functionalities contained. However, prior research has so far focused on classifying the whole project using README files as a proxy, resulting in little information gained for the developers. Our objective is to streamline the labelling of files with the correct application domains using source code as input. To achieve this, in prior work, we evaluated the ability to annotate files automatically using a weak labelling approach. This paper presents AutoFL, a tool for automatically labelling software repositories from source code. AutoFL allows multi-granular annotations including: \textit{file}, \textit{package}, and \textit{project} -level. We provide an overview of the tool's internals, present an example analysis for which AutoFL can be used, and discuss limitations and future work. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# Peer-induced Fairness:Credit ApprovalにおけるReveal Algorithmic Unfairnessに対する因果的アプローチ
Peer-induced Fairness: A Causal Approach to Reveal Algorithmic Unfairness in Credit Approval ( http://arxiv.org/abs/2408.02558v1 ) ライセンス: Link先を確認 | Shiqi Fang, Zexun Chen, Jake Ansell, | (参考訳) 本稿では,アルゴリズムフェアネスを科学的に評価するための新しい枠組みである「ピア誘導フェアネス」を紹介する。
アルゴリズムによる差別による有害な結果と、個人の能力不足による結果の区別である。
単一世界干渉グラフ(Single World Intervention Graph)のような対物フェアネスと高度な因果推論技術を利用することで、このモデルに依存しないアプローチは、ピア比較と仮説テストを通じて個人レベルでの公平性を評価する。
また、データ不足や不均衡といった課題にも対処し、利害関係者のための柔軟でプラグ&プレイのセルフ監査ツールと規制当局のための外部監査ツールを提供し、不都合な判断によって影響を受ける人々に対する説明可能なフィードバックを提供する。
This paper introduces a novel framework, "peer-induced fairness", to scientifically audit algorithmic fairness. It addresses a critical but often overlooked issue: distinguishing between adverse outcomes due to algorithmic discrimination and those resulting from individuals' insufficient capabilities. By utilizing counterfactual fairness and advanced causal inference techniques, such as the Single World Intervention Graph, this model-agnostic approach evaluates fairness at the individual level through peer comparisons and hypothesis testing. It also tackles challenges like data scarcity and imbalance, offering a flexible, plug-and-play self-audit tool for stakeholders and an external audit tool for regulators, while providing explainable feedback for those affected by unfavorable decisions. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# グアンダンにおける心の理論に基づくLLMエージェントの評価と強化:不完全な情報の下での多人数協調ゲーム
Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information ( http://arxiv.org/abs/2408.02559v1 ) ライセンス: Link先を確認 | Yauwai Yim, Chunkit Chan, Tianyu Shi, Zheye Deng, Wei Fan, Tianshi Zheng, Yangqiu Song, | (参考訳) 大規模言語モデル(LLM)は、単純なゲームに不完全な情報で対処し、マルチエージェント協調を可能にすることに成功したが、複雑で不完全な情報環境、特に非英語環境において、他のエージェントとの実践的なコラボレーションを促進する能力はまだ検討する必要がある。
本研究では,オープンソースおよびAPIベースのLLMが獲得した知識を,不完全な情報下でのエージェント協調を必要とする高度なテキストベースのゲームに適用し,その性能を,他のタイプのエージェントを用いた確立されたベースラインと比較する。
本研究では, LLMエージェントがゲームルール, 現状, 歴史的文脈のみを入力として, 様々な敵に対して戦略を適応させることのできる, 心の理論(ToM)計画手法を提案する。
このカードゲームにおける動的かつ広範なアクション空間の課題を軽減するために、外部ツールが組み込まれた。
以上の結果から,現在のLLMと最先端強化学習(RL)モデルの間には性能ギャップが存在するが,このゲーム環境でのToM機能を示す。
対立するエージェントに対するパフォーマンスを継続的に改善し、同盟者や敵の行動を理解し、同盟者との協力を確立する能力を提案する。
さらなる研究と理解を促進するために、コードベースをオープンにアクセス可能にしました。
Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# HQOD:オブジェクト検出のための高調な量子化
HQOD: Harmonious Quantization for Object Detection ( http://arxiv.org/abs/2408.02561v1 ) ライセンス: Link先を確認 | Long Huang, Zhiwei Dong, Song-Lu Chen, Ruiyao Zhang, Shutong Ti, Feng Chen, Xu-Cheng Yin, | (参考訳) タスク不調和問題は、現代のオブジェクト検出器で一般的に発生し、分類と回帰タスクの間に一貫性のない性質をもたらす。
分類スコアが高いが、ローカライゼーション位置が低い、あるいはローカライゼーション位置が低い、正確なローカライゼーション位置の予測ボックスは、非最大抑圧後の検出器の性能を悪化させる。
さらに、物体検出器が量子化認識訓練(QAT)と協調すると、タスク不調和問題はさらに悪化し、量子化検出器の性能劣化の原因の1つと考えられる。
この問題に対処するために,2つのコンポーネントから構成されるHalmonious Quantization for Object Detection (HQOD)フレームワークを提案する。
まず,QATにおけるタスク調和品質の低いサンプルに焦点をあてるタスク関連損失を提案する。
第二に、異なるIoUレベル間で回帰分岐の最適化のバランスをとるために、ユニオン(IoU)損失に対する調和したインターセクションが組み込まれている。
提案したHQODは、異なるQATアルゴリズムや検出器に容易に統合できる。
注目すべきは、MS COCOデータセットにおいて、ResNet-50のバックボーンを持つ4ビットATSSは、最先端のmAPを39.6%達成し、完全な精度を超えています。
Task inharmony problem commonly occurs in modern object detectors, leading to inconsistent qualities between classification and regression tasks. The predicted boxes with high classification scores but poor localization positions or low classification scores but accurate localization positions will worsen the performance of detectors after Non-Maximum Suppression. Furthermore, when object detectors collaborate with Quantization-Aware Training (QAT), we observe that the task inharmony problem will be further exacerbated, which is considered one of the main causes of the performance degradation of quantized detectors. To tackle this issue, we propose the Harmonious Quantization for Object Detection (HQOD) framework, which consists of two components. Firstly, we propose a task-correlated loss to encourage detectors to focus on improving samples with lower task harmony quality during QAT. Secondly, a harmonious Intersection over Union (IoU) loss is incorporated to balance the optimization of the regression branch across different IoU levels. The proposed HQOD can be easily integrated into different QAT algorithms and detectors. Remarkably, on the MS COCO dataset, our 4-bit ATSS with ResNet-50 backbone achieves a state-of-the-art mAP of 39.6%, even surpassing the full-precision one. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# AIリスク評価の影響を2倍にする理由
Reasons to Doubt the Impact of AI Risk Evaluations ( http://arxiv.org/abs/2408.02565v1 ) ライセンス: Link先を確認 | Gabriel Mukobi, | (参考訳) AIの安全性実践者は、AIシステム評価にかなりのリソースを投資するが、評価が影響を認識できなかった場合、これらの投資は無駄になる可能性がある。
本稿では、AIリスクに対する理解を大幅に改善し、その結果、これらのリスクを軽減する能力である評価のコアバリュー命題に疑問を呈する。
評価は、AIシステムを超えて現れるリスクや、実世界の観察と比較して評価から重要でないリターンなど、6つの方法による理解の改善に失敗する可能性がある。
理解の向上は、コミットメントの維持と強化の課題を含む、リスク軽減の4つの方法にも結びつく可能性がある。
例えば、デュアルユース機能の武器化を誘発したり、AIの安全性に高い機会コストをかけたりすることで、評価は有害になる可能性がある。
本稿では、AIのリスク評価と緩和に対するより戦略的かつ影響力のあるアプローチを奨励するために、AIラボ、外部評価者、規制当局、学術研究者に対する評価プラクティスの改善と12の勧告について考察する。
AI safety practitioners invest considerable resources in AI system evaluations, but these investments may be wasted if evaluations fail to realize their impact. This paper questions the core value proposition of evaluations: that they significantly improve our understanding of AI risks and, consequently, our ability to mitigate those risks. Evaluations may fail to improve understanding in six ways, such as risks manifesting beyond the AI system or insignificant returns from evaluations compared to real-world observations. Improved understanding may also not lead to better risk mitigation in four ways, including challenges in upholding and enforcing commitments. Evaluations could even be harmful, for example, by triggering the weaponization of dual-use capabilities or invoking high opportunity costs for AI safety. This paper concludes with considerations for improving evaluation practices and 12 recommendations for AI labs, external evaluators, regulators, and academic researchers to encourage a more strategic and impactful approach to AI risk assessment and mitigation. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# マルチモーダルデータ分類のためのクロスモーダルクラスタリングに基づく自己組織化
Cross-Modality Clustering-based Self-Labeling for Multimodal Data Classification ( http://arxiv.org/abs/2408.02568v1 ) ライセンス: Link先を確認 | Paweł Zyblewski, Leandro L. Minku, | (参考訳) 技術進歩は、マルチモーダルデータを取得する能力を促進し、認識システムに挑戦すると同時に、情報の異種性を利用してモデルの一般化能力を高める機会を提供する。
しばしば見落とされがちな問題はラベル付けプロセスのコストであり、これは典型的に人間の専門家と関連する時間とお金にかなりの投資を必要とするためである。
既存の半教師付き学習手法は、利用可能なモダリティの融合によって生成される特徴空間での操作に重点を置いており、各モダリティで利用可能な補完的な情報を相互に活用する可能性を無視している。
この問題に対処するため,クロスモーダルクラスタリングに基づく自己ラベル (CMCSL) を提案する。
ラベル付きデータの小さなセットに基づいて、CMCSLは、深い特徴空間の各モードに属するインスタンスをグループ化し、その結果のクラスタ内で既知のラベルを伝搬する。
次に、各モードにおけるインスタンスのクラスメンバーシップに関する情報はユークリッド距離に基づいて交換され、より正確なラベル付けが保証される。
MM-IMDbデータセットから得られた20のデータセットでの実験的な評価は、特にラベル付きインスタンスの数が小さい場合、モダリティ間のラベルの相互プロパゲーションにより、より信頼性の高いラベル付けが可能となり、各モダリティにおける分類性能が向上することを示している。
Technological advances facilitate the ability to acquire multimodal data, posing a challenge for recognition systems while also providing an opportunity to use the heterogeneous nature of the information to increase the generalization capability of models. An often overlooked issue is the cost of the labeling process, which is typically high due to the need for a significant investment in time and money associated with human experts. Existing semi-supervised learning methods often focus on operating in the feature space created by the fusion of available modalities, neglecting the potential for cross-utilizing complementary information available in each modality. To address this problem, we propose Cross-Modality Clustering-based Self-Labeling (CMCSL). Based on a small set of pre-labeled data, CMCSL groups instances belonging to each modality in the deep feature space and then propagates known labels within the resulting clusters. Next, information about the instances' class membership in each modality is exchanged based on the Euclidean distance to ensure more accurate labeling. Experimental evaluation conducted on 20 datasets derived from the MM-IMDb dataset indicates that cross-propagation of labels between modalities -- especially when the number of pre-labeled instances is small -- can allow for more reliable labeling and thus increase the classification performance in each modality. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# 画像テキストペアを用いたエモティコン予測のためのコントラスト学習型マルチモーダルアーキテクチャ
Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs ( http://arxiv.org/abs/2408.02571v1 ) ライセンス: Link先を確認 | Ananya Pandey, Dinesh Kumar Vishwakarma, | (参考訳) エモティコン(英: Emoticon)は、一般的にテキストの内容に付随して書かれたメッセージの真の意図を視覚的に拡張または要約する象徴的な表現である。
ソーシャルメディアの領域で広く利用されているが、これらのエモティコンのコアセマンティクスは、複数のモダリティに基づいて広く研究されていない。
単一のメッセージにテキスト情報と視覚情報を組み込むと、情報伝達の高度な方法が発達する。
そこで本研究では,文,視覚,エモティコン間の関係を分析することを目的とする。
そこで本研究ではまず,各手法の長所と短所を強調し,多モーダルな特徴を抽出する様々な手法について詳細に検討する。
複数のマルチモーダルアルゴリズムを包括的に検討し、融合アプローチに特に重点を置いて、新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルでは,2分岐エンコーダとコントラスト学習を併用して,テキストと画像を共通潜時空間に正確にマッピングする。
私たちの重要な発見は、コントラスト学習の原則と他の2つのブランチの原則を統合することで、優れた結果が得られることです。
実験の結果,提案手法は既存のマルチモーダル手法よりも精度とロバスト性に優れていた。
提案モデルでは,Twitterから取得したMultimodal-Twitter Emoticonデータセットを用いてエモティコンの評価を行い,精度91%,MCCスコア90%を達成した。
比較学習により得られた深い特徴がより効率的であることを示す証拠として,提案手法はエモティコンを複数のモードで認識する強力な一般化能力を有することを示唆する。
The emoticons are symbolic representations that generally accompany the textual content to visually enhance or summarize the true intention of a written message. Although widely utilized in the realm of social media, the core semantics of these emoticons have not been extensively explored based on multiple modalities. Incorporating textual and visual information within a single message develops an advanced way of conveying information. Hence, this research aims to analyze the relationship among sentences, visuals, and emoticons. For an orderly exposition, this paper initially provides a detailed examination of the various techniques for extracting multimodal features, emphasizing the pros and cons of each method. Through conducting a comprehensive examination of several multimodal algorithms, with specific emphasis on the fusion approaches, we have proposed a novel contrastive learning based multimodal architecture. The proposed model employs the joint training of dual-branch encoder along with the contrastive learning to accurately map text and images into a common latent space. Our key finding is that by integrating the principle of contrastive learning with that of the other two branches yields superior results. The experimental results demonstrate that our suggested methodology surpasses existing multimodal approaches in terms of accuracy and robustness. The proposed model attained an accuracy of 91% and an MCC-score of 90% while assessing emoticons using the Multimodal-Twitter Emoticon dataset acquired from Twitter. We provide evidence that deep features acquired by contrastive learning are more efficient, suggesting that the proposed fusion technique also possesses strong generalisation capabilities for recognising emoticons across several modes. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# アフリカにおける公衆衛生監視のための人工知能 : 応用と機会
Artificial Intelligence for Public Health Surveillance in Africa: Applications and Opportunities ( http://arxiv.org/abs/2408.02575v1 ) ライセンス: Link先を確認 | Jean Marie Tshimula, Mitterrand Kalengayi, Dieumerci Makenga, Dorcas Lilonge, Marius Asumani, Déborah Madiya, Élie Nkuba Kalonji, Hugues Kanda, René Manassé Galekwa, Josias Kumbu, Hardy Mikese, Grace Tshimula, Jean Tshibangu Muabila, Christian N. Mayemba, D'Jeff K. Nkashama, Kalonji Kalala, Steve Ataky, Tighana Wenge Basele, Mbuyi Mukendi Didier, Selain K. Kasereka, Maximilien V. Dialufuma, Godwill Ilunga Wa Kumwita, Lionel Muyuku, Jean-Paul Kimpesa, Dominique Muteba, Aaron Aruna Abedi, Lambert Mukendi Ntobo, Gloria M. Bundutidi, Désiré Kulimba Mashinda, Emmanuel Kabengele Mpinga, Nathanaël M. Kasoro, | (参考訳) 人工知能(AI)は公衆衛生監視など様々な分野に革命をもたらしている。
アフリカでは、限られた資源、不十分なインフラ、失敗した健康情報システム、熟練した医療専門家の不足といった課題にしばしば直面するが、AIは変革的な機会を提供する。
本稿では、アフリカにおける公衆衛生監視におけるAIの適用について検討し、ケーススタディの成功と、アフリカの医療環境におけるAI技術導入のメリット、機会、課題について検討する。
本稿は、AIが病気のモニタリングと健康管理を強化し、効果的な公衆衛生介入を支援する可能性を強調している。
論文は,AIが疾患の検出と予測の精度とスケジュールを大幅に改善し,資源配分を最適化し,公衆衛生戦略を目標とすることを実証した。
さらに、アフリカの公衆衛生システムにおいてAIが広く採用される上での重要な障壁を明らかにし、これらの課題を克服するための実用的なレコメンデーションを提案しました。
Artificial Intelligence (AI) is revolutionizing various fields, including public health surveillance. In Africa, where health systems frequently encounter challenges such as limited resources, inadequate infrastructure, failed health information systems and a shortage of skilled health professionals, AI offers a transformative opportunity. This paper investigates the applications of AI in public health surveillance across the continent, presenting successful case studies and examining the benefits, opportunities, and challenges of implementing AI technologies in African healthcare settings. Our paper highlights AI's potential to enhance disease monitoring and health outcomes, and support effective public health interventions. The findings presented in the paper demonstrate that AI can significantly improve the accuracy and timeliness of disease detection and prediction, optimize resource allocation, and facilitate targeted public health strategies. Additionally, our paper identified key barriers to the widespread adoption of AI in African public health systems and proposed actionable recommendations to overcome these challenges. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# LLMのパワーレバレッジ:高品質アスペクトに基づく要約のための微調整アプローチ
Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization ( http://arxiv.org/abs/2408.02584v1 ) ライセンス: Link先を確認 | Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Aditya Vempaty, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku, | (参考訳) デジタル情報の増大は、ユーザが長いドキュメントから重要な洞察を抽出する効率的な方法を必要とする。
アスペクトベースの要約は、対象とするアプローチを提供し、ドキュメント内の特定の側面に焦点を当てた要約を生成する。
アスペクトベースの要約研究の進歩にもかかわらず、モデル性能を改善するための継続的な探求がある。
大規模言語モデル(LLM)は,特に要約問題において,自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
提案手法は,これらのモデルがアスペクト関連情報を効果的に識別し,抽出することを可能にすることを仮定する。
我々は、微調整LCMの性能を競合するアスペクトベース要約法と、細調整LDMのバニラ法と比較するための総合的な評価フレームワークを構築した。
本研究は,高品質なアスペクトベース要約を生成するための微調整LDMの有効性を示すことによって,アスペクトベース要約の分野に寄与する。
さらに、様々なNLPドメインを対象とした目標情報抽出タスクにLLMを使用するための扉を開いている。
The ever-increasing volume of digital information necessitates efficient methods for users to extract key insights from lengthy documents. Aspect-based summarization offers a targeted approach, generating summaries focused on specific aspects within a document. Despite advancements in aspect-based summarization research, there is a continuous quest for improved model performance. Given that large language models (LLMs) have demonstrated the potential to revolutionize diverse tasks within natural language processing, particularly in the problem of summarization, this paper explores the potential of fine-tuning LLMs for the aspect-based summarization task. We evaluate the impact of fine-tuning open-source foundation LLMs, including Llama2, Mistral, Gemma and Aya, on a publicly available domain-specific aspect based summary dataset. We hypothesize that this approach will enable these models to effectively identify and extract aspect-related information, leading to superior quality aspect-based summaries compared to the state-of-the-art. We establish a comprehensive evaluation framework to compare the performance of fine-tuned LLMs against competing aspect-based summarization methods and vanilla counterparts of the fine-tuned LLMs. Our work contributes to the field of aspect-based summarization by demonstrating the efficacy of fine-tuning LLMs for generating high-quality aspect-based summaries. Furthermore, it opens doors for further exploration of using LLMs for targeted information extraction tasks across various NLP domains. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# 産業関連量子計算の必要性の評価
Assessing the Requirements for Industry Relevant Quantum Computation ( http://arxiv.org/abs/2408.02587v1 ) ライセンス: Link先を確認 | Anna M. Krol, Marvin Erdmann, Ewan Munro, Andre Luckow, Zaid Al-Ars, | (参考訳) 本稿では,産業関連量子計算の要件を評価するために,オープンソースツールを用いて量子資源推定を行う。
本分析では、製造における産業シフトスケジューリングの問題と、量子産業シフトスケジューリングアルゴリズムを用いる。
我々は現在の技術と超伝導量子ビットプラットフォームのための理論上の高忠実性シナリオに基づく。
ゲートと測定操作の実行時間は,システムエラー率よりも計算全体の実行時間を強く決定することがわかった。
さらに、量子スピードアップを達成するには、低いシステムエラー率(10^{-6}$以上)だけでなく、実行時間10ns以下の測定操作も必要となる。
このことは、このユースケースの短期的な量子的優位性の可能性を明らかにし、そのような優位性を達成するためには、重要な技術またはアルゴリズムの進歩が必要であることを示唆している。
In this paper, we use open-source tools to perform quantum resource estimation to assess the requirements for industry-relevant quantum computation. Our analysis uses the problem of industrial shift scheduling in manufacturing and the Quantum Industrial Shift Scheduling algorithm. We base our figures of merit on current technology, as well as theoretical high-fidelity scenarios for superconducting qubit platforms. We find that the execution time of gate and measurement operations determines the overall computational runtime more strongly than the system error rates. Moreover, achieving a quantum speedup would not only require low system error rates ($10^{-6}$ or better), but also measurement operations with an execution time below 10ns. This rules out the possibility of near-term quantum advantage for this use case, and suggests that significant technological or algorithmic progress will be needed before such an advantage can be achieved. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# 画像キャプションによる視覚的セマンティクスのモデル化とマルチモーダルサーカスム検出への留意による多レベルクロスモーダル・セマンティ・コングルティ表現の抽出
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection ( http://arxiv.org/abs/2408.02595v1 ) ライセンス: Link先を確認 | Sajal Aggarwal, Ananya Pandey, Dinesh Kumar Vishwakarma, | (参考訳) サルカスムは皮肉の一種であり、リテラル解釈と意図された意味の間の固有のミスマッチによって特徴づけられる。
テキストにおけるサルカズム検出は広く研究されているが、文字入力だけではサルカズムを知覚できない状況もある。
画像などの追加の文脈的手がかりを含めることは、ソーシャルメディアデータにおける皮肉を効果的に認識するために不可欠である。
本研究では,入力三重項を処理可能なマルチモーダルサルカズム検出のための新しいフレームワークを提案する。
これらの三重項の2つの構成要素は、データセットで提供される入力テキストとその関連画像から構成される。
また、説明的画像キャプションの形で補足的モダリティを導入する。
この視覚的意味表現を取り入れた動機は、文字と視覚的内容の相違をより正確に捉えることである。
本研究の主な貢献は,(1)言語間言語モデルを利用したロバストなテキスト特徴抽出ブランチ,(2)空間的に意識された軽量な注意モジュールと統合された自己制御された残差ConvNetを組み込んだ視覚特徴抽出ブランチ,(3)エンコーダ・デコーダアーキテクチャを用いて画像に埋め込まれたテキストを読み取ることができる画像キャプションの形式に付加的なモダリティ,(4)テキストと2つのレベルの画像表現の不整合を効果的に識別するための異なる注意モジュール,(5)特徴融合によって達成される多段階のクロスドメイン意味的不整合表現。
最先端のベースラインと比較して、提案モデルはTwitterのマルチモーダルサルカムとMultiBullyデータセットでそれぞれ92.89%と64.48%の精度を達成した。
Sarcasm is a type of irony, characterized by an inherent mismatch between the literal interpretation and the intended connotation. Though sarcasm detection in text has been extensively studied, there are situations in which textual input alone might be insufficient to perceive sarcasm. The inclusion of additional contextual cues, such as images, is essential to recognize sarcasm in social media data effectively. This study presents a novel framework for multimodal sarcasm detection that can process input triplets. Two components of these triplets comprise the input text and its associated image, as provided in the datasets. Additionally, a supplementary modality is introduced in the form of descriptive image captions. The motivation behind incorporating this visual semantic representation is to more accurately capture the discrepancies between the textual and visual content, which are fundamental to the sarcasm detection task. The primary contributions of this study are: (1) a robust textual feature extraction branch that utilizes a cross-lingual language model; (2) a visual feature extraction branch that incorporates a self-regulated residual ConvNet integrated with a lightweight spatially aware attention module; (3) an additional modality in the form of image captions generated using an encoder-decoder architecture capable of reading text embedded in images; (4) distinct attention modules to effectively identify the incongruities between the text and two levels of image representations; (5) multi-level cross-domain semantic incongruity representation achieved through feature fusion. Compared with cutting-edge baselines, the proposed model achieves the best accuracy of 92.89% and 64.48%, respectively, on the Twitter multimodal sarcasm and MultiBully datasets. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# 学生の負担軽減のためのAI-Driven Strategies -- EMU学生の停学に関する研究
AI-Driven Strategies for Reducing Student Withdrawal -- A Study of EMU Student Stopout ( http://arxiv.org/abs/2408.02598v1 ) ライセンス: Link先を確認 | Yan Zhao, Amy Otteson, | (参考訳) 大学に入学する全員が証明書や学位を持って退学するわけではないが、失業する人や休学する人の数は、かつて信じられていた専門家よりもはるかに多い。
2013年12月の時点では2900万人が大学教育を受けていたが、学位は無かった。
全国学生クリアリングハウス研究センター(NSC)の最新レポートによると、2018年12月までにこの数字は3600万人に増加した。
学生の退学に寄与する要因を理解し、意思決定者がそれを防ぐための効果的な戦略を特定するのを支援することが不可欠である。
本研究の目的は, 留学生の特性と教育経路を分析することで, 同様の課題に直面している機関に利益をもたらす, 実践可能な洞察を提供することである。
東ミシガン大学(EMU)は学生の留学生に重大な課題に直面しており、大学生の約55%は6年以内に学位を取得できない。
学生の成功を目指す機関として、EMUは学生の退学に関する総合的研究を行い、影響要因を解明した。
また,大学在学初期においても,特定の要因と退学率との間に高い相関関係が認められた。
これらの知見に基づいて,学生が研究を放棄する潜在的リスクを評価するために,人工知能技術を用いた予測モデルを開発した。
これらのモデルにより、大学は早期介入戦略を実行し、リスクの高い学生を支援し、総合的な高等教育の成功を向上させることができる。
Not everyone who enrolls in college will leave with a certificate or degree, but the number of people who drop out or take a break is much higher than experts previously believed. In December 2013, there were 29 million people with some college education but no degree. That number jumped to 36 million by December of 2018, according to a new report from the National Student Clearinghouse Research Center[1]. It is imperative to understand the underlying factors contributing to student withdrawal and to assist decision-makers to identify effective strategies to prevent it. By analyzing the characteristics and educational pathways of the stopout student population, our aim is to provide actionable insights that can benefit institutions facing similar challenges. Eastern Michigan University (EMU) faces significant challenges in student retention, with approximately 55% of its undergraduate students not completing their degrees within six years. As an institution committed to student success, EMU conducted a comprehensive study of student withdrawals to understand the influencing factors. And the paper revealed a high correlation between certain factors and withdrawals, even in the early stages of university attendance. Based on these findings, we developed a predictive model that employs artificial intelligence techniques to assess the potential risk that students abandon their studies. These models enable universities to implement early intervention strategies, support at-risk students, and improve overall higher education success. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# 言語モデルアライメントのためのプログレッシブ選択ラベル強調
Progressively Selective Label Enhancement for Language Model Alignment ( http://arxiv.org/abs/2408.02599v1 ) ライセンス: Link先を確認 | Biao Liu, Ning Xu, Xin Geng, | (参考訳) 大規模言語モデルは、様々な言語タスクにおいて印象的な能力を示してきたが、人間の期待に反するコンテンツを生成し、倫理的および法的懸念を提起する可能性がある。
そのため,人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)が第一の手法である。
RLHFのステージにおける安定性とスケーラビリティの課題のため、研究者はRLHFのステージに匹敵する効果を達成するための代替手法を模索している。
しかし、これらの手法は、しばしば大きな高品質なデータセットに依存し、非効率に生成されたデータを利用する。
この問題に対処するため,PSLE(Progressively Selective Label Enhancement for Language Model Alignment)を提案する。
動的に更新されたしきい値を用いて、本手法は、生成された全ての応答を組み込んで、対応する報酬スコアに基づいて重み付けすることで、効率的なデータ利用を実現する。
複数のデータセットに対する実験結果から,既存の言語モデルアライメント手法と比較してPSLEの有効性が示された。
Large Language Models have demonstrated impressive capabilities in various language tasks but may produce content that misaligns with human expectations, raising ethical and legal concerns. Therefore, it is important to explore the limitations and implement restrictions on the models to ensure safety and compliance, with Reinforcement Learning from Human Feedback (RLHF) being the primary method. Due to challenges in stability and scalability with the RLHF stages, researchers are exploring alternative methods to achieve effects comparable to those of RLHF. However, these methods often depend on large high-quality datasets and inefficiently utilize generated data. To deal with this problem, we propose PSLE, i.e., Progressively Selective Label Enhancement for Language Model Alignment, a framework that fully utilizes all generated data by guiding the model with principles to align outputs with human expectations. Using a dynamically updated threshold, our approach ensures efficient data utilization by incorporating all generated responses and weighting them based on their corresponding reward scores. Experimental results on multiple datasets demonstrate the effectiveness of PSLE compared to existing language model alignment methods. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# BioMamba: Mambaを活用した事前訓練されたバイオメディカル言語表現モデル
BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba ( http://arxiv.org/abs/2408.02600v1 ) ライセンス: Link先を確認 | Ling Yue, Sixue Xing, Yingzhou Lu, Tianfan Fu, | (参考訳) 生物学における自然言語処理(NLP)の進歩は、複雑な生物医学文献を解釈するモデルの能力に基づいている。
伝統的なモデルは、この分野の複雑な言語とドメイン固有の言語にしばしば苦労する。
本稿では,生物医学的テキストマイニングに特化した事前学習モデルであるBioMambaについて述べる。
BioMambaはMambaアーキテクチャの上に構築され、バイオメディカル文学の広範なコーパスに基づいて事前訓練されている。
実験により、BioMambaは、BioBERTや一般ドメインのMambaなど、様々なバイオメディカルタスクにおいて、かなり優れています。
例えば、BioMambaはBioASQテストセットで100倍のパープレキシティ低下と4倍のクロスエントロピー損失を達成している。
モデルアーキテクチャ、事前学習プロセス、微調整技術の概要を提供する。
さらに、さらなる研究を容易にするために、コードとトレーニングされたモデルをリリースします。
The advancement of natural language processing (NLP) in biology hinges on models' ability to interpret intricate biomedical literature. Traditional models often struggle with the complex and domain-specific language in this field. In this paper, we present BioMamba, a pre-trained model specifically designed for biomedical text mining. BioMamba builds upon the Mamba architecture and is pre-trained on an extensive corpus of biomedical literature. Our empirical studies demonstrate that BioMamba significantly outperforms models like BioBERT and general-domain Mamba across various biomedical tasks. For instance, BioMamba achieves a 100 times reduction in perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test set. We provide an overview of the model architecture, pre-training process, and fine-tuning techniques. Additionally, we release the code and trained model to facilitate further research. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# IoTおよび非IoTソフトウェアにおけるコード品質とベストプラクティスの比較
Comparison of Code Quality and Best Practices in IoT and non-IoT Software ( http://arxiv.org/abs/2408.02614v1 ) ライセンス: Link先を確認 | Nour Khezemi, Sikandar Ejaza, Naouel Moha, Yann-Gaël Guéhéneuc, | (参考訳) コンテキスト: ソフトウェアによって駆動される接続デバイスのネットワークであるIoTシステムは、メンテナンスのためにソフトウェア品質を研究する必要がある。
IoTソフトウェアの品質に関する広範な研究にもかかわらず、IoTソフトウェアの品質に関する研究は不足している。
IoTおよび非IoTシステムソフトウェアが同等であるかどうかは不明であり、非IoTシステムで得られた結果とベストプラクティスの確実な適用を妨げる。
目的: そのため、2つの同等のIoTおよび非IoTシステムのコード品質を比較し、類似点と相違点があるかどうかを判断する。
また、ソフトウェアエンジニアリングのベストプラクティスをIoT以外のコンテキストで収集し、再検討して、それらをIoTに適用します。
メソッド: 同等の特徴を持つGitHubから、94の非IoTおよびIoTシステムの2つのセットを選択するために、システマティックなメソッドを設計し、適用します。
この2つのセットでシステムの品質指標を計算し、その測定値を分析して比較する。
より深く分析し、IoTシステムの複雑性とコードベースの表示方法の具体的な例を提供します。
比較後、IoTと非IoTコードの観察された違いに対処するためのベストプラクティスのリストを体系的に選択し、提示する。
結果: メトリクスの比較を通じて、IoTシステム用のソフトウェアは、非IoTシステムよりも複雑で、結合性があり、大きく、保守性がなく、凝集性が高いと結論付けます。
複数のハードウェアとソフトウェアコンポーネントの統合や、それらの間のデータ通信の管理など、いくつかの要因が、これらの違いに貢献している。
これらの違いを考慮すると、IoTシステムを開発するためのアプローチ、ツール、テクニックを含む、再検討されたベストプラクティスリストを提示する。
例えば、モジュール化やリファクタリングは複雑さを下げるためのベストプラクティスです。
結論: 私たちの研究に基づいて、研究者はIoTシステムのためのIoTシステムの品質に関する既存の研究を使用して、情報的な決定を下すことができます。
Context: IoT systems, networks of connected devices powered by software, require studying software quality for maintenance. Despite extensive studies on non-IoT software quality, research on IoT software quality is lacking. It is uncertain if IoT and non-IoT systems software are comparable, hindering the confident application of results and best practices gained on non-IoT systems. Objective: Therefore, we compare the code quality of two equivalent sets of IoT and non-IoT systems to determine whether there are similarities and differences. We also collect and revisit software-engineering best practices in non-IoT contexts to apply them to IoT. Method: We design and apply a systematic method to select two sets of 94 non-IoT and IoT systems software from GitHub with comparable characteristics. We compute quality metrics on the systems in these two sets and then analyse and compare the metric values. We analyse in depth and provide specific examples of IoT system's complexity and how it manifests in the codebases. After the comparison, We systematically select and present a list of best practices to address the observed difference between IoT and non-IoT code. Results: Through a comparison of metrics, we conclude that software for IoT systems is more complex, coupled, larger, less maintainable, and cohesive than non-IoT systems. Several factors, such as integrating multiple hardware and software components and managing data communication between them, contribute to these differences. Considering these differences, we present a revisited best practices list with approaches, tools, or techniques for developing IoT systems. As example, applying modularity, and refactoring are best practices for lowering the complexity. Conclusion: Based on our work, researchers can now make an informed decision using existing studies on the quality of non-IoT systems for IoT systems. | 翻訳日:2024-08-06 13:07:17 公開日:2024-08-05 |
# LaMamba-Diff:局所的注意とマンバに基づく線形時間高忠実拡散モデル
LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba ( http://arxiv.org/abs/2408.02615v1 ) ライセンス: Link先を確認 | Yunxiang Fu, Chaoqi Chen, Yizhou Yu, | (参考訳) 最近のTransformerベースの拡散モデルでは、入力トークン間の全対相互作用を計算することによって、グローバルおよびローカル両方のコンテキストを正確にキャプチャする自己認識機構の能力に起因して、顕著な性能を示している。
しかし、その二次的な複雑性は、長い列の入力に対して重大な計算上の問題を引き起こす。
逆に、Mambaと呼ばれる最近の状態空間モデルは、フィルターされたグローバルコンテキストを隠された状態に圧縮することで線形複雑性を提供する。
その効率性にもかかわらず、圧縮は必然的にトークン間のきめ細かい局所的依存関係の情報を失う。
これらの観測により, 自己意識とマンバの強みを組み合わせた局所意図的マンバ(LaMamba)ブロックを導入し, グローバルな文脈と局所的詳細を線形複雑度で捉えた。
効率的なU-Netアーキテクチャを活用することで、我々のモデルは優れたスケーラビリティを示し、256x256の解像度でImageNet上の様々なモデルスケールでDiTの性能を上回ります。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62 % GFLOP を DiT-XL/2 と比較して減少させるなど,優れた性能を達成できるという大きな利点がある。
Recent Transformer-based diffusion models have shown remarkable performance, largely attributed to the ability of the self-attention mechanism to accurately capture both global and local contexts by computing all-pair interactions among input tokens. However, their quadratic complexity poses significant computational challenges for long-sequence inputs. Conversely, a recent state space model called Mamba offers linear complexity by compressing a filtered global context into a hidden state. Despite its efficiency, compression inevitably leads to information loss of fine-grained local dependencies among tokens, which are crucial for effective visual generative modeling. Motivated by these observations, we introduce Local Attentional Mamba (LaMamba) blocks that combine the strengths of self-attention and Mamba, capturing both global contexts and local details with linear complexity. Leveraging the efficient U-Net architecture, our model exhibits exceptional scalability and surpasses the performance of DiT across various model scales on ImageNet at 256x256 resolution, all while utilizing substantially fewer GFLOPs and a comparable number of parameters. Compared to state-of-the-art diffusion models on ImageNet 256x256 and 512x512, our largest model presents notable advantages, such as a reduction of up to 62\% GFLOPs compared to DiT-XL/2, while achieving superior performance with comparable or fewer parameters. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# 講演中に言語モデルを聴くことができる
Language Model Can Listen While Speaking ( http://arxiv.org/abs/2408.02622v1 ) ライセンス: Link先を確認 | Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen, | (参考訳) 対話は人間とコンピュータの相互作用(HCI)の最も自然な方法として機能する。
音声認識モデル(SLM)の最近の進歩は、音声に基づく会話AIを大幅に強化している。
しかし、これらのモデルはターンベースの会話に限られており、例えば、生成されたコンテンツが満足できない場合に中断されるような、リアルタイムの音声シナリオで人間と対話する能力が欠如している。
これらの制約に対処するため,対話型言語モデル (iSLM) におけるフル・デュプレックス・モデリング (FDM) について検討し,リアルタイムの対話性の向上に焦点をあてた。
本稿では,リスニングと話し方の両方を備えたエンドツーエンドシステムであるLSLM(リスニング・テンポス・ランゲージ・モデル)という,新しいモデル設計を提案する。
LSLMでは,音声生成にはトークンベースのデコーダのみのTS,リアルタイム音声入力にはストリーミング自己教師学習(SSL)エンコーダを採用している。
LSLMは両方のチャネルを融合して自己回帰生成し、ターンテイクをリアルタイムで検出する。
3つの融合戦略(早期融合、中核融合、後期融合)が検討され、中核融合は音声生成とリアルタイム相互作用の最適バランスを達成する。
コマンドベースのFDMと音声ベースのFDMという2つの実験的な設定は、LSLMのノイズに対する堅牢性と多様な命令に対する感度を示す。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
本研究は,対話型音声対話システムの開発を推進し,実環境における適用性を高めることを目的とする。
Dialogue serves as the most natural manner of human-computer interaction (HCI). Recent advancements in speech language models (SLM) have significantly enhanced speech-based conversational AI. However, these models are limited to turn-based conversation, lacking the ability to interact with humans in real-time spoken scenarios, for example, being interrupted when the generated content is not satisfactory. To address these limitations, we explore full duplex modeling (FDM) in interactive speech language models (iSLM), focusing on enhancing real-time interaction and, more explicitly, exploring the quintessential ability of interruption. We introduce a novel model design, namely listening-while-speaking language model (LSLM), an end-to-end system equipped with both listening and speaking channels. Our LSLM employs a token-based decoder-only TTS for speech generation and a streaming self-supervised learning (SSL) encoder for real-time audio input. LSLM fuses both channels for autoregressive generation and detects turn-taking in real time. Three fusion strategies -- early fusion, middle fusion, and late fusion -- are explored, with middle fusion achieving an optimal balance between speech generation and real-time interaction. Two experimental settings, command-based FDM and voice-based FDM, demonstrate LSLM's robustness to noise and sensitivity to diverse instructions. Our results highlight LSLM's capability to achieve duplex communication with minimal impact on existing systems. This study aims to advance the development of interactive speech dialogue systems, enhancing their applicability in real-world contexts. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# YOWOv3: 人間の行動検出と認識のための効率的で汎用的なフレームワーク
YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition ( http://arxiv.org/abs/2408.02623v1 ) ライセンス: Link先を確認 | Duc Manh Nguyen Dang, Viet Hang Duong, Jia Ching Wang, Nhan Bui Duc, | (参考訳) 本稿では,YOWOv2の改良版であるYOWOv3を提案する。
このフレームワークは、異なる構成での広範な実験を容易にするように設計されており、モデル内の様々なコンポーネントのカスタマイズを容易にサポートし、コードの理解と修正に必要な労力を減らす。
YOWOv3は、UCF101-24とAVAv2.2という2つの広く使われている人間の行動検出と認識のためのデータセットにおいて、YOWOv2よりも優れたパフォーマンスを示している。
具体的には、前モデルのYOWOv2は、UCF101-24とAVAv2.2でそれぞれ85.2%と20.3%のmAPを獲得し、109.7Mパラメータと53.6 GFLOPを持つ。
対照的に、59.8Mパラメータと39.8 GFLOPしか持たないYOWOv3は、UCF101-24とAVAv2.2でそれぞれ88.33%と20.31%のmAPを達成する。
その結果、YOWOv3はパラメータやGFLOPの数を著しく削減しつつ、同等のパフォーマンスを実現していることがわかった。
In this paper, we propose a new framework called YOWOv3, which is an improved version of YOWOv2, designed specifically for the task of Human Action Detection and Recognition. This framework is designed to facilitate extensive experimentation with different configurations and supports easy customization of various components within the model, reducing efforts required for understanding and modifying the code. YOWOv3 demonstrates its superior performance compared to YOWOv2 on two widely used datasets for Human Action Detection and Recognition: UCF101-24 and AVAv2.2. Specifically, the predecessor model YOWOv2 achieves an mAP of 85.2% and 20.3% on UCF101-24 and AVAv2.2, respectively, with 109.7M parameters and 53.6 GFLOPs. In contrast, our model - YOWOv3, with only 59.8M parameters and 39.8 GFLOPs, achieves an mAP of 88.33% and 20.31% on UCF101-24 and AVAv2.2, respectively. The results demonstrate that YOWOv3 significantly reduces the number of parameters and GFLOPs while still achieving comparable performance. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# VidGen-1M:テキスト・ビデオ・ジェネレーションのための大規模データセット
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation ( http://arxiv.org/abs/2408.02629v1 ) ライセンス: Link先を確認 | Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li, | (参考訳) ビデオテキストペアの品質は、基本的にテキスト対ビデオモデルの上限を決定する。
現在、これらのモデルのトレーニングに使用されるデータセットは、低時間一貫性、品質の低いキャプション、サブ標準ビデオ品質、不均衡なデータ分散など、重大な欠点に悩まされている。
タグ付けや手動によるルールベースのキュレーションのイメージモデルに依存する一般的なビデオキュレーションプロセスは、高い計算負荷をもたらし、不適切なデータを残します。
結果として、テキストからビデオモデルへの適切なトレーニングデータセットが欠如している。
この問題に対処するため,テキスト・ビデオ・モデルのための優れたトレーニングデータセットであるVidGen-1Mを提案する。
このデータセットは粗大なキュレーション戦略によって生成され、高品質なビデオと詳細なキャプションを保証し、時間的一貫性に優れる。
ビデオ生成モデルをトレーニングするために使用すると、このデータセットは、他のモデルで得られたものを上回る実験結果をもたらす。
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# スパース波動関数に関する量子情報理論と量子化学への応用
Quantum information theory on sparse wavefunctions and applications for Quantum Chemistry ( http://arxiv.org/abs/2408.02631v1 ) ライセンス: Link先を確認 | Davide Materia, Leonardo Ratini, Leonardo Guidoni, | (参考訳) 近年、量子コンピューティングは計算化学の分野に進出し、物理学、数学、計算機科学などの他の分野で開発された計算方法やアイデアを、現在および将来の量子デバイスで原子や分子の量子的性質を推定できるアルゴリズムにインポートし、変換した。
この汚染過程における重要な役割は量子情報技術によるもので、電子相関や絡み合いの分析に寄与し、変分量子固有解法のための波動関数の変動解法の構築を導く2つの役割を持つ。
本稿では,SparQ (Sparse Quantum State Analysis, Sparse Quantum State Analysis, Sparse Quantum State Analysis, SparQ)を提案する。
中心となる方法論は、フェルミオンから量子ビットへの変換を用いてフェルミオンの波動関数を量子ビット空間にマッピングし、これらの波動関数のスパースの性質を利用して、波動関数の可観測性と特性を評価することである。
SparQの有効性は、水分子の波動関数の相互情報行列とベンゼン分子を記述した$\sim 10^2$ qubitsの全エントロピーを解析することによって検証される。
これは、大規模な量子システムを扱う能力を強調しており、主に波動関数の回収に使用される量子化学法の能力によって制限されている。
その結果、これまでの量子情報理論解析は従来のテンソルネットワーク法や遷移作用素の研究に限られており、すべてのハートリー・フォック波動関数に適用でき、より大規模で複雑な化学系に応用できることを示した。
In recent years Quantum Computing prominently entered in the field of Computational Chemistry, importing and transforming computational methods and ideas originally developed within other disciplines, such as Physics, Mathematics and Computer Science into algorithms able to estimate quantum properties of atoms and molecules on present and future quantum devices. An important role in this contamination process is attributed to Quantum Information techniques, having the twofold role of contributing to the analysis of electron correlation and entanglements and guiding the construction of wavefunction variational ansatzes for the Variational Quantum Eigensolver technique. This paper introduces the tool SparQ (Sparse Quantum state analysis), designed to efficiently compute fundamental quantum information theory observables on post-Hartree-Fock wavefunctions sparse in their definition space. The core methodology involves mapping fermionic wavefunctions to qubit space using fermionic-to-qubits transformations and leveraging the sparse nature of these wavefunctions to evaluate observables and properties of the wavefunction. The effectiveness of SparQ is validated by analyzing the mutual information matrices of wavefunctions for the water molecule and the total entropy of $\sim 10^2$ qubits describing the benzene molecule. This highlights its capability to handle large-scale quantum systems, limited mainly by the capabilities of quantum chemical methods used to retrieve the wavefunctions. The results indicate that quantum information theoretical analysis, so far limited to traditional tensor network methods and study of transition operators, can be applied to all post-Hartree-Fock wavefunctions, extending their applications to larger and more complex chemical systems. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# SEAS: 大規模言語モデルの自己進化型対人安全最適化
SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models ( http://arxiv.org/abs/2408.02632v1 ) ライセンス: Link先を確認 | Muxi Diao, Rumei Li, Shiyang Liu, Guogang Liao, Jingang Wang, Xunliang Cai, Weiran Xu, | (参考訳) 大規模言語モデル(LLM)は能力と影響力を向上し続けており、セキュリティの確保と有害なアウトプットの防止が重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
しかし、LSMの脆弱性の進化的な微妙さは、これらのモデルの弱点を特に標的にし、探究するのに苦労する現在の敵法の有効性に挑戦する。
これらの課題に対処するために、$\mathbf{S}\text{elf-}\mathbf{E}\text{volving }\mathbf{A}\text{dversarial }\mathbf{S}\text{afety }\mathbf{(SEAS)}$最適化フレームワークを導入する。
SEASは、初期化、攻撃、および敵最適化という3つの反復的な段階を経験し、堅牢性と安全性を改善するために、レッドチームとターゲットモデルの両方を精錬する。
このフレームワークは手動テストへの依存を減らし、LLMのセキュリティ機能を大幅に強化する。
私たちのコントリビューションには、新しい敵のフレームワーク、包括的な安全データセット、そして3回のイテレーションの後、TargetモデルはGPT-4に匹敵するセキュリティレベルを達成する一方、Red Teamモデルは、高度なモデルに対する攻撃成功率(ASR)が顕著に増加することを示している。
As large language models (LLMs) continue to advance in capability and influence, ensuring their security and preventing harmful outputs has become crucial. A promising approach to address these concerns involves training models to automatically generate adversarial prompts for red teaming. However, the evolving subtlety of vulnerabilities in LLMs challenges the effectiveness of current adversarial methods, which struggle to specifically target and explore the weaknesses of these models. To tackle these challenges, we introduce the $\mathbf{S}\text{elf-}\mathbf{E}\text{volving }\mathbf{A}\text{dversarial }\mathbf{S}\text{afety }\mathbf{(SEAS)}$ optimization framework, which enhances security by leveraging data generated by the model itself. SEAS operates through three iterative stages: Initialization, Attack, and Adversarial Optimization, refining both the Red Team and Target models to improve robustness and safety. This framework reduces reliance on manual testing and significantly enhances the security capabilities of LLMs. Our contributions include a novel adversarial framework, a comprehensive safety dataset, and after three iterations, the Target model achieves a security level comparable to GPT-4, while the Red Team model shows a marked increase in attack success rate (ASR) against advanced models. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# SAM 2を用いたインタラクティブな3次元医用画像分割
Interactive 3D Medical Image Segmentation with SAM 2 ( http://arxiv.org/abs/2408.02635v1 ) ライセンス: Link先を確認 | Chuyun Shen, Wenhao Li, Yuhang Shi, Xiangfeng Wang, | (参考訳) インタラクティブな医用画像分割(IMIS)は, 医療専門家からの反復的なフィードバックを取り入れることで, セグメンテーションの精度を高める上で有意な可能性を秘めている。
しかし、十分な3D医療データの可用性は、ほとんどのIMIS手法の一般化と堅牢性を制限する。
SAM(Segment Anything Model)は2次元画像に有効だが、高価な半自動スライス・バイ・スライス・アノテーションを必要とする。
本稿では,ビデオで訓練した次世代のMeta SAMモデルであるSAM 2のゼロショット機能について,医用画像の3次元分割について検討する。
3D画像のシーケンシャルな2Dスライスをビデオフレームとして扱うことで、SAM 2は単一のフレームから3Dボリューム全体へのアノテーションの完全な伝達を可能にする。
本稿では,SAM2を3次元医用画像分割に活用するための実用的なパイプラインを提案し,その効率性とさらなる最適化の可能性を示す重要な知見を示す。
具体的には、BraTS2020と医療セグメンテーションのデカトロンデータセットに関する数値実験により、SAM 2はいまだに監督された方法とのギャップがあるが、特定の設定や臓器タイプとのギャップを狭め、医療専門家のアノテーション負担を著しく軽減できることを示した。
私たちのコードは、https://github.com/Chuyun-Shen/SAM_2_Medical_3Dで公開されます。
Interactive medical image segmentation (IMIS) has shown significant potential in enhancing segmentation accuracy by integrating iterative feedback from medical professionals. However, the limited availability of enough 3D medical data restricts the generalization and robustness of most IMIS methods. The Segment Anything Model (SAM), though effective for 2D images, requires expensive semi-auto slice-by-slice annotations for 3D medical images. In this paper, we explore the zero-shot capabilities of SAM 2, the next-generation Meta SAM model trained on videos, for 3D medical image segmentation. By treating sequential 2D slices of 3D images as video frames, SAM 2 can fully automatically propagate annotations from a single frame to the entire 3D volume. We propose a practical pipeline for using SAM 2 in 3D medical image segmentation and present key findings highlighting its efficiency and potential for further optimization. Concretely, numerical experiments on the BraTS2020 and the medical segmentation decathlon datasets demonstrate that SAM 2 still has a gap with supervised methods but can narrow the gap in specific settings and organ types, significantly reducing the annotation burden on medical professionals. Our code will be open-sourced and available at https://github.com/Chuyun-Shen/SAM_2_Medical_3D. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# 小言語モデルを用いたコマンドライン難読化検出
Command-line Obfuscation Detection using Small Language Models ( http://arxiv.org/abs/2408.02637v1 ) ライセンス: Link先を確認 | Vojtech Outrata, Michael Adam Polak, Martin Kopp, | (参考訳) 検出を避けるために、敵はしばしばコマンドライン難読化を使用する。
コマンドラインの難読化のテクニックはたくさんありますが、すべてオリジナルの機能に影響を与えることなく、コマンドラインの構文を変更するように設計されています。
この可変性は、ほとんどのセキュリティソリューションに対して、ひとつのパターンに対してさえ、徹底的にシグネチャを列挙するように強制する。
我々は,シグネチャの使用とは対照的に,任意の実行ログのソースに適用可能な,カスタムトレーニングされた小型トランスフォーマー言語モデルを活用する,スケーラブルなNLPベースの検出手法を実装した。
実世界テレメトリによる評価は,大学,企業,医療,金融など多種多様な環境からの高ボリュームテレメトリにおいても,高精度な検出が可能であることを示す。
本モデルにより検出された実世界のサンプルのケーススタディで実測値が得られた。
本モデルでは,難読化を利用した確立されたマルウェアのシグネチャに対する優越性を示すとともに,本モデルが検出した未確認の難読化サンプルを提示する。
To avoid detection, adversaries often use command-line obfuscation. There are numerous techniques of the command-line obfuscation, all designed to alter the command-line syntax without affecting its original functionality. This variability forces most security solutions to create an exhaustive enumeration of signatures for even a single pattern. In contrast to using signatures, we have implemented a scalable NLP-based detection method that leverages a custom-trained, small transformer language model that can be applied to any source of execution logs. The evaluation on top of real-world telemetry demonstrates that our approach yields high-precision detections even on high-volume telemetry from a diverse set of environments spanning from universities and businesses to healthcare or finance. The practical value is demonstrated in a case study of real-world samples detected by our model. We show the model's superiority to signatures on established malware known to employ obfuscation and showcase previously unseen obfuscated samples detected by our model. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# 強い相互作用を持つ格子スピンモデルのための小型マルチ閾値量子情報駆動アンザツ
Compact Multi-Threshold Quantum Information Driven Ansatz For Strongly Interactive Lattice Spin Models ( http://arxiv.org/abs/2408.02639v1 ) ライセンス: Link先を確認 | Fabio Tarocco, Davide Materia, Leonardo Ratini, Leonardo Guidoni, | (参考訳) 変分原理に基づく量子アルゴリズムは、大きな柔軟性を持つ様々な分野の応用を見出した。
しかし、回路サイズが大きくなるにつれて、変動地形が平坦になり、いわゆるバレン高原現象が引き起こされる。
これにより、コスト関数パラメータの勾配が減少するため、最適化フェーズにおける困難が増大する。
考えられる解決策の1つは、より浅い回路または適応的な ans\atze を用いることである。
本稿では,従来のQIDA(Quantum Information Driven Ansatz)アプローチをベースとした,近似量子相互情報(Quantum Mutual Information, QMI)に基づくアンザッツ構築の体系的手順を提案する。
提案手法は,QMI値に基づいて各層の量子ビット対が選択される層状アンサッツを生成し,より効率的な状態生成と最適化ルーチンを実現する。
我々はハイゼンベルクモデルハミルトンの様々な構成をベンチマークし、従来のヒューリスティックアンザッツ法と比較して基底状態エネルギー計算の精度を大幅に改善した。
その結果,Multi-QIDA法は高い精度を維持しながら計算複雑性を低減し,格子スピンモデルにおける量子シミュレーションに有望なツールであることがわかった。
Quantum algorithms based on the variational principle have found applications in diverse areas with a huge flexibility. But as the circuit size increases the variational landscapes become flattened, causing the so-called Barren plateau phenomena. This will lead to an increased difficulty in the optimization phase, due to the reduction of the cost function parameters gradient. One of the possible solutions is to employ shallower circuits or adaptive ans\"atze. We introduce a systematic procedure for ansatz building based on approximate Quantum Mutual Information (QMI) with improvement on each layer based on the previous Quantum Information Driven Ansatz (QIDA) approach. Our approach generates a layered-structured ansatz, where each layer's qubit pairs are selected based on their QMI values, resulting in more efficient state preparation and optimization routines. We benchmarked our approach on various configurations of the Heisenberg model Hamiltonian, demonstrating significant improvements in the accuracy of the ground state energy calculations compared to traditional heuristic ansatz methods. Our results show that the Multi-QIDA method reduces the computational complexity while maintaining high precision, making it a promising tool for quantum simulations in lattice spin models. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# サーバレスクラウド環境における競合関数の検出
Detection of Compromised Functions in a Serverless Cloud Environment ( http://arxiv.org/abs/2408.02641v1 ) ライセンス: Link先を確認 | Danielle Lavi, Oleg Brodt, Dudu Mimran, Yuval Elovici, Asaf Shabtai, | (参考訳) サーバレスコンピューティングは、サーバーレス関数が中心となる、新たなクラウドパラダイムである。
サーバレス環境では、ソフトウェア開発者は基盤となるランタイムインフラストラクチャを積極的に管理する必要なくアプリケーション開発に集中できるが、既存のメソッドを緩和することが難しいさまざまなセキュリティ脅威への扉を開く。
既存のセキュリティソリューションは、サーバレスインフラストラクチャの大幅な変更や、より詳細なデータの収集にサードパーティサービスに依存するため、すべてのサーバレスアーキテクチャに適用できない。
本稿では,サーバーレスアプリケーションの異常な動作を検出するために,クラウドプロバイダのネイティブ監視ツールを活用する,拡張可能なサーバレスセキュリティ脅威検出モデルを提案する。
我々のモデルは、サーバーレス機能に対する様々なタイプの攻撃に関連する爆発後の異常行動を特定することで、妥協されたサーバーレス機能を検出することを目的としており、そのため、最後の防御線である。
当社のアプローチは、特定のサーバレスアプリケーションに縛られず、脅威の種類に依存しず、モデル調整を通じて適応可能です。
モデルのパフォーマンスを評価するために、AWSクラウド環境でサーバーレスサイバーセキュリティテストベッドを開発しました。
本評価では,疑わしい誤報率を維持しながら,実装された攻撃をすべて検出できるモデルの有効性を実証する。
Serverless computing is an emerging cloud paradigm with serverless functions at its core. While serverless environments enable software developers to focus on developing applications without the need to actively manage the underlying runtime infrastructure, they open the door to a wide variety of security threats that can be challenging to mitigate with existing methods. Existing security solutions do not apply to all serverless architectures, since they require significant modifications to the serverless infrastructure or rely on third-party services for the collection of more detailed data. In this paper, we present an extendable serverless security threat detection model that leverages cloud providers' native monitoring tools to detect anomalous behavior in serverless applications. Our model aims to detect compromised serverless functions by identifying post-exploitation abnormal behavior related to different types of attacks on serverless functions, and therefore, it is a last line of defense. Our approach is not tied to any specific serverless application, is agnostic to the type of threats, and is adaptable through model adjustments. To evaluate our model's performance, we developed a serverless cybersecurity testbed in an AWS cloud environment, which includes two different serverless applications and simulates a variety of attack scenarios that cover the main security threats faced by serverless functions. Our evaluation demonstrates our model's ability to detect all implemented attacks while maintaining a negligible false alarm rate. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# 強化学習は大規模言語モデルで隠れた危険を解き放つことができるか?
Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? ( http://arxiv.org/abs/2408.02651v1 ) ライセンス: Link先を確認 | Mohammad Bahrami Karkevandi, Nishant Vishwamitra, Peyman Najafirad, | (参考訳) 大きな言語モデル(LLM)は、自然言語のタスクにおいて印象的な能力を示してきたが、インターネットテキストコーパスでのトレーニングのため、その安全性とモラルは相変わらず論争的である。
これらの課題に対処するため,LLMの一般ユーザビリティと安全性を向上させるためにアライメント技術が開発されている。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵のトリガを通したアライメントを逆転させる概念について検討する。
ソフト埋め込みプロンプト、手作業によるプロンプト、勾配に基づく自動プロンプトといった従来の手法は、モデルアクセスの要求や手作業によるプロンプトの低さのためにブラックボックスモデルでは限定的な成功を収めており、ブロックされる可能性がある。
本稿では,ターゲットモデルと小さなサロゲートモデルへの推論APIアクセスのみを必要としながら,敵のトリガを最適化するために強化学習を用いた新しいアプローチを提案する。
提案手法はBERTScoreに基づく報酬関数を利用して,新たなブラックボックスモデル上での逆トリガの転送性と有効性を向上させる。
提案手法は,未検証の言語モデル上での逆トリガの性能向上を実証する。
Large Language Models (LLMs) have demonstrated impressive capabilities in natural language tasks, but their safety and morality remain contentious due to their training on internet text corpora. To address these concerns, alignment techniques have been developed to improve the public usability and safety of LLMs. Yet, the potential for generating harmful content through these models seems to persist. This paper explores the concept of jailbreaking LLMs-reversing their alignment through adversarial triggers. Previous methods, such as soft embedding prompts, manually crafted prompts, and gradient-based automatic prompts, have had limited success on black-box models due to their requirements for model access and for producing a low variety of manually crafted prompts, making them susceptible to being blocked. This paper introduces a novel approach using reinforcement learning to optimize adversarial triggers, requiring only inference API access to the target model and a small surrogate model. Our method, which leverages a BERTScore-based reward function, enhances the transferability and effectiveness of adversarial triggers on new black-box models. We demonstrate that this approach improves the performance of adversarial triggers on a previously untested language model. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# モデル重み初期化のための機械学習における擬似乱数列の利用について
On Using Quasirandom Sequences in Machine Learning for Model Weight Initialization ( http://arxiv.org/abs/2408.02654v1 ) ライセンス: Link先を確認 | Andriy Miranskyy, Adam Sorrenti, Viral Thakar, | (参考訳) ニューラルネットワークのトレーニングの有効性は、機械学習アプリケーションにおける計算コスト、リソース割り当て、モデル開発タイムラインに直接影響を与える。
モデルの適切な訓練(訓練されたモデル性能の観点から)を行うオプティマイザの能力は、モデルの初期重みに依存する。
モデルウェイト初期化スキームはランダム性の源として擬似乱数生成器(PRNG)を用いる。
本研究では,低分解能準ランダム数生成器 (QRNG) のPRNGを初期化器のランダム性源として置換することで,モデル性能が向上するかどうかを考察する。
我々は、MNIST、CIFAR-10、IMDBデータセットをSGDとAdamオプティマイザを用いてトレーニングしたマルチ層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、およびTransformerアーキテクチャについて検討した。
我々の分析では、Grorot, He, Lecun (Uniform and Normal)、Orthogonal, Random Normal, Truncated Normal, Random Uniformの10種類の初期化スキームを用いている。
PRNGおよびQRNGベースの初期化器を用いて設定した重み付きモデルは、データセット、アーキテクチャ、オプティマイザ、初期化スキームの各組み合わせに対してペアワイズに比較される。
以上の結果から,QRNGをベースとしたニューラルネットワーク初期化器は,120実験の60%において,PRNGをベースとした初期化器よりも高い精度を達成するか,同じ精度を達成するかのどちらかが示唆された。
したがって、PRNGベースのイニシャライザの代わりにQRNGベースのイニシャライザを使用することで、モデルトレーニングの高速化と改善が可能になる。
The effectiveness of training neural networks directly impacts computational costs, resource allocation, and model development timelines in machine learning applications. An optimizer's ability to train the model adequately (in terms of trained model performance) depends on the model's initial weights. Model weight initialization schemes use pseudorandom number generators (PRNGs) as a source of randomness. We investigate whether substituting PRNGs for low-discrepancy quasirandom number generators (QRNGs) -- namely Sobol' sequences -- as a source of randomness for initializers can improve model performance. We examine Multi-Layer Perceptrons (MLP), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM), and Transformer architectures trained on MNIST, CIFAR-10, and IMDB datasets using SGD and Adam optimizers. Our analysis uses ten initialization schemes: Glorot, He, Lecun (both Uniform and Normal); Orthogonal, Random Normal, Truncated Normal, and Random Uniform. Models with weights set using PRNG- and QRNG-based initializers are compared pairwise for each combination of dataset, architecture, optimizer, and initialization scheme. Our findings indicate that QRNG-based neural network initializers either reach a higher accuracy or achieve the same accuracy more quickly than PRNG-based initializers in 60% of the 120 experiments conducted. Thus, using QRNG-based initializers instead of PRNG-based initializers can speed up and improve model training. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# Lumina-mGPT:多モード生成事前学習によるフレキシブルなフォトリアリスティックテキスト・画像生成
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining ( http://arxiv.org/abs/2408.02657v1 ) ライセンス: Link先を確認 | Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao, | (参考訳) 本稿では,多目的自己回帰モデルであるLumina-mGPTについて述べる。
既存の自己回帰画像生成アプローチとは異なり、Lumina-mGPTは、マルチモーダルトークンシーケンスをモデル化するための統一フレームワークとして、事前訓練されたデコーダのみの変換器を使用している。
我々のキーとなる洞察は、多モード生成前処理(mGPT)を備えた単純なデコーダのみの変換器で、大規模なインターリーブされたテキスト画像列の次トーケン予測目標を利用して、広範かつ汎用的なマルチモーダル能力を学習し、フォトリアリスティックなテキスト画像生成を照らし出すことができることである。
これらの事前訓練されたモデルに基づいて、高品質な画像テキストペア上でのフレキシブルプログレッシブ・スーパービジョン・ファインタニング(FP-SFT)を提案する。
さらに,Ominiponent Supervised Finetuning (Omni-SFT)を導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
結果として得られたモデルは、フレキシブルテキスト・ツー・イメージ生成や制御可能な生成のような視覚生成タスク、セグメンテーションや深さ推定のような視覚認識タスク、マルチターン視覚質問応答のような視覚言語タスクなど、多目的なマルチモーダル機能を示す。
さらに,拡散法と自己回帰法の違いと類似性を直接比較して解析する。
We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# 自己学習評価装置
Self-Taught Evaluators ( http://arxiv.org/abs/2408.02666v1 ) ライセンス: Link先を確認 | Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li, | (参考訳) モデルに基づく評価は、モデル開発の成功の中心であり、トレーニングの報酬モデルとして、そして人間の評価の代替としてである。
このような評価器を訓練するには、モデル応答に対する人間の嗜好判断を大量に集めることが標準的手法であり、コストがかかり、モデルの改善に伴ってデータが不安定になる。
本研究では,人間のアノテーションを使わずに,合成学習データのみを用いて評価者を即時評価する手法を提案する。
ラベル付けされていない命令から、反復的自己改善スキームは対照的なモデル出力を生成し、LLM-as-a-Judgeを訓練し、推論トレースと最終判断を生成し、改良された予測を用いて各新しいイテレーションでこのトレーニングを繰り返す。
ラベル付き選好データがないと、RewardBench上で強力なLLM(Llama3-70B-Instruct)を75.4から88.3(多数決で88.7)に改善できます。
これは GPT-4 などの LLM の審査員よりも優れており、ラベル付き例で訓練された最高の報酬モデルの性能と一致している。
Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# Latent-INR: 差別的意味論を伴う映像の表現を含まないフレキシブルなフレームワーク
Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics ( http://arxiv.org/abs/2408.02672v1 ) ライセンス: Link先を確認 | Shishira R Maiya, Anubhav Gupta, Matthew Gwilliam, Max Ehrlich, Abhinav Shrivastava, | (参考訳) Implicit Neural Networks(INR)は、画像、ビデオ、オーディオ、シーンなど、あらゆる形式のデータをエンコードする強力な表現として登場した。
ビデオでは圧縮作業のために多くのINRが提案されており、近年の手法では符号化時間、記憶量、復元品質が大幅に改善されている。
しかし、これらの符号化された表現には意味的な意味がないため、検索のようなそのような特性を必要とする下流のタスクには使用できない。
これは従来のコーデックよりもビデオINRを採用する上での障壁となり得る。
これを軽減するために,ビデオINRの空間的側面と時間的側面を分離するフレキシブルなフレームワークを提案する。
我々は、フレームごとのラテントの辞書でこれを達成し、ビデオ固有のハイパーネットワークのセットと共同で学習し、ラテントが与えられた場合、これらのハイパーネットワークは、与えられたフレームを再構築するためにINR重みを予測できる。
このフレームワークは圧縮効率を保持するだけでなく、学習した潜伏者は大きな視覚モデルの特徴と整合し、識別特性を付与する。
これらの潜伏者をCLIPと整合させ、圧縮タスクとビデオ検索タスクの両方に優れた性能を示す。
VideoLlamaと連携することで、学習した潜伏者とのオープンなチャットを視覚的な入力として行うことができます。
さらに、学習した潜伏者は、基盤となる重みのプロキシとして機能し、ビデオ補間のようなタスクを実行できます。
これらの意味的性質と応用は、圧縮、補間、超解像特性を実行する能力と同時に存在し、この分野における最初のものである。
Implicit Neural Networks (INRs) have emerged as powerful representations to encode all forms of data, including images, videos, audios, and scenes. With video, many INRs for video have been proposed for the compression task, and recent methods feature significant improvements with respect to encoding time, storage, and reconstruction quality. However, these encoded representations lack semantic meaning, so they cannot be used for any downstream tasks that require such properties, such as retrieval. This can act as a barrier for adoption of video INRs over traditional codecs as they do not offer any significant edge apart from compression. To alleviate this, we propose a flexible framework that decouples the spatial and temporal aspects of the video INR. We accomplish this with a dictionary of per-frame latents that are learned jointly with a set of video specific hypernetworks, such that given a latent, these hypernetworks can predict the INR weights to reconstruct the given frame. This framework not only retains the compression efficiency, but the learned latents can be aligned with features from large vision models, which grants them discriminative properties. We align these latents with CLIP and show good performance for both compression and video retrieval tasks. By aligning with VideoLlama, we are able to perform open-ended chat with our learned latents as the visual inputs. Additionally, the learned latents serve as a proxy for the underlying weights, allowing us perform tasks like video interpolation. These semantic properties and applications, existing simultaneously with ability to perform compression, interpolation, and superresolution properties, are a first in this field of work. | 翻訳日:2024-08-06 12:56:48 公開日:2024-08-05 |
# LNGSにおけるゲータを用いたパウリ排他原理違反の探索
Search for Pauli Exclusion Principle Violations with Gator at LNGS ( http://arxiv.org/abs/2408.02500v1 ) ライセンス: Link先を確認 | L. Baudis, R. Biondi, A. Bismark, A. Clozza, C. Curceanu, M. Galloway, F. Napolitano, F. Piastra, K. Piscicchia, A. Porcelli, D. Ramírez García, | (参考訳) パウリ排他原理(英: Pauli Exclusion Principle、PEP)は、量子論の基本的な対称性から現れるが、その物理的起源はまだ理解されていない。
小型のPEP違反に対する高精度な実験的探索により、高感度で標準モデルの重要な仮定をテストすることができる。
グラナナリ・デル・グラン・サッソ研究所で運用されている低背景高純度ゲルマニウム検出器であるゲーターによる専用の測定について報告する。
実験手法は、直接電流を通して既存の電子系に電子を導入することによって新しい対称性状態を形成することに依存し、メシア・グリーンバーグ超選択則の条件を満たす。
PEP違反は観測されておらず、PEP違反確率の上限は$\beta^2/2 <4.8 \cdot 10^{-29}$ (90% CL)である。
これにより、以前の制約を同等の測定値から1桁以上改善する。
The Pauli Exclusion Principle (PEP) appears from fundamental symmetries in quantum field theories, but its physical origin is still to be understood. High-precision experimental searches for small PEP violations permit testing key assumptions of the Standard Model with high sensitivity. We report on a dedicated measurement with Gator, a low-background, high-purity germanium detector operated at the Laboratori Nazionali del Gran Sasso, aimed at testing PEP-violating atomic transitions in lead. The experimental technique, relying on forming a new symmetry state by introducing electrons into the pre-existing electron system through a direct current, satisfies the conditions of the Messiah-Greenberg superselection rule. No PEP violation has been observed, and an upper limit on the PEP violation probability of $\beta^2/2 < 4.8 \cdot 10^{-29}$ (90% CL) is set. This improves the previous constraint from a comparable measurement by more than one order of magnitude. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# Stem-JEPA:音楽のステム適合性推定のための統合組込み予測アーキテクチャ
Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation ( http://arxiv.org/abs/2408.02514v1 ) ライセンス: Link先を確認 | Alain Riou, Stefan Lattner, Gaëtan Hadjeres, Michael Anslow, Geoffroy Peeters, | (参考訳) 本稿では,特定の音環境とうまく融合した単一楽器の音声録音を同定することにより,音質の相違を自動判定する方法について検討する。
この課題に対処するために、自己教師型学習アプローチを用いてマルチトラックデータセットでトレーニングされた、新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介した。
我々のモデルは2つのネットワークから構成される:エンコーダと予測器は、与えられた文脈の埋め込み(典型的には複数の楽器の混合)から互換性のある茎の埋め込みを予測するために共同で訓練される。
トレーニングパラダイムでは、モデルが音色、調和、リズムに関連する情報を学ぶ必要があるため、この方法でモデルをトレーニングすることで、幹細胞の互換性を推定する — 特定のミックスにマッチする茎を検索、整列、あるいは生成する — あるいはジャンルや鍵推定といった下流タスクに使用することができる。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングと主観的ユーザスタディを通して、欠落した茎を見つける能力をテストする。
また、学習した埋め込みが時間的アライメント情報をキャプチャし、最後に、我々のモデルが学習した表現を複数の下流タスクで評価し、意味のある音楽的特徴を効果的に捉えていることを示す。
This paper explores the automated process of determining stem compatibility by identifying audio recordings of single instruments that blend well with a given musical context. To tackle this challenge, we present Stem-JEPA, a novel Joint-Embedding Predictive Architecture (JEPA) trained on a multi-track dataset using a self-supervised learning approach. Our model comprises two networks: an encoder and a predictor, which are jointly trained to predict the embeddings of compatible stems from the embeddings of a given context, typically a mix of several instruments. Training a model in this manner allows its use in estimating stem compatibility - retrieving, aligning, or generating a stem to match a given mix - or for downstream tasks such as genre or key estimation, as the training paradigm requires the model to learn information related to timbre, harmony, and rhythm. We evaluate our model's performance on a retrieval task on the MUSDB18 dataset, testing its ability to find the missing stem from a mix and through a subjective user study. We also show that the learned embeddings capture temporal alignment information and, finally, evaluate the representations learned by our model on several downstream tasks, highlighting that they effectively capture meaningful musical features. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 貯留層に結合したスピンの準古典限界
Quasi-classical Limit of a Spin Coupled to a Reservoir ( http://arxiv.org/abs/2408.02515v1 ) ライセンス: Link先を確認 | Michele Correggi, Marco Falconi, Michele Fantechi, Marco Merkli, | (参考訳) スピン(量子ビット)はボソニック貯水池と接触する。
貯水池の状態は、量子と古典的な貯水池の特徴を補間するパラメータ {\varepsilon} を含む。
我々は、時間依存性の減少するスピン密度行列に対する明示的な式を導出し、全ての値 {\varepsilon} とエネルギー保存相互作用に対して有効である。
我々はデコヒーレンスとマルコビアン性について研究する。
我々の主な発見は、スピンのデコヒーレンスが古典的な貯水池状態と結合すると(完全脱コヒーレンス)、スピンが量子貯水池状態に結合すると(部分脱コヒーレンス)、スピンのデコヒーレンスが強化されることである。
マルコビアン性の性質は古典性パラメータ {\varepsilon} とスピン-貯水池相互作用のより細かい詳細に依存する。
さらに,エネルギー交換相互作用における散乱特性と周期性について検討した。
A spin (qubit) is in contact with a bosonic reservoir. The state of the reservoir contains a parameter {\varepsilon} interpolating between quantum and classical reservoir features. We derive the explicit expression for the time-dependent reduced spin density matrix, valid for all values of {\varepsilon} and for energy conserving interactions. We study decoherence and markovianity properties. Our main finding is that the spin decoherence is enhanced (full decoherence) when the spin is coupled to quantum reservoir states while it is dampened (partial decoherence) when coupled to classical reservoir states. The markovianity properties depend in a subtle way on the classicality parameter {\varepsilon} and on the finer details of the spin-reservoir interaction. We further examine scattering and periodicity properties for energy exchange interactions. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 侵入検知データセットの総合的・連続的・共同調査の導入
Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets ( http://arxiv.org/abs/2408.02521v1 ) ライセンス: Link先を確認 | Philipp Bönninghausen, Rafael Uetz, Martin Henze, | (参考訳) 非常に活発な侵入検出の分野の研究者は、実験的な評価のために、公開データセットに大きく依存している。
しかし、多くの既存のデータセット、それ以前の未知の欠陥の発見、新しいデータセットの頻繁な公開により、適切な選択肢を選択し、それぞれの制限を十分に理解することは困難である。
したがって, 実験結果から, 実世界における新しい手法の検出性能について, 無効な結論を導出する大きなリスクがある。
侵入検知データセットに関する様々な調査があるが、包括性、行動可能な詳細、最新性を欠いているため、研究者に深い意思決定基盤を提供するには不足がある。
本稿では,公開GitHubリポジトリが支援するWebサイトとして実装した,前例のないレベルの詳細で侵入検出データセットを包括的に調査する,COMIDDSを提案する。
COMIDDSを使うことで、研究者は要求に応じて適切なデータセットを素早く特定し、実際のデータサンプルや関連する出版物へのリンクを含む、各データセットについて構造化され重要な情報を提供する。
COMIDDSは自由にアクセスでき、定期的に更新され、コントリビューションが可能である。
Researchers in the highly active field of intrusion detection largely rely on public datasets for their experimental evaluations. However, the large number of existing datasets, the discovery of previously unknown flaws therein, and the frequent publication of new datasets make it hard to select suitable options and sufficiently understand their respective limitations. Hence, there is a great risk of drawing invalid conclusions from experimental results with respect to detection performance of novel methods in the real world. While there exist various surveys on intrusion detection datasets, they have deficiencies in providing researchers with a profound decision basis since they lack comprehensiveness, actionable details, and up-to-dateness. In this paper, we present COMIDDS, an ongoing effort to comprehensively survey intrusion detection datasets with an unprecedented level of detail, implemented as a website backed by a public GitHub repository. COMIDDS allows researchers to quickly identify suitable datasets depending on their requirements and provides structured and critical information on each dataset, including actual data samples and links to relevant publications. COMIDDS is freely accessible, regularly updated, and open to contributions. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# テラヘルツ量子イメージング
Terahertz Quantum Imaging ( http://arxiv.org/abs/2408.02531v1 ) ライセンス: Link先を確認 | Mirco Kutas, Felix Riexinger, Jens Klier, Daniel Molter, Georg von Freymann, | (参考訳) 未検出光子による量子イメージングは、物理的興味のあるあるスペクトル領域から検出し易い別のスペクトル領域へ振幅と位相情報を空間的に伝達する。
2つのスペクトル領域の光子エネルギーは、原理的には数桁のオーダーで分離することができる。
しかし、検出されていない光子による量子イメージングは、周波数の同じ桁のスペクトル領域(そしてカメラが商業的に利用可能である)でしか実証されていない。
ここでは,可視光子(中心波長62.2nm,452.7Hz中心周波数)のみを検出することで,テラヘルツスペクトル領域(1.5 THz中心周波数)の振幅・位相感度画像を示す。
その結果、テラヘルツスペクトル情報は標準CMOSカメラで冷却することなく確実に検出でき、波長に近い空間分解能が得られる。
非線形干渉計における量子蒸留を利用して、ユビキタス熱テラヘルツ光子の影響を無視することができる。
本研究は, 撮像過程の数値シミュレーションとよく一致し, カメラが存在しないスペクトル領域に対処する上で, この手法の潜在的可能性を示すものである。
Quantum imaging with undetected photons spatially transfers amplitude and phase information from one spectral region of physical interest to another spectral region that is easy to detect. The photon energy of the two spectral regions can, in principle, be separated by several orders of magnitude. However, quantum imaging with undetected photons has so far only been demonstrated in spectral regions of similar order of magnitude in frequency (and for which cameras are commercially available). Here, we demonstrate amplitude- and phase-sensitive imaging in the terahertz spectral region (1.5 THz center frequency) by detecting only visible photons (center wavelength 662.2 nm, 452.7 THz center frequency) more than two orders of magnitude apart. As a result, terahertz spectral information can be reliably detected with a standard CMOS camera without cooling, achieving a spatial resolution close to the wavelength. By taking advantage of quantum distillation in a nonlinear interferometer, the influence of ubiquitous thermal terahertz photons can be neglected. Our results are in good agreement with numerical simulations of the imaging process and demonstrate the huge potential of this method to address otherwise challenging spectral regions where cameras do not exist. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 差分制約をもつ非可換最適化問題
Non-commutative optimization problems with differential constraints ( http://arxiv.org/abs/2408.02572v1 ) ライセンス: Link先を確認 | Mateus Araújo, Andrew J. P. Garner, Miguel Navascues, | (参考訳) 非可換多項式最適化(NPO)問題(英語版)(Non-commutative polynomial optimization、NPO)は、ある作用素変数の多項式の状態平均を多項式制約の対象として、すべての状態と作用素、およびそれらを定義するヒルベルト空間を最小化する。
これらの問題の多くは、半定値プログラミング(SDP)緩和の完全な階層を持つことが知られている。
NPO理論は量子情報理論、量子化学、統計物理学に応用されている。
本研究では、作用素変数のサブセットが通常の微分方程式の系を満たすようなNPO問題の変種を考える。
作用素有界性の穏やかな条件下では、そのようなすべての問題に対して、同じ解で標準 NPO 問題を構築することができる。
これにより、元の微分問題に取り組むために、SDPの完全な階層を定義することができる。
この手法を用いて、半デバイス非依存の方法で量子時系列を外挿し、多体量子系におけるハミルトン時間進化をモデル化する方法をスケッチする。
Non-commutative polynomial optimization (NPO) problems seek to minimize the state average of a polynomial of some operator variables, subject to polynomial constraints, over all states and operators, as well as the Hilbert spaces where those might be defined. Many of these problems are known to admit a complete hierarchy of semidefinite programming (SDP) relaxations. NPO theory has found application in quantum information theory, quantum chemistry and statistical physics. In this work, we consider a variant of NPO problems where a subset of the operator variables satisfies a system of ordinary differential equations. We find that, under mild conditions of operator boundedness, for every such problem one can construct a standard NPO problem with the same solution. This allows us to define a complete hierarchy of SDPs to tackle the original differential problem. We apply this method to extrapolate quantum time series in a semi-device-independent way and sketch how one can use it to model Hamiltonian time evolution in many-body quantum systems. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 異常検出を伴う分光モデルの動作範囲境界
Operational range bounding of spectroscopy models with anomaly detection ( http://arxiv.org/abs/2408.02581v1 ) ライセンス: Link先を確認 | Luís F. Simões, Pierluigi Casale, Marília Felismino, Kai Hou Yip, Ingo P. Waldmann, Giovanna Tinetti, Theresa Lueftinger, | (参考訳) 機械学習モデルの安全な操作には、運用範囲を明示的に切り離すアーキテクチャが必要である。
劣化モデルの性能と相関する指標を提供するための異常検出アルゴリズムの有効性を評価する。
このような指標に受け入れしきい値を置くことで、モデルのカバレッジを定義するハードバウンダリが形成される。
ユースケースとして、我々はトランジット光曲線から太陽系外惑星のスペクトルを抽出すること、特にESAの今後のアリエルミッションの文脈で検討する。
孤立林は、予測モデルが失敗する可能性のあるコンテキストを効果的に識別する。
カバレッジ/エラートレードオフは、データとコンセプトドリフトの条件下で評価される。
最高のパフォーマンスは、予測モデルの説明可能性 SHAP 値の予測を分離森林モデルがモデル化した時に見ることができる。
Safe operation of machine learning models requires architectures that explicitly delimit their operational ranges. We evaluate the ability of anomaly detection algorithms to provide indicators correlated with degraded model performance. By placing acceptance thresholds over such indicators, hard boundaries are formed that define the model's coverage. As a use case, we consider the extraction of exoplanetary spectra from transit light curves, specifically within the context of ESA's upcoming Ariel mission. Isolation Forests are shown to effectively identify contexts where prediction models are likely to fail. Coverage/error trade-offs are evaluated under conditions of data and concept drift. The best performance is seen when Isolation Forests model projections of the prediction model's explainability SHAP values. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 包括的かつ公平な音声認識のためのクラスタリングとマイニング
Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition ( http://arxiv.org/abs/2408.02582v1 ) ライセンス: Link先を確認 | Jaeyoung Kim, Han Lu, Soheil Khorram, Anshuman Tripathi, Qian Zhang, Hasim Sak, | (参考訳) 現代の自動音声認識(ASR)システムは、典型的には数万時間以上の音声データに基づいて訓練されている。
しかし、そのようなデータの分布は通常、一般的なアクセントや典型的な音声パターンに偏っている。
結果として、これらのシステムは非典型的アクセント音声ではあまり機能しないことが多い。
本稿では,アクセントクラスタリングとマイニング方式を提案する。
アクセント認識には,教師付きあるいは教師なし事前学習,分散ロバスト最適化(DRO),教師なしクラスタリングという,教師付きアクセントデータの限られたサイズを克服するために3つのスキームを適用した。
3つのスキームはアクセント認識モデルを大幅に改善することができる。
教師付きクラスタリング方式と教師なしクラスタリング方式を併用したインドアクセント音声の微調整ASRでは,ランダムサンプリング音声の微調整に比べて10.0%と5.3%の相対的な改善が見られた。
Modern automatic speech recognition (ASR) systems are typically trained on more than tens of thousands hours of speech data, which is one of the main factors for their great success. However, the distribution of such data is typically biased towards common accents or typical speech patterns. As a result, those systems often poorly perform on atypical accented speech. In this paper, we present accent clustering and mining schemes for fair speech recognition systems which can perform equally well on under-represented accented speech. For accent recognition, we applied three schemes to overcome limited size of supervised accent data: supervised or unsupervised pre-training, distributionally robust optimization (DRO) and unsupervised clustering. Three schemes can significantly improve the accent recognition model especially for unbalanced and small accented speech. Fine-tuning ASR on the mined Indian accent speech using the proposed supervised or unsupervised clustering schemes showed 10.0% and 5.3% relative improvements compared to fine-tuning on the randomly sampled speech, respectively. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 準周期スピン鎖における多体局在交叉のシャープ化
Many-body localization crossover is sharper in quasiperiodic spin chains ( http://arxiv.org/abs/2408.02590v1 ) ライセンス: Link先を確認 | Pedro R. Nicácio Falcão, Adith Sai Aramthottil, Piotr Sierant, Jakub Zakrzewski, | (参考訳) 多体局在(MBL)現象のため、強い障害は量子多体系の熱化を著しく遅らせるか、あるいは完全に阻害する可能性がある。
十分に深い準周期ポテンシャルは、熱化を阻害する可能性がある。
本研究では,MBLクロスオーバーにおける標準エルゴディディティ破壊指標の挙動に,ランダムおよび準周期系で直接的差異を数値的に示す。
我々の重要な発見は、準周期系のシステムサイズとMBLクロスオーバーのシャープさが指数関数的に増加することである。
準周期系における非解析的挙動に対する強い傾向は、鋭く定義された境界を持つ動的状態やMBL相転移の存在と一致している。
これは、多体力学の理解における準周期系の重要性を強調している。
Due to a phenomenon of many-body localization (MBL), the strong disorder may significantly slow down or even completely hinder the thermalization of quantum many-body systems. A sufficiently deep quasiperiodic potential may also inhibit thermalization. In this work, we numerically demonstrate direct differences in the behavior of standard ergodicity-breaking indicators at the MBL crossover in random and quasiperiodic systems. Our key finding is the exponential increase in the sharpness of the MBL crossover with system size for quasiperiodic systems, a trend that is only linear in disordered systems. The strong tendency towards a non-analytic behavior in quasiperiodic systems is consistent with the existence of dynamical regimes with sharply defined boundaries or an MBL phase transition. It highlights the importance of quasiperiodic systems for our understanding of many-body dynamics. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 二色光ツイーザーに閉じ込められた2つのナノ球間のクーロンカップリング
Coulomb coupling between two nanospheres trapped in a bichromatic optical tweezer ( http://arxiv.org/abs/2408.02597v1 ) ライセンス: Link先を確認 | Quentin Deplano, Antonio Pontin, Andrea Ranfagni, Francesco Marino, Francesco Marin, | (参考訳) 浮上した光力学は多粒子状態に入り、複雑な相互作用する量子系を探索するために強く結合した巨大発振器のアレイを使用する方法を確立している。
ここでは、異なる波長(1064 nmおよび976 nm)で動作する2つの共プロパゲーションレーザーによって生成される双対光ツイーザ内の2つのナノスフィアのトラップを実証する。
ツイーザー光学の色収差により、2つの焦点が約9ミクロン離れており、それぞれがシリカナノ粒子の光学トラップとして機能する。
この距離で、ナノスフィアの表面電荷は、ツイーザー軸に沿って動きを結合するクーロン力を生成する。
観測された通常のモード周波数の交叉が避けられ、強い結合状態が達成される。
これらの結果は、古典的および量子状態の両方において、光学キャビティの実装を含む、強く結合した発振器のシステムに関する将来の研究計画の可能性を浮き彫りにしている。
Levitated optomechanics is entering the multiparticle regime, paving the way for the use of arrays of strongly coupled massive oscillators to explore complex interacting quantum systems. Here, we demonstrate the trapping of two nanospheres inside a dual optical tweezer generated by two copropagating lasers operating at different wavelengths (1064 nm and 976 nm). Due to the chromatic aberration of the tweezer optics, two focal points are created approximately 9 microns apart, each one acting as an optical trap for a silica nanoparticle. At this distance, the surface charges on the nanospheres produce a Coulomb force that couples their motion along the tweezer axis. The strong coupling regime is achieved, as evidenced by the observed avoided crossing of the normal-mode frequencies. These results highlight the potential of our experimental scheme for future studies on systems of strongly coupled oscillators, including their implementation in optical cavities, both in the classical and in quantum regime. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 速度測定データによる非ニュートン流体のレオロジーパラメータの学習
Learning rheological parameters of non-Newtonian fluids from velocimetry data ( http://arxiv.org/abs/2408.02604v1 ) ライセンス: Link先を確認 | Alexandros Kontogiannis, Richard Hodgkinson, Emily L. Manchester, | (参考訳) 我々は、フローフィールドを共同で再構築し、未知のN-Sパラメータを学習するために、ベロシメトリデータを同化するベイズ逆ナビエ・ストークス(N-S)問題を解く。
N-S問題にカラオウせん断粘度モデルを組み込むことにより, せん断酸化流体の最も可能性の高いカレオパラメータを学習し, 速度測定データのみから不確かさを推定するアルゴリズムを考案する。
次に、血液アナログ流体の理想化医療装置(FDAノズル)を用いて、フローMRI実験を行い、軸対称ラミナージェットの速度測定データを得る。
このアルゴリズムは,最も可能性の高いCarreauパラメータを学習することにより,流れ場の再構築に成功し,学習パラメータがレオメトリー測定と非常によく一致していることを示す。
このアルゴリズムは、モデルが微分可能であれば任意の代数的有効粘性モデルを受け入れ、N-S問題に粘弾性モデルが組み込まれている場合、より複雑なニュートン流体(例えばオールドロイド-B流体)に拡張することができる。
We solve a Bayesian inverse Navier-Stokes (N-S) problem that assimilates velocimetry data in order to jointly reconstruct the flow field and learn the unknown N-S parameters. By incorporating a Carreau shear-thinning viscosity model into the N-S problem, we devise an algorithm that learns the most likely Carreau parameters of a shear-thinning fluid, and estimates their uncertainties, from velocimetry data alone. We then conduct a flow-MRI experiment to obtain velocimetry data of an axisymmetric laminar jet through an idealised medical device (FDA nozzle) for a blood analogue fluid. We show that the algorithm can successfully reconstruct the flow field by learning the most likely Carreau parameters, and that the learned parameters are in very good agreement with rheometry measurements. The algorithm accepts any algebraic effective viscosity model, as long as the model is differentiable, and it can be extended to more complicated non-Newtonian fluids (e.g. Oldroyd-B fluid) if a viscoelastic model is incorporated into the N-S problem. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 述語の再定義による後方説明
Backward explanations via redefinition of predicates ( http://arxiv.org/abs/2408.02606v1 ) ライセンス: Link先を確認 | Léo Saulières, Martin C. Cooper, Florence Dupin de Saint Cyr, | (参考訳) 述語(HXP)に基づく歴史eXplanationは、任意の述語のプリズムを通して、エージェントと環境(歴史)との相互作用のシーケンスにおける強化学習(RL)エージェントの挙動を研究する。
この目的のために、履歴中の各アクションに対してアクション重要度スコアが算出される。
その説明は、ユーザに最も重要なアクションを表示することである。
アクションの重要性の計算は#W[1]-hardであるため、その品質を犠牲にしてスコアを近似するには長い歴史が必要である。
そこで我々は,これらの履歴について,スコアを近似せずに説明するための新しいHXP法であるbackward-HXPを提案する。
実験は、B-HXPが長い歴史を要約する能力を示している。
History eXplanation based on Predicates (HXP), studies the behavior of a Reinforcement Learning (RL) agent in a sequence of agent's interactions with the environment (a history), through the prism of an arbitrary predicate. To this end, an action importance score is computed for each action in the history. The explanation consists in displaying the most important actions to the user. As the calculation of an action's importance is #W[1]-hard, it is necessary for long histories to approximate the scores, at the expense of their quality. We therefore propose a new HXP method, called Backward-HXP, to provide explanations for these histories without having to approximate scores. Experiments show the ability of B-HXP to summarise long histories. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 反射境界近傍の単一流体空洞からの超放射性液滴放出
Superradiant droplet emission from a single hydrodynamic cavity near a reflective boundary ( http://arxiv.org/abs/2408.02620v1 ) ライセンス: Link先を確認 | Konstantinos Papatryfonos, Jemma W. Schroder, Valeri Frumkin, | (参考訳) 水中キャビティを用いた薄い振動流体からの液滴放出の操作の最近の進歩は、量子および光学系の動的アナログを生成する革新的なプラットフォームを導入している。
このプラットフォームは、従来のパイロット波動力学では見つからないユニークな特徴を解き放ち、量子アナログとしての可能性と限界を完全に解き放つために、様々な物理的設定を探索する。
本研究では,最近報告された流体力学超放射能現象が,単一の流体力学キャビティを用いて水中反射障壁と相互作用する際の影響について検討した。
実験結果から,キャビティ近傍のバリアの存在は,2番目のキャビティが距離の2倍の位置にある場合の影響をエミュレートして,液滴放出率を高めることが明らかとなった。
さらに、光学系で観測される特性超放射特性を反映して、キャビティとミラー画像間の距離の関数として、発光率の正弦波変調を示す。
これらの知見は、流体力学量子アナログにおける波動-粒子双対性の理解を広げ、マクロシステムにおける量子挙動を複製するための新しい経路を提案する。
Recent advances in manipulating droplet emissions from a thin vibrating fluid using submerged cavities, have introduced an innovative platform for generating hydrodynamic analogs of quantum and optical systems. This platform unlocks unique features not found in traditional pilot-wave hydrodynamics, inviting further exploration across varied physical settings to fully unravel its potential and limitations as a quantum analog. In this study, we explore how the recently reported phenomenon of hydrodynamic superradiance is affected when a single hydrodynamic cavity is taken to interact with a submerged reflective barrier. Our experimental findings reveal that the presence of a barrier near a cavity enhances its droplet emission rate, emulating the effect of a second cavity positioned at twice the distance. Moreover, the system exhibits a sinusoidal modulation of the emission rate as a function of the distance between the cavity and its mirror image, echoing the characteristic superradiance signature observed in optical systems. These findings broaden our understanding of wave-particle duality in hydrodynamic quantum analogs and suggest new pathways for replicating quantum behaviors in macroscopic systems. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# LiDARのための量子ターゲットランキング
Quantum Target Ranging for LiDAR ( http://arxiv.org/abs/2408.02636v1 ) ライセンス: Link先を確認 | Giuseppe Ortolano, Ivano Ruo-Berchera, | (参考訳) マルチハイポテーシステストの文脈における量子ターゲットランキングとその実世界のLiDARシステムへの適用性について検討する。
まず, 目標検出の課題に対して, 測度が比較的容易であることを示す。
次に、ほとんどのLiDARシステムの動作モードである位相非感受性測定の文脈における量子レンジの理論的境界と利点を分析する。
さらに、量子目標検出理論で使用される典型的な単モード熱雑音モデルとは対照的に、光周波数に適する背景雑音モデルを採用する。
この結果から,LiDAR 実装における量子アプローチの有効性を検証するために,幅広いパラメータにわたる単純な光子計数受信機を用いて,指数指数的量子優位性を実現することが可能であることが示唆された。
We investigate Quantum Target Ranging in the context of multi-hypothesis testing and its applicability to real-world LiDAR systems. First, we demonstrate that ranging is generally an easier task compared to the well-studied problem of target detection. We then analyze the theoretical bounds and advantages of quantum ranging in the context of phase-insensitive measurements, which is the operational mode of most LiDAR systems. Additionally, we adopt a background noise model more suited to optical frequencies, as opposed to the typical single-mode thermal noise model used in quantum target detection theory. Our findings indicate that a significant exponential quantum advantage can be achieved using simple photon-counting receivers across a broad range of parameters, thereby validating the efficacy of the quantum approach for LiDAR implementations. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 散逸性量子相転移における局所エルゴトロピーとそのゆらぎ
Local ergotropy and its fluctuations across a dissipative quantum phase transition ( http://arxiv.org/abs/2408.02655v1 ) ライセンス: Link先を確認 | G. Di Bello, D. Farina, D. Jansen, C. A. Perroni, V. Cataudella, G. De Filippis, | (参考訳) 本研究では, 局所エルゴトロピーに着目した2量子開Rabiモデルについて, ベレジンスキー-コステリッツ-Thou無散逸相転移が起こるパラメータ系内で検討する。
まず、オープンな量子電池の動作原理として解釈された2量子ビットシステムの充電、保存、放電のためのプロトコルを定義することを目的とする。
第二に, 相転移がエルゴトロピーに及ぼす影響について検討し, 潜在的なマーカーを同定する。
これらの目的を達成するために、我々は、遷移に近い基底状態の知識を活用してアドホック帯電ユニタリ演算子を構築し、記憶中にデコヒーレンスのない状態にする。
行列生成物の状態表現に基づく高度な数値計算手法を用いて,外浴への高結合は,充電直後の局所エルゴトロピーの約2倍であることを明らかにした。
時間とともに、エルゴトロピーとその変動の振動挙動を観察し、遷移の近くで大きな変化を経験し、その発生を示唆する。
さらに、局所エルゴトロピーを物理的にインスパイアされたアンザッツを用いて時間とともに最適化し、連続的な作業抽出を可能にする(局所エルゴトロピーはゼロには達しない)。
本研究は, 脱コヒーレンスのない状態と相転移を利用した, 作業抽出のための可変かつ実験的に実現可能なプロトコルを提案する。
さらに、エルゴトロピーと量子相転移の間の複雑な相互作用に光を当てる。
We investigate a two-qubit open Rabi model, focusing on local ergotropy - the maximum extractable work by acting solely on the two qubits - within a parameter regime where a Berezinskii-Kosterlitz-Thouless dissipative phase transition occurs. First, we aim to define a protocol for charging, storing, and discharging the two-qubit system, interpreted as the working principle of an open quantum battery. Second, we examine the impact of the phase transition on ergotropy and identify potential markers. To achieve these goals, we construct an ad-hoc charging unitary operator, leveraging our knowledge of the ground state near the transition to bring it into a decoherence-free state during storage. Using advanced numerical techniques based on matrix product state representation, we reveal that high couplings to an external bath approximately double the local ergotropy immediately post-charging. Over time we observe oscillatory behaviors in ergotropy and its fluctuations, which undergo significant changes near the transition, signaling its occurrence. Furthermore, we optimize local ergotropy over time using a physically inspired ansatz, enabling continuous work extraction (local ergotropy never reaches zero). Our work proposes a tunable, experimentally realizable protocol for work extraction, leveraging decoherence-free states and phase transitions. Additionally, it sheds light on the complex interaction between ergotropy and quantum phase transitions. | 翻訳日:2024-08-06 12:46:43 公開日:2024-08-05 |
# 翻訳における損失:テキストと画像の拡散モデルにおける潜在概念の相違
Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2408.00230v2 ) ライセンス: Link先を確認 | Juntu Zhao, Junyu Deng, Yixin Ye, Chongxuan Li, Zhijie Deng, Dequan Wang, | (参考訳) テキストと画像の拡散モデルの進歩は、下流の実践的応用を広範囲に広げてきたが、そのようなモデルはテキストと画像のミスアライメント問題にしばしば遭遇した。
例えば「アイスコークスのティーカップ」というプロンプトが与えられた場合、既存のモデルでは、アイスコークスは通常、ティーカップの代わりにグラスカップと共起するため、アイスコークスのグラスカップが生成される。
このようなミスアライメントの根源は,テキスト・ツー・イメージ拡散モデルの潜在意味空間の混乱によるもので,それ故に「氷コークスのティーカップ」現象をラテント・コンセプト・ミスライメント(LC-Mis)と呼ぶ。
我々は大規模言語モデル(LLM)を活用してLC-Misの範囲を徹底的に調査し、拡散モデルの潜在意味をテキストプロンプトに整合させる自動パイプラインを開発する。
実験により,本手法の有効性を確認し,LC-Mis誤差を大幅に低減し,テキスト・画像拡散モデルの堅牢性と汎用性を向上させる。
コードとデータセットは以下の通りである。
Advancements in text-to-image diffusion models have broadened extensive downstream practical applications, but such models often encounter misalignment issues between text and image. Taking the generation of a combination of two disentangled concepts as an example, say given the prompt "a tea cup of iced coke", existing models usually generate a glass cup of iced coke because the iced coke usually co-occurs with the glass cup instead of the tea one during model training. The root of such misalignment is attributed to the confusion in the latent semantic space of text-to-image diffusion models, and hence we refer to the "a tea cup of iced coke" phenomenon as Latent Concept Misalignment (LC-Mis). We leverage large language models (LLMs) to thoroughly investigate the scope of LC-Mis, and develop an automated pipeline for aligning the latent semantics of diffusion models to text prompts. Empirical assessments confirm the effectiveness of our approach, substantially reducing LC-Mis errors and enhancing the robustness and versatility of text-to-image diffusion models. The code and dataset are here: https://github.com/RossoneriZhao/iced_coke. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# ステインノーマライゼーションによる全スライド病基盤モデルの強化
Enhancing Whole Slide Pathology Foundation Models through Stain Normalization ( http://arxiv.org/abs/2408.00380v2 ) ライセンス: Link先を確認 | Juseung Yun, Yi Hu, Jinhyung Kim, Jongseong Jang, Soonyoung Lee, | (参考訳) 近年のデジタル病理学の発展により,ギガピクセル全スライド画像(WSI)から抽出したパッチの自己教師型学習を利用した基礎モデルが多数開発されている。
これらの自己教師型モデルから抽出された特徴は個々のWSIによってクラスタ化される傾向にあり、これはWSI固有の特徴崩壊と呼ばれる現象である。
この問題は、様々な下流タスクにおけるモデルの一般化能力と性能を制限する可能性がある。
この問題に対処するために,染色正規化を施したパッチをトレーニングした新しい基礎モデルであるStain Normalized Pathology Foundational Modelを紹介した。
Stain normalizationは、異なる研究所やスキャナーから生じる色の変化を低減し、モデルがより一貫性のある特徴を学習できるようにする。
Stain Normalized Pathology Foundational Modelは、合計34,795個のWSIから抽出された285,153,903個のパッチを用いて、The Cancer Genome Atlas (TCGA)とGenotype-Tissue Expression (GTEx)プロジェクトからのデータを組み合わせて訓練されている。
本実験により,Stain Normalized Pathology Foundational Modelは特徴崩壊問題を著しく軽減し,個々のWSI特性に過度に適合するのではなく,より一般化した特徴を学習したことを示す。
Stain Normalized Pathology Foundational Modelを、6つの下流タスクデータセットの最先端モデルと比較し、Stain Normalized Pathology Foundational Modelが使用したWSIの数とモデルパラメータ数に対して優れた性能を発揮することを示した。
このことは、染色正規化の適用によりモデルの効率性と一般化能力が大幅に向上したことを示唆している。
Recent advancements in digital pathology have led to the development of numerous foundational models that utilize self-supervised learning on patches extracted from gigapixel whole slide images (WSIs). While this approach leverages vast amounts of unlabeled data, we have discovered a significant issue: features extracted from these self-supervised models tend to cluster by individual WSIs, a phenomenon we term WSI-specific feature collapse. This problem can potentially limit the model's generalization ability and performance on various downstream tasks. To address this issue, we introduce Stain Normalized Pathology Foundational Model, a novel foundational model trained on patches that have undergone stain normalization. Stain normalization helps reduce color variability arising from different laboratories and scanners, enabling the model to learn more consistent features. Stain Normalized Pathology Foundational Model is trained using 285,153,903 patches extracted from a total of 34,795 WSIs, combining data from The Cancer Genome Atlas (TCGA) and the Genotype-Tissue Expression (GTEx) project. Our experiments demonstrate that Stain Normalized Pathology Foundational Model significantly mitigates the feature collapse problem, indicating that the model has learned more generalized features rather than overfitting to individual WSI characteristics. We compared Stain Normalized Pathology Foundational Model with state-of-the-art models across six downstream task datasets, and our results show that Stain Normalized Pathology Foundational Model achieves excellent performance relative to the number of WSIs used and the model's parameter count. This suggests that the application of stain normalization has substantially improved the model's efficiency and generalization capabilities. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# スパースオートエンコーダを用いたディエンタングリングDense Embeddings
Disentangling Dense Embeddings with Sparse Autoencoders ( http://arxiv.org/abs/2408.00657v2 ) ライセンス: Link先を確認 | Charles O'Neill, Christine Ye, Kartheik Iyer, John F. Wu, | (参考訳) スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
本研究では,大言語モデルからの密接なテキスト埋め込みに対するSAEの最初の応用の1つを提示する。
計算機科学と天文学から抽象化された420,000以上の科学論文の埋め込みに関するSAEの訓練により、結果として得られたスパース表現が、解釈可能性を提供しながら意味的忠実性を維持することを示す。
我々はこれらの学習された特徴を分析し、異なるモデル能力にわたってそれらの振る舞いを探索し、様々な抽象レベルで関連する概念を表現する「機能家族」を識別する新しい方法を導入する。
提案手法の実用性を実証するために,これらの解釈可能な特徴を用いてセマンティック検索を正確に制御し,クエリセマンティクスのきめ細かい制御を可能にする方法を示す。
この研究は、密埋め込みのセマンティックリッチネスとスパース表現の解釈可能性の間のギャップを埋める。
埋め込み、訓練されたスパースオートエンコーダ、インタプリタ機能、そしてそれらを探索するためのWebアプリなどをオープンソースにしています。
Sparse autoencoders (SAEs) have shown promise in extracting interpretable features from complex neural networks. We present one of the first applications of SAEs to dense text embeddings from large language models, demonstrating their effectiveness in disentangling semantic concepts. By training SAEs on embeddings of over 420,000 scientific paper abstracts from computer science and astronomy, we show that the resulting sparse representations maintain semantic fidelity while offering interpretability. We analyse these learned features, exploring their behaviour across different model capacities and introducing a novel method for identifying ``feature families'' that represent related concepts at varying levels of abstraction. To demonstrate the practical utility of our approach, we show how these interpretable features can be used to precisely steer semantic search, allowing for fine-grained control over query semantics. This work bridges the gap between the semantic richness of dense embeddings and the interpretability of sparse representations. We open source our embeddings, trained sparse autoencoders, and interpreted features, as well as a web app for exploring them. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# UltraRe-NeRF:3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization (特集:MEとバイオサイバネティックス)
UlRe-NeRF: 3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization ( http://arxiv.org/abs/2408.00860v2 ) ライセンス: Link先を確認 | Ziwen Guo, Zi Fang, Zhuang Fu, | (参考訳) 3次元超音波イメージングは、医学的診断に広く用いられている重要な技術である。
しかし、従来の3D超音波イメージング法では、解像度の固定化、ストレージ効率の低下、コンテキスト接続の不十分といった制限があり、複雑なアーティファクトや反射特性の処理性能が劣る。
近年、NeRF(Neural Radiance Fields)に基づく技術は、視線合成と3次元再構成において大きな進歩を遂げているが、高画質超音波画像では依然として研究のギャップが残っている。
これらの問題に対処するために,暗黙のニューラルネットワークと明示的な超音波ボリュームレンダリングを組み合わせたUlRe-NeRFという新しいモデルを提案する。
このモデルは反射方向パラメータ化と高調波符号化を取り入れており、指向性MLPモジュールを用いてビュー依存の高周波数反射強度推定を発生させ、空間的MLPモジュールを用いて媒体の物理的特性パラメータを生成する。
これらのパラメータは、媒体内の超音波の伝搬と反射の挙動を正確に再現するために、ボリュームレンダリングプロセスで使用される。
実験により,UlRe-NeRFモデルは,特に複雑な媒体構造を扱う場合,高忠実度超音波画像再構成の現実性と精度を著しく向上させることが示された。
Three-dimensional ultrasound imaging is a critical technology widely used in medical diagnostics. However, traditional 3D ultrasound imaging methods have limitations such as fixed resolution, low storage efficiency, and insufficient contextual connectivity, leading to poor performance in handling complex artifacts and reflection characteristics. Recently, techniques based on NeRF (Neural Radiance Fields) have made significant progress in view synthesis and 3D reconstruction, but there remains a research gap in high-quality ultrasound imaging. To address these issues, we propose a new model, UlRe-NeRF, which combines implicit neural networks and explicit ultrasound volume rendering into an ultrasound neural rendering architecture. This model incorporates reflection direction parameterization and harmonic encoding, using a directional MLP module to generate view-dependent high-frequency reflection intensity estimates, and a spatial MLP module to produce the medium's physical property parameters. These parameters are used in the volume rendering process to accurately reproduce the propagation and reflection behavior of ultrasound waves in the medium. Experimental results demonstrate that the UlRe-NeRF model significantly enhances the realism and accuracy of high-fidelity ultrasound image reconstruction, especially in handling complex medium structures. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# CIResDiff : 特発性肺線維症進展予測のための臨床応用残留拡散モデル
CIResDiff: A Clinically-Informed Residual Diffusion Model for Predicting Idiopathic Pulmonary Fibrosis Progression ( http://arxiv.org/abs/2408.00938v2 ) ライセンス: Link先を確認 | Caiwen Jiang, Xiaodan Xing, Zaixin Ou, Mianxin Liu, Walsh Simon, Guang Yang, Dinggang Shen, | (参考訳) 特発性肺線維症(IPF)の進行は患者の死亡率に大きく相関する。
IPFの早期検出は、タイムリーな治療を開始するために重要であり、疾患の進行を効果的に遅らせる可能性がある。
しかし、現在の臨床基準では、1年間隔で2回のCTスキャンを必要とする疾患の進行を規定しており、ジレンマを呈している。
そこで本研究では,初回CTスキャンから患者の追跡CTスキャンを生成することにより,IPFの進行を正確に予測する新しい拡散モデルを開発した。
具体的には、臨床先行知識から従来の拡散モデルの改善を調整し、CIResDiffと呼ばれる臨床インフォームド残差拡散モデルを提案する。
CIResDiffの重要なイノベーションは
1)2つのCTスキャンの肺領域を異なる時間で整列させて、発生困難を低減させるための対象領域事前登録を行う。
2) 従来の拡散法ではなく残留拡散法を採用することにより, ほぼ同一の解剖学的内容ではなく, 2つのCTスキャンの差(病変)により焦点を絞ることができる。
3)CLIP技術に基づく臨床応用プロセスの設計により,診断と高い関連性を有する肺機能情報を逆工程に組み込んで生成を支援する。
臨床データに対する大規模な実験により,本手法は最先端の手法より優れ,IPFの進行を効果的に予測できることが示された。
The progression of Idiopathic Pulmonary Fibrosis (IPF) significantly correlates with higher patient mortality rates. Early detection of IPF progression is critical for initiating timely treatment, which can effectively slow down the advancement of the disease. However, the current clinical criteria define disease progression requiring two CT scans with a one-year interval, presenting a dilemma: a disease progression is identified only after the disease has already progressed. To this end, in this paper, we develop a novel diffusion model to accurately predict the progression of IPF by generating patient's follow-up CT scan from the initial CT scan. Specifically, from the clinical prior knowledge, we tailor improvements to the traditional diffusion model and propose a Clinically-Informed Residual Diffusion model, called CIResDiff. The key innovations of CIResDiff include 1) performing the target region pre-registration to align the lung regions of two CT scans at different time points for reducing the generation difficulty, 2) adopting the residual diffusion instead of traditional diffusion to enable the model focus more on differences (i.e., lesions) between the two CT scans rather than the largely identical anatomical content, and 3) designing the clinically-informed process based on CLIP technology to integrate lung function information which is highly relevant to diagnosis into the reverse process for assisting generation. Extensive experiments on clinical data demonstrate that our approach can outperform state-of-the-art methods and effectively predict the progression of IPF. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# 3時間における大規模言語モデルの公平性
Fairness in Large Language Models in Three Hour ( http://arxiv.org/abs/2408.00992v2 ) ライセンス: Link先を確認 | Thang Doan Viet, Zichong Wang, Minh Nhat Nguyen, Wenbin Zhang, | (参考訳) 大規模言語モデル (LLMs) は、様々な領域で顕著な成功を収めてきたが、フェアネスの考慮が欠如していることが多い。
従来の機械学習の公平さとは異なり、LLMの公正さには独自の背景、分類学、実現技術が含まれる。
本チュートリアルは,LLMを紹介する実世界のケーススタディから始まり,それに続くバイアスの原因の分析を通じて,フェアLLMに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
さらに、ツールキットやデータセットを含むLCMのバイアスを評価するためのリソースがコンパイルされ、この分野における現在の研究課題とオープンな疑問が議論される。
リポジトリは \url{https://github.com/LavinWong/Fairness-in-Large-Language-Models} で公開されている。
Large Language Models (LLMs) have demonstrated remarkable success across various domains but often lack fairness considerations, potentially leading to discriminatory outcomes against marginalized populations. Unlike fairness in traditional machine learning, fairness in LLMs involves unique backgrounds, taxonomies, and fulfillment techniques. This tutorial provides a systematic overview of recent advances in the literature concerning fair LLMs, beginning with real-world case studies to introduce LLMs, followed by an analysis of bias causes therein. The concept of fairness in LLMs is then explored, summarizing the strategies for evaluating bias and the algorithms designed to promote fairness. Additionally, resources for assessing bias in LLMs, including toolkits and datasets, are compiled, and current research challenges and open questions in the field are discussed. The repository is available at \url{https://github.com/LavinWong/Fairness-in-Large-Language-Models}. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# 分散不協和音:自己矛盾命令に対する大規模マルチモーダルモデルのベンチマーク
Dissecting Dissonance: Benchmarking Large Multimodal Models Against Self-Contradictory Instructions ( http://arxiv.org/abs/2408.01091v2 ) ライセンス: Link先を確認 | Jin Gao, Lei Gan, Yuankai Li, Yixin Ye, Dequan Wang, | (参考訳) 大型マルチモーダルモデル(LMM)は、人間の指示に固執することが優れている。
しかし、言語初心者や脆弱な人口にとって困難であるマルチモーダル相互作用や文脈長の増加により、自己矛盾的な指示が生じる可能性がある。
矛盾するコマンドを認識する上でのLMMの能力を評価するために,自己コントラクショナルインストラクションベンチマークを導入する。
言語とビジョンのパラダイムに均等に分散した2万のコンフリクトで構成されている。
プロセスの迅速化と幅広い命令形式を包含できる新しい自動データセット作成フレームワークによって構築されている。
我々の総合的な評価では、現在のLMMは、自己認識の欠如により、マルチモーダルな命令の不一致を特定するのに一貫して苦労している。
そこで本研究では,外部から認識を注入する認知覚醒プロンプトを提案する。
データセットとコードはここにある。
Large multimodal models (LMMs) excel in adhering to human instructions. However, self-contradictory instructions may arise due to the increasing trend of multimodal interaction and context length, which is challenging for language beginners and vulnerable populations. We introduce the Self-Contradictory Instructions benchmark to evaluate the capability of LMMs in recognizing conflicting commands. It comprises 20,000 conflicts, evenly distributed between language and vision paradigms. It is constructed by a novel automatic dataset creation framework, which expedites the process and enables us to encompass a wide range of instruction forms. Our comprehensive evaluation reveals current LMMs consistently struggle to identify multimodal instruction discordance due to a lack of self-awareness. Hence, we propose the Cognitive Awakening Prompting to inject cognition from external, largely enhancing dissonance detection. The dataset and code are here: https://selfcontradiction.github.io/. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |
# Hallu-PI:摂動入力における多モーダル大言語モデルにおける幻覚の評価
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs ( http://arxiv.org/abs/2408.01355v2 ) ライセンス: Link先を確認 | Peng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen, Shujian Huang, | (参考訳) MLLM(Multi-modal Large Language Models)は、様々な視覚的言語理解および生成タスクにおいて顕著な性能を示す。
しかし、MLLMは時に「幻覚」と呼ばれる与えられた画像と矛盾する内容を生成する。
従来の研究は主に、MLLMの幻覚を包括的に評価する上で重要な、画像の収穫やぼやけといった現実のシナリオにおいて、乱れた入力が頻繁に発生するのを見落としている標準の未成熟なベンチマークを用いて幻覚を評価することに焦点を当てていた。
本稿では,このギャップを埋めるために,摂動入力におけるMLLMのハロシン化を評価するための最初のベンチマークであるHau-PIを提案する。
具体的には、Hau-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
それぞれの画像には詳細な注釈が添付されており、そこには存在、属性、関係など、細かい幻覚のタイプが含まれている。
我々はこれらのアノテーションにリッチな質問セットを設け、識別的タスクと生成的タスクの両方に適合させる。
GPT-4VやGemini-Pro Visionのような12種類のMLLMの大規模な実験は、これらのモデルが未成熟のシナリオでは観測されないハルーPIに顕著な幻覚を示すことを示した。
さらに,本研究では,MLLMがさまざまな幻覚を処理できる能力に深刻な偏りがあることが判明した。
また、摂動シナリオ(Perturbed-Reminder)と摂動ICL(Perturbed-ICL)の2つのベースラインを設計する。
我々の研究は、摂動入力に対処する際のMLLMの限界に研究者の注意を向け、この問題に対処するためのさらなる調査を促すことを願っている。
私たちのコードとデータセットはhttps://github.com/NJUNLP/Hallu-PIで公開されています。
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable performance on various visual-language understanding and generation tasks. However, MLLMs occasionally generate content inconsistent with the given images, which is known as "hallucination". Prior works primarily center on evaluating hallucination using standard, unperturbed benchmarks, which overlook the prevalent occurrence of perturbed inputs in real-world scenarios-such as image cropping or blurring-that are critical for a comprehensive assessment of MLLMs' hallucination. In this paper, to bridge this gap, we propose Hallu-PI, the first benchmark designed to evaluate Hallucination in MLLMs within Perturbed Inputs. Specifically, Hallu-PI consists of seven perturbed scenarios, containing 1,260 perturbed images from 11 object types. Each image is accompanied by detailed annotations, which include fine-grained hallucination types, such as existence, attribute, and relation. We equip these annotations with a rich set of questions, making Hallu-PI suitable for both discriminative and generative tasks. Extensive experiments on 12 mainstream MLLMs, such as GPT-4V and Gemini-Pro Vision, demonstrate that these models exhibit significant hallucinations on Hallu-PI, which is not observed in unperturbed scenarios. Furthermore, our research reveals a severe bias in MLLMs' ability to handle different types of hallucinations. We also design two baselines specifically for perturbed scenarios, namely Perturbed-Reminder and Perturbed-ICL. We hope that our study will bring researchers' attention to the limitations of MLLMs when dealing with perturbed inputs, and spur further investigations to address this issue. Our code and datasets are publicly available at https://github.com/NJUNLP/Hallu-PI. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-05 |