このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240905となっている論文です。

PDF登録状況(公開日: 20240905)

TitleAuthorsAbstract論文公表日・翻訳日
# 次世代POI勧告のための多エージェント協調システムMAS4POI

MAS4POI: a Multi-Agents Collaboration System for Next POI Recommendation ( http://arxiv.org/abs/2409.13700v1 )

ライセンス: Link先を確認
Yuqian Wu, Yuhong Peng, Jiapeng Yu, Raymond S. T. Lee, (参考訳) LLMベースのMulti-Agent Systemsは、様々な領域にわたる複雑な意思決定タスク管理の潜在的な利点があるが、次のPOI(Point-of-Interest)レコメンデーションにおけるそれらの応用は未検討のままである。 本稿では,マルチエージェントインタラクションによる次世代POIレコメンデーションの強化を目的としたMAS4POIシステムを提案する。 MAS4POIは,DataAgent, Manager, Analyst, Navigatorなどの異なるエージェントに特化した大規模言語モデル(LLM)をサポートし,次のPOIレコメンデーションを生成するコラボレーティブなプロセスに寄与する。本システムは6つの異なるLLMを統合し,現実のシナリオにおける推奨精度向上のために2つの実世界のデータセットによって評価される。 私たちのコードはhttps://github.com/yuqian2003/MAS4POIで利用可能です。

LLM-based Multi-Agent Systems have potential benefits of complex decision-making tasks management across various domains but their applications in the next Point-of-Interest (POI) recommendation remain underexplored. This paper proposes a novel MAS4POI system designed to enhance next POI recommendations through multi-agent interactions. MAS4POI supports Large Language Models (LLMs) specializing in distinct agents such as DataAgent, Manager, Analyst, and Navigator with each contributes to a collaborative process of generating the next POI recommendations.The system is examined by integrating six distinct LLMs and evaluated by two real-world datasets for recommendation accuracy improvement in real-world scenarios. Our code is available at https://github.com/yuqian2003/MAS4POI.
翻訳日:2024-11-07 05:57:35 公開日:2024-09-05
# 絶滅危惧言語と低リソース言語の将来 - LLMの時代における私たちの役割 - ECIR 2024の基調講演より

Shaping the Future of Endangered and Low-Resource Languages -- Our Role in the Age of LLMs: A Keynote at ECIR 2024 ( http://arxiv.org/abs/2409.13702v1 )

ライセンス: Link先を確認
Josiane Mothe, (参考訳) セビリアのイシドール(Isidore of Seville)は、文化と社会のアイデンティティの形成において、言語が果たす重要な役割を、人々が生まれる言語であり、その逆ではないと断言している。 現在、7100以上の言語のうち、かなりの数が絶滅危惧されている。 1970年代以降、言語学者、情報探究家、愛好家は、絶滅危惧言語を含む幅広い言語をサポートするためのデジタルリソースや自動ツールの開発を支援してきた。 LLM(Large Language Model)技術の出現は、約束と危険を兼ね備えている。 それらは、言語の保存と再生における重要な要素である、コンテンツとリソースの翻訳と生成のための前例のない可能性を提供する。 彼らはまた、同質化、文化的過度な単純化、既に脆弱な言語のさらなる限界化の脅威も提示した。 本稿は、Occitan言語に特に焦点をあて、技術と伝統の間の潜在的な道筋とパートナーシップを探求する、最初の旅の提案に基づいている。 オクシタン(Occitan)は、特に中世において文化的・経済的に重要な役割を果たした南フランス、スペイン、イタリアの言語である。 現在はユネスコによって絶滅危惧されている。 この講演は、人類の専門知識と人工知能が協力して、我々の世界、特にヨーロッパの遺産の基盤となる言語多様性を保ちつつ、これらの強力な技術の使用に伴う倫理的および実践的な課題に対処する希望を抱くために、どのように機能するかを批判的に検討した。 この記事では、第46回European Conference on Information Retrieval (ECIR 2024)で行った基調講演に基づいています。 この論文を読む代わりとして、ビデオトークがオンラインで公開されている。 日付2024年3月26日。

Isidore of Seville is credited with the adage that it is language that gives birth to a people, and not the other way around , underlining the profound role played by language in the formation of cultural and social identity. Today, of the more than 7100 languages listed, a significant number are endangered. Since the 1970s, linguists, information seekers and enthusiasts have helped develop digital resources and automatic tools to support a wide range of languages, including endangered ones. The advent of Large Language Model (LLM) technologies holds both promise and peril. They offer unprecedented possibilities for the translation and generation of content and resources, key elements in the preservation and revitalisation of languages. They also present threat of homogenisation, cultural oversimplification and the further marginalisation of already vulnerable languages. The talk this paper is based on has proposed an initiatory journey, exploring the potential paths and partnerships between technology and tradition, with a particular focus on the Occitan language. Occitan is a language from Southern France, parts of Spain and Italy that played a major cultural and economic role, particularly in the Middle Ages. It is now endangered according to UNESCO. The talk critically has examined how human expertise and artificial intelligence can work together to offer hope for preserving the linguistic diversity that forms the foundation of our global and especially our European heritage while addressing some of the ethical and practical challenges that accompany the use of these powerful technologies. This paper is based on the keynote I gave at the 46th European Conference on Information Retrieval (ECIR 2024). As an alternative to reading this paper, a video talk is available online. 1 Date: 26 March 2024.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-05
# 大規模言語モデルによる高レベル破壊スキームからのエンティティ抽出

Entity Extraction from High-Level Corruption Schemes via Large Language Models ( http://arxiv.org/abs/2409.13704v1 )

ライセンス: Link先を確認
Panagiotis Koletsis, Panagiotis-Konstantinos Gemos, Christos Chronis, Iraklis Varlamis, Vasilis Efthymiou, Georgios Th. Papadopoulos, (参考訳) 近年の金融犯罪の増加は、この話題に懸念を抱き、多くの人々、組織、政府などがそれと闘おうとしている。 この領域への関心が高まっているにもかかわらず、これらの問題に対処する作業のトレーニングと評価に使用できる特別なデータセットが不足している。 本稿では,個人や組織,それらの複数の著作を識別するアルゴリズムとモデルのための,新しいマイクロベンチマークデータセットを提案し,その作成を支援するアプローチを提案する。 また、このデータセットを用いて、様々な低ビリオンパラメータ(LLM)を用いた金融犯罪関連記事の個人や組織を特定するための実験的な取り組みも報告されている。 これらの実験のために、標準メトリクス(精度、精度、リコール、F1スコア)を報告し、プロンプトエンジニアリングのベストプラクティスを含む様々なプロンプト変種を試験する。 さらに、曖昧な実体が言及する問題に対処するために、単純で効果的なLCMに基づく曖昧化手法を提案し、評価が現実と一致することを保証した。 最後に,提案手法が広く用いられているオープンソースベースラインと比較し,提案手法の優位性を示す。

The rise of financial crime that has been observed in recent years has created an increasing concern around the topic and many people, organizations and governments are more and more frequently trying to combat it. Despite the increase of interest in this area, there is a lack of specialized datasets that can be used to train and evaluate works that try to tackle those problems. This article proposes a new micro-benchmark dataset for algorithms and models that identify individuals and organizations, and their multiple writings, in news articles, and presents an approach that assists in its creation. Experimental efforts are also reported, using this dataset, to identify individuals and organizations in financial-crime-related articles using various low-billion parameter Large Language Models (LLMs). For these experiments, standard metrics (Accuracy, Precision, Recall, F1 Score) are reported and various prompt variants comprising the best practices of prompt engineering are tested. In addition, to address the problem of ambiguous entity mentions, a simple, yet effective LLM-based disambiguation method is proposed, ensuring that the evaluation aligns with reality. Finally, the proposed approach is compared against a widely used state-of-the-art open-source baseline, showing the superiority of the proposed method.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-05
# 遺伝的アルゴリズムによる特徴選択の最適化:方法と応用のレビュー

Optimizing Feature Selection with Genetic Algorithms: A Review of Methods and Applications ( http://arxiv.org/abs/2409.14563v1 )

ライセンス: Link先を確認
Zhila Yaseen Taha, Abdulhady Abas Abdullah, Tarik A. Rashid, (参考訳) 最適な特徴を選択するために大規模なデータセットを分析することは、機械学習とデータマイニングにおいて最も重要な研究分野の1つである。 この特徴選択手順は、モデルの性能向上に不可欠である次元削減を伴い、より複雑にしない。 近年,属性の代表的な部分集合を得るために異なるアプローチを用いた属性選択法が提案されている。 しかし、遺伝的アルゴリズム(GA)のような集団に基づく進化的アルゴリズムは、局所的な最適性を避け、選択プロセス自体を改善することで、これらの欠点を補うために提案されている。 本論文では,アプリケーションにおけるGAベースの特徴選択技術とその適用性について概観する。 本研究は, PRISMA法を用いて実施され, 文献の系統的同定, スクリーニング, 解析を行った。 そこで本研究では,GA-Wrapper特徴セレクタとHGA-ニューラルネットワークを含む分野のハイブリッドGA手法が,不要な探索空間の探索,精度性能問題,複雑度といった課題の解決を通じて,その可能性を大幅に改善したことを示唆する。 本論文の結論は,GAが機能選択と今後の研究の方向性にかかわる可能性について,適用性と性能の向上を議論することにつながる。

Analyzing large datasets to select optimal features is one of the most important research areas in machine learning and data mining. This feature selection procedure involves dimensionality reduction which is crucial in enhancing the performance of the model, making it less complex. Recently, several types of attribute selection methods have been proposed that use different approaches to obtain representative subsets of the attributes. However, population-based evolutionary algorithms like Genetic Algorithms (GAs) have been proposed to provide remedies for these drawbacks by avoiding local optima and improving the selection process itself. This manuscript presents a sweeping review on GA-based feature selection techniques in applications and their effectiveness across different domains. This review was conducted using the PRISMA methodology; hence, the systematic identification, screening, and analysis of relevant literature were performed. Thus, our results hint that the field's hybrid GA methodologies including, but not limited to, GA-Wrapper feature selector and HGA-neural networks, have substantially improved their potential through the resolution of problems such as exploration of unnecessary search space, accuracy performance problems, and complexity. The conclusions of this paper would result in discussing the potential that GAs bear in feature selection and future research directions for their enhancement in applicability and performance.
翻訳日:2024-11-06 22:08:18 公開日:2024-09-05
# AIがデータ保護を革命させる方法

Transforming Redaction: How AI is Revolutionizing Data Protection ( http://arxiv.org/abs/2409.15308v1 )

ライセンス: Link先を確認
Sida Peng, Ming-Jen Huang, Matt Wu, Jeremy Wei, (参考訳) 文書の再アクションは、無許可のアクセスと開示から機密情報を保護するために、様々な分野において重要なプロセスである。 Adobe Acrobatのような従来の手動のリアクション手法は、労働集約的、エラーを起こし、時間を要する。 デジタルドキュメントの急増に伴い、より効率的で正確なリアクション技術への需要が高まっている。 本研究では、従来の手動リアクション、古典的機械学習アルゴリズムを利用したリアクションツール、AI支援リアクションツール(iDox.ai Redact)を比較した、制御された実験の結果を提示する。 その結果、iDox.ai Redactは手作業よりも優れ、精度が向上し、完成時間が短縮された。 逆に、競合する製品である古典的な機械学習アルゴリズムと、特定の機密データ型に対する手動介入を必要とする場合には、手動のリアクションよりも統計的に顕著な改善は示さなかった。 これらの結果は、iDox.ai Redactのような先進的なAI技術は、人間のエラーを減らし、データ保護規則への準拠を改善することによって、データ保護のプラクティスを大幅に強化することができるが、リアクションプロセスを完全に自動化しないAIツールの改善の余地は残っていることを示唆している。 将来の研究は、AI機能を強化し、さまざまなドキュメントタイプやプロフェッショナル設定で適用性を探ることを目的としている。

Document redaction is a crucial process in various sectors to safeguard sensitive information from unauthorized access and disclosure. Traditional manual redaction methods, such as those performed using Adobe Acrobat, are labor-intensive, error-prone, and time-consuming. With the burgeoning volume of digital documents, the demand for more efficient and accurate redaction techniques is intensifying. This study presents the findings from a controlled experiment that compares traditional manual redaction, a redaction tool powered by classical machine learning algorithm, and AI-assisted redaction tools (iDox.ai Redact). The results indicate that iDox.ai Redact significantly outperforms manual methods, achieving higher accuracy and faster completion times. Conversely, the competitor product, classical machine learning algorithm and with necessitates manual intervention for certain sensitive data types, did not exhibit a statistically significant improvement over manual redaction. These findings suggest that while advanced AI technologies like iDox.ai Redact can substantially enhance data protection practices by reducing human error and improving compliance with data protection regulations, there remains room for improvement in AI tools that do not fully automate the redaction process. Future research should aim to enhance AI capabilities and explore their applicability across various document types and professional settings.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# マルチモーダル大言語モデルにおけるビジュアルプロンプティング

Visual Prompting in Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2409.15310v1 )

ライセンス: Link先を確認
Junda Wu, Zhehao Zhang, Yu Xia, Xintong Li, Zhaoyang Xia, Aaron Chang, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ruiyi Zhang, Subrata Mitra, Dimitris N. Metaxas, Lina Yao, Jingbo Shang, Julian McAuley, (参考訳) MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された大言語モデル(LLM)である。 LLMにおけるテキストプロンプトは広く研究されているが、視覚プロンプトはより微細で自由な視覚的指示のために出現している。 本稿では,MLLMにおける視覚的プロンプト法について,視覚的プロンプト法,即時生成法,構成的推論法,即時学習法に着目した最初の包括的調査を行う。 本稿では、既存の視覚的プロンプトを分類し、画像上の自動プロンプトアノテーションの生成方法について議論する。 また、MLLMの視覚的接地、オブジェクト参照、構成的推論能力に関して、視覚エンコーダと背骨LLMのアライメントを改善する視覚的プロンプト手法についても検討した。 さらに、MLLMの知覚と視覚的刺激の理解を改善するために、モデルトレーニングと文脈内学習法の概要について述べる。 本稿では,MLLMで開発された視覚的プロンプト手法について検討し,その将来像について述べる。

Multimodal large language models (MLLMs) equip pre-trained large-language models (LLMs) with visual capabilities. While textual prompting in LLMs has been widely studied, visual prompting has emerged for more fine-grained and free-form visual instructions. This paper presents the first comprehensive survey on visual prompting methods in MLLMs, focusing on visual prompting, prompt generation, compositional reasoning, and prompt learning. We categorize existing visual prompts and discuss generative methods for automatic prompt annotations on the images. We also examine visual prompting methods that enable better alignment between visual encoders and backbone LLMs, concerning MLLM's visual grounding, object referring, and compositional reasoning abilities. In addition, we provide a summary of model training and in-context learning methods to improve MLLM's perception and understanding of visual prompts. This paper examines visual prompting methods developed in MLLMs and provides a vision of the future of these methods.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# Landsat Irish Coastal Segmentation (LICS) データセットによる沿岸水域のセグメンテーションの促進

Enhancing coastal water body segmentation with Landsat Irish Coastal Segmentation (LICS) dataset ( http://arxiv.org/abs/2409.15311v1 )

ライセンス: Link先を確認
Conor O'Sullivan, Ambrish Kashyap, Seamus Coveney, Xavier Monteys, Soumyabrata Dev, (参考訳) アイルランドの海岸線は重要で動的な資源であり、浸食、堆積、人的活動といった課題に直面している。 これらの変化をモニタリングすることは、衛星画像とディープラーニングを組み合わせることで、我々がアプローチする複雑なタスクである。 しかし、この地域、特にアイルランドでの研究は限られている。 本稿では,アイルランドの気象や沿岸タイプに特有のモデリング課題に対処しながら,沿岸水域セグメンテーションのための深層学習手法の開発を促進することを目的としたLandsat Irish Coastal Segmentation (LICS)データセットを提案する。 データセットはセグメンテーションのための様々な自動化アプローチを評価するために使用され、U-NETはディープラーニング手法の中で95.0%の精度を達成している。 それでも、正規化差水指数(NDWI)ベンチマークは平均精度97.2%でU-NETを上回った。 この研究は、より正確なトレーニングデータと代替の浸食測定を考慮し、ディープラーニングアプローチをさらに改善できることを示唆している。 licSデータセットとコードは、再現可能な研究と沿岸モニタリングのさらなる進歩をサポートするために自由に利用可能である。

Ireland's coastline, a critical and dynamic resource, is facing challenges such as erosion, sedimentation, and human activities. Monitoring these changes is a complex task we approach using a combination of satellite imagery and deep learning methods. However, limited research exists in this area, particularly for Ireland. This paper presents the Landsat Irish Coastal Segmentation (LICS) dataset, which aims to facilitate the development of deep learning methods for coastal water body segmentation while addressing modelling challenges specific to Irish meteorology and coastal types. The dataset is used to evaluate various automated approaches for segmentation, with U-NET achieving the highest accuracy of 95.0% among deep learning methods. Nevertheless, the Normalised Difference Water Index (NDWI) benchmark outperformed U-NET with an average accuracy of 97.2%. The study suggests that deep learning approaches can be further improved with more accurate training data and by considering alternative measurements of erosion. The LICS dataset and code are freely available to support reproducible research and further advancements in coastal monitoring efforts.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# 1-Sided Bipartite Crossing Minimizationのための進化的アルゴリズム

Evolutionary Algorithms for One-Sided Bipartite Crossing Minimisation ( http://arxiv.org/abs/2409.15312v1 )

ライセンス: Link先を確認
Jakob Baumann, Ignaz Rutter, Dirk Sudholt, (参考訳) 進化アルゴリズム (EA) は自然進化の原理にインスパイアされた普遍的な解法である。 多くのアプリケーションにおいて、EAは驚くほど優れたソリューションを生み出します。 複雑な最適化問題に対処できるため、グラフ描画の分野で遭遇する困難な問題に対して大きな期待を示し、グラフ描画におけるEAの分析における最近の理論的進歩を補完するため、基礎的な実証研究に貢献する。 いわゆる「textsc{One-Sided Bipartite Crossing Minimisation (OBCM) 」を考える: 両部グラフの2つの層と、第1層上の頂点の固定水平順序を与えられた場合、第2層上の頂点を順序付けして、エッジ交差の数を最小化する。 OBCM の単純な EA の性能を実証的に解析し、2つの要素 (\textit{exchange} ) を交換し、隣接する要素 (\textit{swap} ) を交換し、要素を新しい位置 (\textit{jump} ) にジャンプする(\textit{jump} )。 ジャンプを用いたEAは、合理的な数世代の後、ソリューションの品質の観点から、すべての決定論的アルゴリズムを容易に上回ります。 また、各世代の実行時間を短縮するために、最高のパフォーマンスのEAのバリエーションを設計する。 改善されたEAは、以前と同じソリューション品質を得ることができ、最大100倍高速に動作します。

Evolutionary algorithms (EAs) are universal solvers inspired by principles of natural evolution. In many applications, EAs produce astonishingly good solutions. As they are able to deal with complex optimisation problems, they show great promise for hard problems encountered in the field of graph drawing.To complement recent theoretical advances in the analysis of EAs on graph drawing, we contribute a fundamental empirical study. We consider the so-called \textsc{One-Sided Bipartite Crossing Minimisation (OBCM)}: given two layers of a bipartite graph and a fixed horizontal order of vertices on the first layer, the task is to order the vertices on the second layer to minimise the number of edge crossings. We empirically analyse the performance of simple EAs for OBCM and compare different mutation operators on the underlying permutation ordering problem: exchanging two elements (\textit{exchange}), swapping adjacent elements (\textit{swap}) and jumping an element to a new position (\textit{jump}). EAs using jumps easily outperform all deterministic algorithms in terms of solution quality after a reasonable number of generations. We also design variations of the best-performing EAs to reduce the execution time for each generation. The improved EAs can obtain the same solution quality as before and run up to 100 times faster.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# 乳癌分類のためのディープトランスファー学習

Deep Transfer Learning for Breast Cancer Classification ( http://arxiv.org/abs/2409.15313v1 )

ライセンス: Link先を確認
Prudence Djagba, J. K. Buwa Mbouobda, (参考訳) 乳がんは世界中で何百万人もの女性に影響を及ぼす世界的な健康問題である。 乳がんをできるだけ早く正確に分類することは、効果的な治療と患者結果の増強に不可欠である。 深層移動学習は、事前訓練されたモデルを活用し、関連するタスク間で知識を伝達することで、乳癌の分類を改善するための有望な手法として登場した。 本研究では,VGG,視覚変換器(ViT),Resnetを用いて,浸潤性直腸癌(IDC)の画像の分類を行い,その比較解析を行った。 この結果は、Resnet-34のがん画像の分類において、90.40 %の精度で大きな利点を示している。 しかしながら、事前訓練されたVGG-16は、更新すべきパラメータが少ないため、より高いF1スコアを示す。 乳がん診断の分野では, 深層移動学習が有用であると考えられる。 転移学習は、深層学習モデルを少ないデータで訓練することにより、乳がんスクリーニングの精度とアクセシビリティを高めるのに役立つ。

Breast cancer is a major global health issue that affects millions of women worldwide. Classification of breast cancer as early and accurately as possible is crucial for effective treatment and enhanced patient outcomes. Deep transfer learning has emerged as a promising technique for improving breast cancer classification by utilizing pre-trained models and transferring knowledge across related tasks. In this study, we examine the use of a VGG, Vision Transformers (ViT) and Resnet to classify images for Invasive Ductal Carcinoma (IDC) cancer and make a comparative analysis of the algorithms. The result shows a great advantage of Resnet-34 with an accuracy of $90.40\%$ in classifying cancer images. However, the pretrained VGG-16 demonstrates a higher F1-score because there is less parameters to update. We believe that the field of breast cancer diagnosis stands to benefit greatly from the use of deep transfer learning. Transfer learning may assist to increase the accuracy and accessibility of breast cancer screening by allowing deep learning models to be trained with little data.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# ディープラーニング最適化におけるバイアス低減:RSGDMアプローチ

Reducing Bias in Deep Learning Optimization: The RSGDM Approach ( http://arxiv.org/abs/2409.15314v1 )

ライセンス: Link先を確認
Honglin Qin, Hongye Zheng, Bingxing Wang, Zhizhong Wu, Bingyao Liu, Yuanfang Yang, (参考訳) 現在広く使われている1次ディープラーニングオプティマイザには、非適応型学習率オプティマイザと適応型学習率オプティマイザがある。 前者はSGDM(Stochastic Gradient Descent with Momentum)、後者はAdamである。 これらの手法はいずれも指数移動平均を用いて全体勾配を推定する。 しかし,指数移動平均を用いて全体勾配を推定することは偏りがあり,遅延がある。 本稿では,差分補正に基づくRSGDMアルゴリズムを提案する。 私たちの貢献は主に3倍です。 1) SGDMアルゴリズムにおいて指数移動平均によるバイアスとラグを解析する。 2) 差分推定項を用いてSGDMアルゴリズムのバイアスと遅延を補正し,RSGDMアルゴリズムを提案する。 3) CIFARデータセットを用いた実験により,我々のRSGDMアルゴリズムは収束精度においてSGDMアルゴリズムよりも優れていることが示された。

Currently, widely used first-order deep learning optimizers include non-adaptive learning rate optimizers and adaptive learning rate optimizers. The former is represented by SGDM (Stochastic Gradient Descent with Momentum), while the latter is represented by Adam. Both of these methods use exponential moving averages to estimate the overall gradient. However, estimating the overall gradient using exponential moving averages is biased and has a lag. This paper proposes an RSGDM algorithm based on differential correction. Our contributions are mainly threefold: 1) Analyze the bias and lag brought by the exponential moving average in the SGDM algorithm. 2) Use the differential estimation term to correct the bias and lag in the SGDM algorithm, proposing the RSGDM algorithm. 3) Experiments on the CIFAR datasets have proven that our RSGDM algorithm is superior to the SGDM algorithm in terms of convergence accuracy.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# 知識グラフ注意支援ネットワーク(KGATAX)に基づく効率的な推薦モデル

An Efficient Recommendation Model Based on Knowledge Graph Attention-Assisted Network (KGATAX) ( http://arxiv.org/abs/2409.15315v1 )

ライセンス: Link先を確認
Zhizhong Wu, (参考訳) 推薦システムは、ユーザが大量の情報をフィルタリングするのを助ける重要な役割を担っている。 しかし、従来のレコメンデーションアルゴリズムは、しばしばマルチソース情報の統合と利用を見逃し、システム性能を制限している。 そこで本研究では,新たなリコメンデーションモデルであるKGAT-AXを提案する。 まず、リコメンデーションモデルに知識グラフを組み込み、高次接続性をより明確に探求するための注意機構を導入する。 多層対話型情報伝搬を用いて、その一般化能力を高めるために情報を集約する。 さらに、ホログラフィー埋め込みを通じてエンティティに補助情報を統合し、各エンティティの隣り合うエンティティの情報を、それらの推論関係を学習して集約する。 これにより、エンティティに関連する補助情報のより良い利用が可能になる。 KGAT-AXモデルの合理性と有効性を示すために,実データを用いた実験を行った。 実験により,KGAT-AXの有効性と可能性について,公開データセット上の他のベースラインモデルと比較した。 KGAT-AXは、より良い知識情報取得と関係学習能力を示す。

Recommendation systems play a crucial role in helping users filter through vast amounts of information. However, traditional recommendation algorithms often overlook the integration and utilization of multi-source information, limiting system performance. Therefore, this study proposes a novel recommendation model, Knowledge Graph Attention-assisted Network (KGAT-AX). We first incorporate the knowledge graph into the recommendation model, introducing an attention mechanism to explore higher order connectivity more explicitly. By using multilayer interactive information propagation, the model aggregates information to enhance its generalization ability. Furthermore, we integrate auxiliary information into entities through holographic embeddings, aggregating the information of adjacent entities for each entity by learning their inferential relationships. This allows for better utilization of auxiliary information associated with entities. We conducted experiments on real datasets to demonstrate the rationality and effectiveness of the KGAT-AX model. Through experimental analysis, we observed the effectiveness and potential of KGAT-AX compared to other baseline models on public datasets. KGAT-AX demonstrates better knowledge information capture and relationship learning capabilities.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# IDAと共有自律性: インターベンショナル拡散支援

Shared Autonomy with IDA: Interventional Diffusion Assistance ( http://arxiv.org/abs/2409.15317v1 )

ライセンス: Link先を確認
Brandon J. McMahan, Zhenghao Peng, Bolei Zhou, Jonathan C. Kao, (参考訳) 人工知能(AI)の急速な発展は、人間が高度な技術を制御するのを助ける可能性を発掘した。 共有自律(SA)は、人間のパイロットとAIの協力者からの入力を組み合わせることで制御を容易にする。 以前のSA研究では、副操縦士は各段階の動作を決定するために常に活発である。 これは人間の自律性を制限し、パフォーマンスに有害な影響を及ぼす可能性がある。 一般に,協調作業支援の量はタスクのダイナミクスによって大きく異なる。 そこで我々は,人間の自律性とSA性能は動的かつ選択的協調的介入によって向上する,という仮説を立てた。 そこで我々は,コピロの行動の期待値がすべての可能な目標にわたって人間の行動のそれを超える場合にのみ,コピロを介在させることによって動的に制御を共有する,目標に依存しない介入支援(IA)を開発する。 我々は,目標マスキングによる専門家による実演を訓練した拡散コーピロット(IDA)を用いてIAを実装した。 パイロットと副操縦士のパフォーマンスに依存するIAの性能に低い限界があることを実証する。 シミュレーションされた人間のパイロットによる実験では、IDAはリーチャー環境とルナーランダーの変種において、パイロットのみのSA制御と従来のSA制御よりも高い性能を達成している。 次に、IDAがLunar Landerにおいて、Human-in-the-loop実験によりより良い制御を実現することを実証する。 人間の参加者は、IDAによりより自律性が向上し、パイロットオンリーのSAコントロールよりもIDAの方が好ましいと報告する。 IDAの成功は、人間の自律性を維持すると同時に、人間のパイロットが普遍的に悪い状態に入るのを防ぐ支援を提供することにある。

The rapid development of artificial intelligence (AI) has unearthed the potential to assist humans in controlling advanced technologies. Shared autonomy (SA) facilitates control by combining inputs from a human pilot and an AI copilot. In prior SA studies, the copilot is constantly active in determining the action played at each time step. This limits human autonomy and may have deleterious effects on performance. In general, the amount of helpful copilot assistance can vary greatly depending on the task dynamics. We therefore hypothesize that human autonomy and SA performance improve through dynamic and selective copilot intervention. To address this, we develop a goal-agnostic intervention assistance (IA) that dynamically shares control by having the copilot intervene only when the expected value of the copilot's action exceeds that of the human's action across all possible goals. We implement IA with a diffusion copilot (termed IDA) trained on expert demonstrations with goal masking. We prove a lower bound on the performance of IA that depends on pilot and copilot performance. Experiments with simulated human pilots show that IDA achieves higher performance than pilot-only and traditional SA control in variants of the Reacher environment and Lunar Lander. We then demonstrate that IDA achieves better control in Lunar Lander with human-in-the-loop experiments. Human participants report greater autonomy with IDA and prefer IDA over pilot-only and traditional SA control. We attribute the success of IDA to preserving human autonomy while simultaneously offering assistance to prevent the human pilot from entering universally bad states.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# 重ね合わせにおけるニューラル計算の複雑さについて

On the Complexity of Neural Computation in Superposition ( http://arxiv.org/abs/2409.15318v1 )

ライセンス: Link先を確認
Micah Adler, Nir Shavit, (参考訳) ニューラルネットワークの理解の最近の進歩は、単一のニューロンが複数の特徴を同時に表現する能力である重ね合わせが、大規模ネットワークの計算効率の根底にある重要なメカニズムであることを示唆している。 本稿では,計算の重ね合わせにおける理論的基礎を考察し,明示的で証明可能なアルゴリズムとその効率性に着目した。 置換やペア論理演算を含む幅広い問題に対して、重ね合わせのニューラルネットワーク計算には少なくとも$\Omega(m' \log m')$パラメータと$\Omega(\sqrt{m' \log m'})$ニューロンが必要である。 つまり、'lottery ticket'' のスパースサブネットワークは、初期密なネットワークサイズが何であれ、少なくとも$\Omega(m' \log m')$パラメータを持つ必要がある。 逆に、ペアワイズのような論理演算と$O(\sqrt{m'} \log m')$ニューロンと$O(m' \log^2 m')$パラメータで計算できる。 したがって、重ね合わせにおける計算、この研究の主題、および重ね合わせにおける特徴を表現するための指数的なギャップがあり、ジョンソン-リンデンシュトラウス・レムマに基づく$O(\log m'$)ニューロンしか必要としない。 私たちの期待は、ニューラルネットワークの解釈可能性研究に複雑性理論技術を使うための道を開くことです。

Recent advances in the understanding of neural networks suggest that superposition, the ability of a single neuron to represent multiple features simultaneously, is a key mechanism underlying the computational efficiency of large-scale networks. This paper explores the theoretical foundations of computing in superposition, focusing on explicit, provably correct algorithms and their efficiency. We present the first lower bounds showing that for a broad class of problems, including permutations and pairwise logical operations, a neural network computing in superposition requires at least $\Omega(m' \log m')$ parameters and $\Omega(\sqrt{m' \log m'})$ neurons, where $m'$ is the number of output features being computed. This implies that any ``lottery ticket'' sparse sub-network must have at least $\Omega(m' \log m')$ parameters no matter what the initial dense network size. Conversely, we show a nearly tight upper bound: logical operations like pairwise AND can be computed using $O(\sqrt{m'} \log m')$ neurons and $O(m' \log^2 m')$ parameters. There is thus an exponential gap between computing in superposition, the subject of this work, and representing features in superposition, which can require as little as $O(\log m'$) neurons based on the Johnson-Lindenstrauss Lemma. Our hope is that our results open a path for using complexity theoretic techniques in neural network interpretability research.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# AIインシデント研究と政治誤情報研究の融合:政治ディープフェイクインシデントデータベースの導入

Merging AI Incidents Research with Political Misinformation Research: Introducing the Political Deepfakes Incidents Database ( http://arxiv.org/abs/2409.15319v1 )

ライセンス: Link先を確認
Christina P. Walker, Daniel S. Schiff, Kaylyn Jackson Schiff, (参考訳) 本稿では, 政治的ディープフェイクのコレクションである政治ディープフェイクインシデントデータベース(PDID)について述べる。 「政界における創発的AIの台頭、危害に対処するための政策努力、AI事件と政治コミュニケーション研究を結びつける必要性により推進される。」 このデータベースには政治的ディープフェイクの内容、メタデータ、および政治科学、公共政策、コミュニケーション、誤情報研究から引き出された研究者による記述が含まれている。 これは、主要な政治的人物や出来事を特徴とするような、政治的ディープフェイクの流行、傾向、および影響を明らかにすることを目的としている。 PDIDは、政策立案者、研究者、ジャーナリスト、ファクトチェッカー、および一般大衆に、ディープフェイクの使用に関する洞察を提供し、規制を補助し、詳細な分析を可能にし、ファクトチェックと信頼構築の取り組みを支援し、政治的ディープフェイクの認知を高めることで、利益を得ることができる。 メディア効果、政治談話、AI倫理、技術ガバナンス、メディアリテラシー、対策に関する研究や応用に適している。

This article presents the Political Deepfakes Incidents Database (PDID), a collection of politically-salient deepfakes, encompassing synthetically-created videos, images, and less-sophisticated `cheapfakes.' The project is driven by the rise of generative AI in politics, ongoing policy efforts to address harms, and the need to connect AI incidents and political communication research. The database contains political deepfake content, metadata, and researcher-coded descriptors drawn from political science, public policy, communication, and misinformation studies. It aims to help reveal the prevalence, trends, and impact of political deepfakes, such as those featuring major political figures or events. The PDID can benefit policymakers, researchers, journalists, fact-checkers, and the public by providing insights into deepfake usage, aiding in regulation, enabling in-depth analyses, supporting fact-checking and trust-building efforts, and raising awareness of political deepfakes. It is suitable for research and application on media effects, political discourse, AI ethics, technology governance, media literacy, and countermeasures.
翻訳日:2024-11-06 20:05:48 公開日:2024-09-05
# 簡易型安全連続学習機

Simplex-enabled Safe Continual Learning Machine ( http://arxiv.org/abs/2409.05898v1 )

ライセンス: Link先を確認
Yihao Cai, Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo, (参考訳) 本稿では, 安全クリティカルな自律システムを対象とした, シンプルで安全な連続学習システムSeC-Learning Machineを提案する。 SeC学習マシンはSimplexロジック(「複雑さを制御するためのシンプルさ」)と物理制御された深層強化学習(Phy-DRL)に基づいて構築されている。 これにより、HP(ハイパフォーマンス)、HA(ハイアシュアランス)、コーディネータを構成する。 具体的には、HP-Studentは事前訓練された高性能だが完全に検証されていないPhy-DRLで、実際の工場で学び続け、アクションポリシーを安全に調整している。 これとは対照的に、HA-Teacherはミッション再現型、物理モデルベース、そして検証された設計である。 HA-Teacherには2つのミッションがある。 Coordinatorは、HP-StudentとHA-Teacherのインタラクションとスイッチをトリガーする。 対話的な3つのコンポーネントで動く機械学習マシンSeC 一 生涯の安全を確保すること(すなわち、HP-Studentの成功又は収束にかかわらず、継続学習段階における安全を保証すること。) ii)Sim2Realのギャップに対処し、 三 実の植物の未知を許容することを学ぶこと。 カートポールシステムと実四足歩行ロボットの実験は、Sim2Realギャップに対処するアプローチを備えた最先端の安全なDRLフレームワーク上に構築された連続学習と比較して、SeC学習マシンの際立った特徴を実証している。

This paper proposes the SeC-Learning Machine: Simplex-enabled safe continual learning for safety-critical autonomous systems. The SeC-learning machine is built on Simplex logic (that is, ``using simplicity to control complexity'') and physics-regulated deep reinforcement learning (Phy-DRL). The SeC-learning machine thus constitutes HP (high performance)-Student, HA (high assurance)-Teacher, and Coordinator. Specifically, the HP-Student is a pre-trained high-performance but not fully verified Phy-DRL, continuing to learn in a real plant to tune the action policy to be safe. In contrast, the HA-Teacher is a mission-reduced, physics-model-based, and verified design. As a complementary, HA-Teacher has two missions: backing up safety and correcting unsafe learning. The Coordinator triggers the interaction and the switch between HP-Student and HA-Teacher. Powered by the three interactive components, the SeC-learning machine can i) assure lifetime safety (i.e., safety guarantee in any continual-learning stage, regardless of HP-Student's success or convergence), ii) address the Sim2Real gap, and iii) learn to tolerate unknown unknowns in real plants. The experiments on a cart-pole system and a real quadruped robot demonstrate the distinguished features of the SeC-learning machine, compared with continual learning built on state-of-the-art safe DRL frameworks with approaches to addressing the Sim2Real gap.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-05
# メモリ最適化ワン・フォー・オールネットワーク

Memory-Optimized Once-For-All Network ( http://arxiv.org/abs/2409.05900v1 )

ライセンス: Link先を確認
Maxime Girard, Victor Quétu, Samuel Tardieu, Van-Tam Nguyen, Enzo Tartaglione, (参考訳) さまざまなハードウェアプラットフォームにDeep Neural Networks(DNN)をデプロイするのは、リソースの制約が多様であるため、難しい。 ディープモデルをハードウェアフレンドリにすることを目的とした手作りのアプローチに加えて、Neural Architectures Searchは、パフォーマンスを犠牲にすることなく、より効率的なDNNを構築するためのツールボックスとして台頭している。 これらのうち、Imped-For-All(OFA)アプローチは、単一のスーパーネットから優れたパフォーマンスのサブネットワークをサンプリングすることで、ソリューションを提供する。 しかし、OFAはターゲットデバイスの潜在的なメモリ容量を完全に利用せず、代わりに層ごとのメモリ使用量を制限することに重点を置いている。 このことは、モデル一般化可能性の観点で明らかでないポテンシャルを持つ余地を残している。 本稿では,メモリ使用量(および機能多様性)を最大化し,資源制限されたデバイス上でのDNN展開を改善するために設計されたメモリ最適化OF(MOOFA)スーパーネットを提案する。 ImageNetでテストしたMOOFAスーパーネットは、元のOFAスーパーネットと比較してメモリ利用率とモデル精度の向上を実証している。 私たちのコードはhttps://github.com/MaximeGirard/Memory-optimized-once-for-all.comで利用可能です。

Deploying Deep Neural Networks (DNNs) on different hardware platforms is challenging due to varying resource constraints. Besides handcrafted approaches aiming at making deep models hardware-friendly, Neural Architectures Search is rising as a toolbox to craft more efficient DNNs without sacrificing performance. Among these, the Once-For-All (OFA) approach offers a solution by allowing the sampling of well-performing sub-networks from a single supernet -- this leads to evident advantages in terms of computation. However, OFA does not fully utilize the potential memory capacity of the target device, focusing instead on limiting maximum memory usage per layer. This leaves room for an unexploited potential in terms of model generalizability. In this paper, we introduce a Memory-Optimized OFA (MOOFA) supernet, designed to enhance DNN deployment on resource-limited devices by maximizing memory usage (and for instance, features diversity) across different configurations. Tested on ImageNet, our MOOFA supernet demonstrates improvements in memory exploitation and model accuracy compared to the original OFA supernet. Our code is available at https://github.com/MaximeGirard/memory-optimized-once-for-all.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-05
# Fast ($\sim N$) Diffusion Map Algorithm

Fast ($\sim N$) Diffusion Map Algorithm ( http://arxiv.org/abs/2409.05901v1 )

ライセンス: Link先を確認
Julio Candanedo, (参考訳) 本研究では,特に拡散写像のための擬似多様体学習手法について検討する。 我々はアルゴリズムを実証し、その実装は計算複雑性(時間とメモリの両方)が$\sim N$で、$N$はサンプルの数を表す。 これらの手法は、サンプリング定理の制限により、事前の仮定なしに大規模な教師なし学習タスクに必須である。

In this work we explore parsimonious manifold learning techniques, specifically for Diffusion-maps. We demonstrate an algorithm and it's implementation with computational complexity (in both time and memory) of $\sim N$, with $N$ representing the number-of-samples. These techniques are essential for large-scale unsupervised learning tasks without any prior assumptions, due to sampling theorem limitations.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-05
# 順番に学習する!マルチモーダル感性分析のための不変特徴を学習するための逐次的戦略

Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2409.04473v1 )

ライセンス: Link先を確認
Xianbing Zhao, Lizhen Qu, Tao Feng, Jianfei Cai, Buzhou Tang, (参考訳) 本研究は,マルチモーダル感情分析のために,ビデオやテキスト上でモデルをトレーニングするための,新しい,シンプルな逐次学習戦略を提案する。 そこで本研究では,学習戦略を用いて,単一ソースドメインと複数ソースドメインのいずれかでトレーニングされたマルチモーダルモデルを提案する。 この戦略は、テキストからドメイン不変機能を学び、その後、テキストで学んだ選択された機能によって支援されたビデオから疎いドメイン非依存機能を学ぶことから始まる。 実験の結果,本モデルでは,単一ソースと複数ソースの両方で,最先端の手法よりも性能が向上していることがわかった。 特徴選択手順は, 互いに独立して, 極性ラベルと強く相関する特徴を優先する。 このトピックについての研究を促進するため、この作業のソースコードは受理時に公開されます。

This work proposes a novel and simple sequential learning strategy to train models on videos and texts for multimodal sentiment analysis. To estimate sentiment polarities on unseen out-of-distribution data, we introduce a multimodal model that is trained either in a single source domain or multiple source domains using our learning strategy. This strategy starts with learning domain invariant features from text, followed by learning sparse domain-agnostic features from videos, assisted by the selected features learned in text. Our experimental results demonstrate that our model achieves significantly better performance than the state-of-the-art approaches on average in both single-source and multi-source settings. Our feature selection procedure favors the features that are independent to each other and are strongly correlated with their polarity labels. To facilitate research on this topic, the source code of this work will be publicly available upon acceptance.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# 自動車システムにおけるセキュリティ保証事例の理解と適用に向けて

Towards Understanding and Applying Security Assurance Cases for Automotive Systems ( http://arxiv.org/abs/2409.04474v1 )

ライセンス: Link先を確認
Mazen Mohamad, (参考訳) セキュリティ保証事件(Security Assurance Cases, SAC)は、ある特定のアーチファクトのセキュリティ特性を推論するために用いられる議論と証拠の構造体である。 SACは、ソフトウェアが自動車の主要部品になるため、セキュリティ保証の必要性が高まっているため、自動車分野に重点を置いている。 ドメイン内の新しいサービスや製品に対する市場要求は、接続性を必要とし、したがってセキュリティ上の懸念を提起する。 規制当局と標準化機関は、最近、自動車分野における製品のセキュリティ保証のための構造が必要となり、自動車会社がこれらのケースの作成と維持方法の研究を始め、現在の作業方法にそれらを採用するようになった。 自動車分野におけるSACの採用を促進するため,我々は,品質保証とISO/SAE-21434の要件に準拠したSAAC作成のためのアプローチであるCASCADEを開発した。 CASCADEは、デザイン科学の研究を2つの反復サイクルで行なった。 CASCADEの設計決定は、産業におけるSACにおける仕事のニーズとドライバに関する、ワークショップ、調査、一対一のインタビューを含む質的研究の洞察と、産業ニーズと最先端技術との間のギャップを識別する体系的な文献レビューに基づいています。 CASCADEの評価は、大規模な自動車OEMのセキュリティ専門家の助けを借りて行われた。 工業製品開発プロセスの統合にはCASCADEが適していることがわかった。 さらに,本研究の結果から,CASCADEの要素は企業における働き方に対して良好に整合し,大規模組織と複雑な製品で企業の要求やニーズをカバーできる可能性を示した。

Security Assurance Cases (SAC) are structured bodies of arguments and evidence used to reason about security properties of a certain artefact. SAC are gaining focus in the automotive domain as the need for security assurance is growing due to software becoming a main part of vehicles. Market demands for new services and products in the domain require connectivity, and hence, raise security concerns. Regulators and standardisation bodies started recently to require a structured for security assurance of products in the automotive domain, and automotive companies started, hence, to study ways to create and maintain these cases, as well as adopting them in their current way of working. In order to facilitate the adoption of SAC in the automotive domain, we created CASCADE, an approach for creating SAC which have integrated quality assurance and are compliant with the requirements of ISO/SAE-21434, the upcoming cybersecurity standard for automotive systems. CASCADE was created by conducting design science research study in two iterative cycles. The design decisions of CASCADE are based on insights from a qualitative research study which includes a workshop, a survey, and one-to-one interviews, done in collaboration with our industrial partners about the needs and drivers of work in SAC in industry, and a systematic literature review in which we identified gaps between the industrial needs and the state of the art. The evaluation of CASCADE was done with help of security experts from a large automotive OEM. It showed that CASCADE is suitable for integration in industrial product development processes. Additionally, our results show that the elements of CASCADE align well with respect to the way of working at the company, and has the potential to scale to cover the requirements and needs of the company with its large organization and complex products
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# 大規模言語モデルによるデータベースQ&Aの革命: 総合的なベンチマークと評価

Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation ( http://arxiv.org/abs/2409.04475v1 )

ライセンス: Link先を確認
Yihang Zheng, Bo Li, Zhenghao Lin, Yi Luo, Xuanhe Zhou, Chen Lin, Jinsong Su, Guoliang Li, Shifu Li, (参考訳) 大規模言語モデル(LLMs)の開発は、データベースドメインを含む様々な産業のQ&Aに革命をもたらした。 しかし、データベースのQ&Aにおいて、異なるLLMとそのモジュールコンポーネントの機能を評価するための包括的なベンチマークがまだ存在しない。 この目的のために、最初の総合的なデータベースQ&AベンチマークであるDQAを紹介する。 DQAは、データベースQ&Aの生成、クリーニング、書き直しを自動化する革新的なLCMベースの手法を備えており、英語と中国語で24万組以上のQ&Aペアが存在する。 これらのQ&Aペアは、データベースマニュアル、データベースブログ、データベースツールなど、データベース知識のほぼすべての側面をカバーする。 このインクルージョンは、データベースQ&AタスクにおけるLLMの検索・拡張生成(RAG)とツール起動生成(TIG)機能の追加評価を可能にする。 さらに,DQA 上での総合的な LLM ベースのデータベース Q&A テストベッドを提案する。 このテストベッドは高度にモジュール化されており、質問分類ルーティング(QCR)、RAG、TIG、Prompt Template Engineering(PTE)といった基本的なコンポーネントと先進的なコンポーネントがある。 さらに、DQAは、さまざまなメトリクスと、包括性、正確性、公正性を保証するための標準化された評価プロセスを備えた、完全な評価パイプラインを提供する。 提案したテストベッドのデータベースQ&A機能を総合的に評価するために,DQAを使用する。 評価の結果は i)9種類のLDMベースのQ&Aボットの長所と短所 (ii)様々なサービスコンポーネント(例えば、QCR、RAG、TIG)のパフォーマンスへの影響と潜在的な改善。 LLMベースのデータベースQ&A研究の今後の発展を、我々のベンチマークと結果がより良く導くことを願っている。

The development of Large Language Models (LLMs) has revolutionized Q&A across various industries, including the database domain. However, there is still a lack of a comprehensive benchmark to evaluate the capabilities of different LLMs and their modular components in database Q&A. To this end, we introduce DQA, the first comprehensive database Q&A benchmark. DQA features an innovative LLM-based method for automating the generation, cleaning, and rewriting of database Q&A, resulting in over 240,000 Q&A pairs in English and Chinese. These Q&A pairs cover nearly all aspects of database knowledge, including database manuals, database blogs, and database tools. This inclusion allows for additional assessment of LLMs' Retrieval-Augmented Generation (RAG) and Tool Invocation Generation (TIG) capabilities in the database Q&A task. Furthermore, we propose a comprehensive LLM-based database Q&A testbed on DQA. This testbed is highly modular and scalable, with both basic and advanced components like Question Classification Routing (QCR), RAG, TIG, and Prompt Template Engineering (PTE). Besides, DQA provides a complete evaluation pipeline, featuring diverse metrics and a standardized evaluation process to ensure comprehensiveness, accuracy, and fairness. We use DQA to evaluate the database Q&A capabilities under the proposed testbed comprehensively. The evaluation reveals findings like (i) the strengths and limitations of nine different LLM-based Q&A bots and (ii) the performance impact and potential improvements of various service components (e.g., QCR, RAG, TIG). We hope our benchmark and findings will better guide the future development of LLM-based database Q&A research.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# Snake-in-the-box問題のQUBO定式化とCoil-in-the-box問題

QUBO formulation for the Snake-in-the-box and Coil-in-the-box problems ( http://arxiv.org/abs/2409.04476v1 )

ライセンス: Link先を確認
Federico Fuidio, Eduardo Canale, Rafael Sotelo, (参考訳) 本稿では,Snake-in-the-box(SITB)問題とCoil-in-the-box(CITB)問題に対するQUBOの定式化について述べる。 どちらの定式化も最大誘導路と最大誘導路のNP-Hard問題をそれぞれ解くことができる。 この過程で、最大共通誘導部分グラフ問題に対する新しいQUBOの定式化が発見された。 SITB, CITB, 最大共通部分グラフ問題の定式化の正しさを証明し, SITB, CITBの定式化を古典的および量子的解法の両方で検証し, 最大5次元の解を得ることができた。

This paper present the first QUBO formulations for the Snake-in-the-box (SITB) and Coil-in-the-box (CITB) problems. Both formulations are also capable of solving the NP-Hard problems of Maximum induced path and Maximum induced cylce respectively. In the process we also found a new QUBO formulation for the Maximum Common Induced Sub-graph problem. We proved the correctness of our formulations for the SITB, CITB and Maximum Common Sub-graph problem, and tested the formulations of the SITB and CITB in both classical and quantum solvers, being able to get the best solution for up to 5 dimensions.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# Bias-Field Digitized Counterdiabatic Quantum Algorithmによる高次二項最適化

Bias-Field Digitized Counterdiabatic Quantum Algorithm for Higher-Order Binary Optimization ( http://arxiv.org/abs/2409.04477v1 )

ライセンス: Link先を確認
Sebastián V. Romero, Anne-Maria Visuri, Alejandro Gomez Cadavid, Enrique Solano, Narendra N. Hegade, (参考訳) 本稿では,高次非拘束二元最適化(HUBO)問題に対処するため,BF-DCQOアルゴリズムを改良した。 組合せ最適化は多くの産業アプリケーションにおいて重要な役割を担っているが、古典的コンピューティングはしばしば複雑なインスタンスと競合する。 これらの問題をイジングスピングラスとしてエンコードし、量子コンピューティング技術の進歩を活用することで、量子最適化法は有望な代替手段として出現する。 我々は,Isingスピングラスモデルにおける3つの局所項を含むHUBO問題に対して,バイアス項を拡張したBF-DCQOを適用した。 我々のプロトコルは、重いヘックスアーキテクチャを持つIBM量子プロセッサ上で、156量子ビットを用いて実験的に検証されている。 研究例では、量子近似最適化アルゴリズム(QAOA)、量子アニール、シミュレートされたアニール、タブサーチなど、標準的な手法よりも優れた結果を得た。 さらに、MPSシミュレーションを行い、433量子ビットのOsprey型量子プロセッサ上で、同様のHUBO問題の実現可能性の数値的証拠を提供する。 どちらのケースも、156量子ビットの実験と433量子ビットのシミュレーションは、商業的な量子優位の時代であるキプディクシットの始まりと見なすことができる。

We present an enhanced bias-field digitized counterdiabatic quantum optimization (BF-DCQO) algorithm to address higher-order unconstrained binary optimization (HUBO) problems. Combinatorial optimization plays a crucial role in many industrial applications, yet classical computing often struggles with complex instances. By encoding these problems as Ising spin glasses and leveraging the advancements in quantum computing technologies, quantum optimization methods emerge as a promising alternative. We apply BF-DCQO with an enhanced bias term to a HUBO problem featuring three-local terms in the Ising spin-glass model. Our protocol is experimentally validated using 156 qubits on an IBM quantum processor with a heavy-hex architecture. In the studied instances, the results outperform standard methods, including the quantum approximate optimization algorithm (QAOA), quantum annealing, simulated annealing, and Tabu search. Furthermore, we perform an MPS simulation and provide numerical evidence of the feasibility of a similar HUBO problem on a 433-qubit Osprey-like quantum processor. Both studied cases, the experiment on 156 qubits and the simulation on 433 qubits, can be considered as the start of the commercial quantum advantage era, Kipu dixit, and even more when extended soon to denser industry-level HUBO problems.
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# オープンソーススパースオートエンコーダによるGPT-2小形ファクチュアル知識の分散評価

Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small ( http://arxiv.org/abs/2409.04478v1 )

ライセンス: Link先を確認
Maheep Chaudhary, Atticus Geiger, (参考訳) 機械的解釈性における一般的な新しい手法は、高次元スパースオートエンコーダ(SAE)をニューロンの活性化で訓練し、SAE特徴を分析の原子単位として使用することである。 しかし,SAE特徴空間が因果解析に有用かどうかの証拠は乏しい。 本研究では,GAT-2小の隠れ表現を訓練したSAEが,都市がどの国にあるのか,どの大陸にあるのかを個別に仲介する特徴を持つかどうかを評価するために,RAVELベンチマークを用いた。 我々は,GPT-2の4つのオープンソースSAEを互いに比較し,ベースラインとして機能するニューロンと,スカイラインとして機能する分散アライメントサーチ(DAS)によって学習される線形特徴について検討した。 それぞれにバイナリマスクを学習し、大陸を変えることなく、都市の国を変えるためにパッチが当てられる機能を選択します。 以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。 https://github.com/MaheepChaudhary/SAE-Ravel

A popular new method in mechanistic interpretability is to train high-dimensional sparse autoencoders (SAEs) on neuron activations and use SAE features as the atomic units of analysis. However, the body of evidence on whether SAE feature spaces are useful for causal analysis is underdeveloped. In this work, we use the RAVEL benchmark to evaluate whether SAEs trained on hidden representations of GPT-2 small have sets of features that separately mediate knowledge of which country a city is in and which continent it is in. We evaluate four open-source SAEs for GPT-2 small against each other, with neurons serving as a baseline, and linear features learned via distributed alignment search (DAS) serving as a skyline. For each, we learn a binary mask to select features that will be patched to change the country of a city without changing the continent, or vice versa. Our results show that SAEs struggle to reach the neuron baseline, and none come close to the DAS skyline. We release code here: https://github.com/MaheepChaudhary/SAE-Ravel
翻訳日:2024-09-10 22:45:53 公開日:2024-09-05
# 異常検出のための連続学習手法

Continual Learning Approaches for Anomaly Detection ( http://arxiv.org/abs/2212.11192v2 )

ライセンス: Link先を確認
Davide Dalle Pezze, Eugenia Anello, Chiara Masiero, Gian Antonio Susto, (参考訳) 異常検出は、特に画像を扱う際に、多くの現実世界のアプリケーションで発生する関連する問題である。 しかし、継続学習環境においては、この課題についてはほとんど研究されていない。 本研究では,SCALing is Enough(SCALing is Enough)と呼ばれる新しい手法を導入し,連続学習環境における異常検出のためのフレームワークで圧縮再生を行う。 提案手法は,我々の知る限り,連続学習環境において初めて研究されるスーパーレゾリューションモデルを用いて,原画像のスケールと圧縮を行う。 SCALEは、高いレベルの画像再構成品質を維持しながら、高いレベルの圧縮を実現することができる。 他の異常検出手法と組み合わせて最適な結果が得られる。 提案手法を検証するために,画素ベースの異常のある実世界の画像データセットを用いて,連続学習の文脈における異常検出のための信頼性の高いベンチマークを提供する。

Anomaly Detection is a relevant problem that arises in numerous real-world applications, especially when dealing with images. However, there has been little research for this task in the Continual Learning setting. In this work, we introduce a novel approach called SCALE (SCALing is Enough) to perform Compressed Replay in a framework for Anomaly Detection in Continual Learning setting. The proposed technique scales and compresses the original images using a Super Resolution model which, to the best of our knowledge, is studied for the first time in the Continual Learning setting. SCALE can achieve a high level of compression while maintaining a high level of image reconstruction quality. In conjunction with other Anomaly Detection approaches, it can achieve optimal results. To validate the proposed approach, we use a real-world dataset of images with pixel-based anomalies, with the scope to provide a reliable benchmark for Anomaly Detection in the context of Continual Learning, serving as a foundation for further advancements in the field.
翻訳日:2024-09-09 21:18:57 公開日:2024-09-05
# スコアモデルによるベイジアン・クラメール・ラオ境界の推定

Bayesian Cramér-Rao Bound Estimation with Score-Based Models ( http://arxiv.org/abs/2309.16076v3 )

ライセンス: Link先を確認
Evan Scope Crafts, Xianyang Zhang, Bo Zhao, (参考訳) ベイズクラム・ラオ境界(英語版)(英: Bayesian Cram\'er-Rao bound, CRB)は、任意のベイズ推定器の平均二乗誤差に対して、穏やかな規則性条件下での下界を与える。 統計推定器の性能のベンチマークに使用することができ、システム設計と最適化のための原則化された指標を提供する。 しかし、ベイジアン CRB は基礎となる事前分布に依存しており、多くの問題に対してしばしば未知である。 本研究は,ベイジアン CRB のスコアマッチングを用いた新しいデータ駆動推定手法,すなわち与えられたトレーニングデータから確率分布の勾配をモデル化する統計的推定手法を導入する。 提案した推定器の性能は,古典的パラメトリック・モデリング・レジームとニューラルネットワーク・モデリング・レジームの両方で解析される。 いずれの設定においても,古典的境界を含む経験的プロセス理論の結果に基づいて,スコアマッチング誤差とベイジアン CRB 推定器の新たな非漸近境界を開発し,最近ニューラルネットワークのキャラクタリゼーション技術を導入した。 提案した推定器の性能を2つの応用例で説明する: 通信システムにおける信号分解問題と動的位相オフセット推定問題である。

The Bayesian Cram\'er-Rao bound (CRB) provides a lower bound on the mean square error of any Bayesian estimator under mild regularity conditions. It can be used to benchmark the performance of statistical estimators, and provides a principled metric for system design and optimization. However, the Bayesian CRB depends on the underlying prior distribution, which is often unknown for many problems of interest. This work introduces a new data-driven estimator for the Bayesian CRB using score matching, i.e., a statistical estimation technique that models the gradient of a probability distribution from a given set of training data. The performance of the proposed estimator is analyzed in both the classical parametric modeling regime and the neural network modeling regime. In both settings, we develop novel non-asymptotic bounds on the score matching error and our Bayesian CRB estimator based on the results from empirical process theory, including classical bounds and recently introduced techniques for characterizing neural networks. We illustrate the performance of the proposed estimator with two application examples: a signal denoising problem and a dynamic phase offset estimation problem in communication systems.
翻訳日:2024-09-09 21:08:19 公開日:2024-09-05
# 不正確な勾配を持つ無バイアス運動性ランゲヴィンモンテカルロ

Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients ( http://arxiv.org/abs/2311.05025v3 )

ライセンス: Link先を確認
Neil K. Chada, Benedict Leimkuhler, Daniel Paulin, Peter A. Whalley, (参考訳) 本稿では,高度分割法と高次勾配近似を併用した速度論的ランゲヴィンダイナミクスに基づくベイズ的後進手段の非バイアス化手法を提案する。 提案手法は,マルチレベルモンテカルロ法においてマルコフ連鎖を異なる離散化レベルで結合することにより,メトロポリス補正を回避する。 理論的解析は、提案した推定器が偏りがなく、有限分散に達し、中心極限定理を満たすことを証明している。 温度開始を仮定することなく、$\mathcal{O}(d^{1/4}\epsilon^{-2})$期待勾配評価で、$d$次元のリプシッツ関数の期待を推定するために、精度$\epsilon>0$を達成することができる。 近似的勾配と確率的勾配の両方を用いて類似した境界を示し、本手法の計算コストはデータセットのサイズによらずスケールすることが示されている。 提案手法は,MNISTデータセット上の多項回帰問題と,サッカースコアに対するポアソン回帰モデルを用いて検証する。 実験により, 有効試料当たりの勾配評価の数は, 不正確な勾配を用いた場合においても, 寸法に依存しないことが示唆された。 積分布に対して、次元非依存な分散境界を与える。 以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアンモンテカルロよりも2~3桁効率が良いことが示された。

We present an unbiased method for Bayesian posterior means based on kinetic Langevin dynamics that combines advanced splitting methods with enhanced gradient approximations. Our approach avoids Metropolis correction by coupling Markov chains at different discretization levels in a multilevel Monte Carlo approach. Theoretical analysis demonstrates that our proposed estimator is unbiased, attains finite variance, and satisfies a central limit theorem. It can achieve accuracy $\epsilon>0$ for estimating expectations of Lipschitz functions in $d$ dimensions with $\mathcal{O}(d^{1/4}\epsilon^{-2})$ expected gradient evaluations, without assuming warm start. We exhibit similar bounds using both approximate and stochastic gradients, and our method's computational cost is shown to scale independently of the size of the dataset. The proposed method is tested using a multinomial regression problem on the MNIST dataset and a Poisson regression model for soccer scores. Experiments indicate that the number of gradient evaluations per effective sample is independent of dimension, even when using inexact gradients. For product distributions, we give dimension-independent variance bounds. Our results demonstrate that in large-scale applications, the unbiased algorithm we present can be 2-3 orders of magnitude more efficient than the ``gold-standard" randomized Hamiltonian Monte Carlo.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-05
# Visual Promptingがニューラルネットワークのスパーシフィケーションをアップグレード:データモデルの観点から

Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective ( http://arxiv.org/abs/2312.01397v3 )

ライセンス: Link先を確認
Can Jin, Tianjin Huang, Yihua Zhang, Mykola Pechenizkiy, Sijia Liu, Shiwei Liu, Tianlong Chen, (参考訳) 大規模ディープラーニングモデルの急速な発展は、ハードウェアプラットフォームが手に入る可能性に疑問を呈する。 製品としてのスパースニューラルネットワークは、複雑性の低下や損傷のない一般化など、数多くの有利なメリットを示している。 プルーニング戦略の多くは、ネットワークトポロジの分析による重要な重みの探索と保存に焦点をあてて、モデル中心の観点から考案されたものである。 しかし、データの役割とモデル中心のプルーニングとの相互作用は、いまだに解明されていない。 本研究では,重要なモデルトポロジと適切な入力データを相乗的に学習することで,より優れた重量空間性を促進する,新しいデータモデル共設計視点を提案する。 具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。 先駆的な取り組みとして,異なる視覚的プロンプトがモデルプルーニングに与える影響について系統的研究を行い,効果的な共同最適化手法を提案する。 3つのネットワークアーキテクチャと8つのデータセットによる大規模な実験は、既存の最先端のプルーニングアルゴリズムよりもVPNによる大幅なパフォーマンス向上を示している。 さらに、トレーニング済みモデルからVPNによって発見されたサブネットワークは、さまざまなダウンストリームシナリオ間で転送性が向上していることが判明した。 これらの洞察は、ビジョンモデルスペーサー化のためのデータモデル共設計の新たな有望な可能性に光を当てた。

The rapid development of large-scale deep learning models questions the affordability of hardware platforms, which necessitates the pruning to reduce their computational and memory footprints. Sparse neural networks as the product, have demonstrated numerous favorable benefits like low complexity, undamaged generalization, etc. Most of the prominent pruning strategies are invented from a model-centric perspective, focusing on searching and preserving crucial weights by analyzing network topologies. However, the role of data and its interplay with model-centric pruning has remained relatively unexplored. In this research, we introduce a novel data-model co-design perspective: to promote superior weight sparsity by learning important model topology and adequate input data in a synergetic manner. Specifically, customized Visual Prompts are mounted to upgrade neural Network sparsification in our proposed VPNs framework. As a pioneering effort, this paper conducts systematic investigations about the impact of different visual prompts on model pruning and suggests an effective joint optimization approach. Extensive experiments with 3 network architectures and 8 datasets evidence the substantial performance improvements from VPNs over existing start-of-the-art pruning algorithms. Furthermore, we find that subnetworks discovered by VPNs from pre-trained models enjoy better transferability across diverse downstream scenarios. These insights shed light on new promising possibilities of data-model co-designs for vision model sparsification.
翻訳日:2024-09-09 20:53:23 公開日:2024-09-05
# SQuADDS:超伝導量子ビット設計のための検証済み設計データベースとシミュレーションワークフロー

SQuADDS: A validated design database and simulation workflow for superconducting qubit design ( http://arxiv.org/abs/2312.13483v3 )

ライセンス: Link先を確認
Sadman Shanto, Andre Kuo, Clark Miyamoto, Haimeng Zhang, Vivek Maurya, Evangelos Vlachos, Malida Hecht, Chung Wa Shum, Eli Levenson-Falk, (参考訳) 本稿では,超伝導量子デバイス設計のオープンソースデータベースについて紹介する。 それぞれの設計はオープンソースのQiskit Metalパッケージを使ってプログラムで生成でき、有限要素電磁解法を用いてシミュレートできる。 本稿では,設計シミュレーションにおける高精度なワークフローを提案する。 データベースにおける多くの設計は実験的に検証され、シミュレーションパラメータと測定パラメータの良好な一致を示す。 我々のデータベースにはフロントエンドインタフェースが含まれており、ユーザーは所望の回路パラメータに基づいて ``best-guess'' の設計を生成できる。 このプロジェクトは、新しい種類のデバイスを作ろうとする研究グループの参入障壁を低くする。

We present an open-source database of superconducting quantum device designs that may be used as the starting point for customized devices. Each design can be generated programmatically using the open-source Qiskit Metal package, and simulated using finite-element electromagnetic solvers. We present a robust workflow for achieving high accuracy on design simulations. Many designs in the database are experimentally validated, showing excellent agreement between simulated and measured parameters. Our database includes a front-end interface that allows users to generate ``best-guess'' designs based on desired circuit parameters. This project lowers the barrier to entry for research groups seeking to make a new class of devices by providing them a well-characterized starting point from which to refine their designs.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-05
# 基礎モデル学習における効果的なフェデレーション学習手法の検討

A Survey on Efficient Federated Learning Methods for Foundation Model Training ( http://arxiv.org/abs/2401.04472v3 )

ライセンス: Link先を確認
Herbert Woisetschläger, Alexander Isenko, Shiqiang Wang, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。 しかし、FLに対する新しいアプローチは、小さなディープラーニングモデルにのみ関与する彼らの貢献について議論し、クライアントでフルモデルをトレーニングすることに集中することが多い。 Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。 通常、FMはすでに様々なタスクで事前トレーニングされており、完全なモデルトレーニングよりもはるかに小さなデータセットで特定の下流タスクに微調整することができる。 しかし、そのようなデータセットへのアクセスは、しばしば困難である。 その設計上、FLはデータサイロを開くのに役立ちます。 本調査では,計算効率と通信効率に着目した新しい分類法を導入する。 我々は、FLアプリケーションにおけるパラメータ効率細調整(PEFT)の利点と欠点について論じ、FLフレームワークのFM対応性について詳しく検討し、FLにおける生成モデルの評価方法や、プライバシとPEFTの相互運用に関する今後の研究機会を提供する。

Federated Learning (FL) has become an established technique to facilitate privacy-preserving collaborative training across a multitude of clients. However, new approaches to FL often discuss their contributions involving small deep-learning models only and focus on training full models on clients. In the wake of Foundation Models (FM), the reality is different for many deep learning applications. Typically, FMs have already been pre-trained across a wide variety of tasks and can be fine-tuned to specific downstream tasks over significantly smaller datasets than required for full model training. However, access to such datasets is often challenging. By its design, FL can help to open data silos. With this survey, we introduce a novel taxonomy focused on computational and communication efficiency, the vital elements to make use of FMs in FL systems. We discuss the benefits and drawbacks of parameter-efficient fine-tuning (PEFT) for FL applications, elaborate on the readiness of FL frameworks to work with FMs, and provide future research opportunities on how to evaluate generative models in FL as well as the interplay of privacy and PEFT.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-05
# CURE:ロボットのシミュレーションによるオートチューニング

CURE: Simulation-Augmented Auto-Tuning in Robotics ( http://arxiv.org/abs/2402.05399v2 )

ライセンス: Link先を確認
Md Abir Hossen, Sonam Kharade, Jason M. O'Kane, Bradley Schmerl, David Garlan, Pooyan Jamshidi, (参考訳) ロボットシステムは通常、ローカライゼーションやナビゲーションなどの様々なサブシステムで構成され、それぞれが多数の構成可能なコンポーネント(例えば、異なる計画アルゴリズムを選択する)を含んでいる。 あるコンポーネントに対してアルゴリズムが選択されると、関連する設定オプションを適切な値に設定する必要がある。 システムスタック全体の設定オプションは、非自明に相互作用する。 高度に構成可能なロボットが望ましいパフォーマンスを達成するための最適な構成を見つけることは、ソフトウェアとハードウェア間の構成オプション間の相互作用が指数関数的に大きく複雑な構成空間をもたらすため、大きな課題となる。 これらの課題は、異なる環境とロボットプラットフォーム間の転送可能性の必要性によってさらに複雑化している。 データ効率のよい最適化アルゴリズム(ベイズ最適化など)は、サイバー物理システムにおける構成可能なパラメータのチューニングを自動化するために、ますます採用されている。 しかし、そのような最適化アルゴリズムは、割り当てられた予算(例えば、最適化ステップ、割り当て時間)を浪費し、転送性に欠けた後に、後段に収束する。 本稿では,因果関係のある構成オプションを識別し,探索空間を縮小し,ロボットの性能を高速に最適化するCUREを提案する。 CUREは、ソース内の因果モデル(ガゼボシミュレータのような低コスト環境)を学習し、学習知識を適用して目標(例えば、Turtlebot 3物理ロボット)を最適化することで、様々な構成オプションとロボット性能目標間の因果関係を抽象化する。 物理ロボットとシミュレーションの両方において,様々な展開変化を伴う実験を行うことで,CUREの有効性と伝達性を示す。

Robotic systems are typically composed of various subsystems, such as localization and navigation, each encompassing numerous configurable components (e.g., selecting different planning algorithms). Once an algorithm has been selected for a component, its associated configuration options must be set to the appropriate values. Configuration options across the system stack interact non-trivially. Finding optimal configurations for highly configurable robots to achieve desired performance poses a significant challenge due to the interactions between configuration options across software and hardware that result in an exponentially large and complex configuration space. These challenges are further compounded by the need for transferability between different environments and robotic platforms. Data efficient optimization algorithms (e.g., Bayesian optimization) have been increasingly employed to automate the tuning of configurable parameters in cyber-physical systems. However, such optimization algorithms converge at later stages, often after exhausting the allocated budget (e.g., optimization steps, allotted time) and lacking transferability. This paper proposes CURE -- a method that identifies causally relevant configuration options, enabling the optimization process to operate in a reduced search space, thereby enabling faster optimization of robot performance. CURE abstracts the causal relationships between various configuration options and robot performance objectives by learning a causal model in the source (a low-cost environment such as the Gazebo simulator) and applying the learned knowledge to perform optimization in the target (e.g., Turtlebot 3 physical robot). We demonstrate the effectiveness and transferability of CURE by conducting experiments that involve varying degrees of deployment changes in both physical robots and simulation.
翻訳日:2024-09-09 20:43:32 公開日:2024-09-05
# 以下:サブモジュールサブセット選択による解釈可能な領域の減少

Less is More: Fewer Interpretable Region via Submodular Subset Selection ( http://arxiv.org/abs/2402.09164v3 )

ライセンス: Link先を確認
Ruoyu Chen, Hua Zhang, Siyuan Liang, Jingzhi Li, Xiaochun Cao, (参考訳) 画像帰属アルゴリズムは、モデル決定に非常に関係のある重要な領域を特定することを目的としている。 既存の属性ソリューションは、ターゲット要素に効果的に重要度を割り当てることができますが、それでも以下の課題に直面します。 1) 既存の属性法は、不正確な小さな領域を生成して、正しい属性の方向を誤認し、 2) モデルでは, 誤った予測を行うサンプルに対して良好な帰属結果が得られない。 上記の課題に対処するため,本論文では,より少ない領域を用いたモデル解釈可能性の向上を目的としたサブモジュール部分集合選択問題として,上記の画像帰属問題をモデル化する。 局所領域への注意の欠如に対処するため,我々はより正確な小解釈領域を発見するために,新しい部分モジュラー関数を構築した。 また,すべてのサンプルに対する帰属効果を高めるために,サブリージョンの選択に4つの制約,すなわち信頼性,有効性,一貫性,コラボレーションスコアを課し,各サブセットの重要性を評価する。 さらに、我々の理論解析は、提案された関数が実際は部分モジュラーであることを示す。 大規模な実験により,提案手法は2つの顔データセット(Celeb-AとVGG-Face2)と1つのきめ細かいデータセット(CUB-200-2011)においてSOTA法より優れていた。 正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。 提案手法は, HSIC-Attributionアルゴリズムの平均信頼度と挿入率に対して, それぞれ81.0%, 18.4%のゲインを達成している。 コードはhttps://github.com/RuoyuChen10/SMDL-Attributionで公開されている。

Image attribution algorithms aim to identify important regions that are highly relevant to model decisions. Although existing attribution solutions can effectively assign importance to target elements, they still face the following challenges: 1) existing attribution methods generate inaccurate small regions thus misleading the direction of correct attribution, and 2) the model cannot produce good attribution results for samples with wrong predictions. To address the above challenges, this paper re-models the above image attribution problem as a submodular subset selection problem, aiming to enhance model interpretability using fewer regions. To address the lack of attention to local regions, we construct a novel submodular function to discover more accurate small interpretation regions. To enhance the attribution effect for all samples, we also impose four different constraints on the selection of sub-regions, i.e., confidence, effectiveness, consistency, and collaboration scores, to assess the importance of various subsets. Moreover, our theoretical analysis substantiates that the proposed function is in fact submodular. Extensive experiments show that the proposed method outperforms SOTA methods on two face datasets (Celeb-A and VGG-Face2) and one fine-grained dataset (CUB-200-2011). For correctly predicted samples, the proposed method improves the Deletion and Insertion scores with an average of 4.9% and 2.5% gain relative to HSIC-Attribution. For incorrectly predicted samples, our method achieves gains of 81.0% and 18.4% compared to the HSIC-Attribution algorithm in the average highest confidence and Insertion score respectively. The code is released at https://github.com/RuoyuChen10/SMDL-Attribution.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-05
# InGRASS:低抵抗次元分解によるインクリメンタルグラフスペクトルスペーサー化

inGRASS: Incremental Graph Spectral Sparsification via Low-Resistance-Diameter Decomposition ( http://arxiv.org/abs/2402.16990v2 )

ライセンス: Link先を確認
Ali Aghdaei, Zhuo Feng, (参考訳) この研究は、大きな非方向グラフのインクリメンタルスペクトルスカラー化のために設計された新しいアルゴリズムであるInGRASSを提示する。 提案したinGRASSアルゴリズムは非常にスケーラブルで並列性が高く、セットアップフェーズにほぼ直線的な時間的複雑さがあり、スペクトルスペーサーを$O(\log N)$で更新できる。 InGRASSのセットアップフェーズにおけるキーコンポーネントは、スペクトルクリティカルエッジを効率的に識別し、冗長なエッジを効果的に検出するために導入されたマルチレベル抵抗埋め込みフレームワークであり、低抵抗径分解(LRD)方式を利用して、初期スペーサーを多くのノードクラスタに分割することで実現されている。 InGRASSの更新フェーズでは、低次元ノード埋め込みベクターを使用して、新たに追加されたエッジの重要性とユニークさを効率的に推定する。 広範な実験によって実証されたように、InGRASSは、回路シミュレーション、有限要素解析、ソーシャルネットワークなど、様々なデータセットから得られるグラフのインクリメンタルスペクトルスカラー化において、同等のソリューション品質を維持しながら、200ドル以上のスピードアップを達成する。

This work presents inGRASS, a novel algorithm designed for incremental spectral sparsification of large undirected graphs. The proposed inGRASS algorithm is highly scalable and parallel-friendly, having a nearly-linear time complexity for the setup phase and the ability to update the spectral sparsifier in $O(\log N)$ time for each incremental change made to the original graph with $N$ nodes. A key component in the setup phase of inGRASS is a multilevel resistance embedding framework introduced for efficiently identifying spectrally-critical edges and effectively detecting redundant ones, which is achieved by decomposing the initial sparsifier into many node clusters with bounded effective-resistance diameters leveraging a low-resistance-diameter decomposition (LRD) scheme. The update phase of inGRASS exploits low-dimensional node embedding vectors for efficiently estimating the importance and uniqueness of each newly added edge. As demonstrated through extensive experiments, inGRASS achieves up to over $200 \times$ speedups while retaining comparable solution quality in incremental spectral sparsification of graphs obtained from various datasets, such as circuit simulations, finite element analysis, and social networks.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-05
# SPA: カジュアル推論による計算フレンドリーなクラウドベースとオンデバイスコラボレーションSeq2seqパーソナライズ生成を目指して

SPA: Towards A Computational Friendly Cloud-Base and On-Devices Collaboration Seq2seq Personalized Generation with Casual Inference ( http://arxiv.org/abs/2403.07088v6 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Shi Bo, Ningjing Sang, Yafeng Yan, Xiaolan Ke, Zhiting Zheng, Shaobo Liu, Songhang Deng, Jiannan Cao, Le Dai, Xingzu Liu, Ruilin Nong, Weihao Liu, (参考訳) 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。 しかし、LLMは低リソースデバイスにかなりのメモリストレージを必要とする。 さらに重要なのは、これらのデバイスの計算速度も大幅に制限されていることだ。 本稿では、厳密なオンデバイス計算とメモリ制約の制約に対する高速なオンデバイス推論のための軽量アーキテクチャであるSPA(Side Plugin Adaption)を提案する。 デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。 本手法は,クラウド上での事前学習LLMとデバイス上での付加的パラメータとの相互作用を確立し,事前学習LLMの知識と特徴的特徴を両立させることができる。 さらに、SPAは、高次計算装置の一般情報を含むパラメータを残しながら、低次計算装置に特徴ベースパラメータを保持するためのフレームワークを提供する。

Large language models(LLMs) have shown its outperforming ability on various tasks and question answering. However, LLMs require substantial memory storage on low-resource devices. More critically, the computational speed on these devices is also severely limited. In this paper, we propose SPA(Side Plugin Adaption), a lightweight architecture for fast on-devices inference on the constraints of strict on-devices computation and memory constraints. Compared with other on-devices seq2seq generation, SPA could make a fast and stable inference on low-resource constraints, allowing it to obtain cost effiency. Our method establish an interaction between a pretrained LLMs on-cloud and additive parameters on-devices, which could provide the knowledge on both pretrained LLMs and featured personal feature. Further more, SPA provides a framework to keep feature-base parameters on low computational devices while leave the parameters containing general information on the high computational devices.
翻訳日:2024-09-09 20:33:48 公開日:2024-09-05
# RadCLIP: コントラスト言語による事前学習による放射線画像解析の強化

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2403.09948v2 )

ライセンス: Link先を確認
Zhixiu Lu, Hailong Li, Nehal A. Parikh, Jonathan R. Dillman, Lili He, (参考訳) 人工知能(AI)と放射線学の統合は医学における変革の時代を象徴している。 放射線画像解析を強化するために、視覚基盤モデルが採用されている。 しかし、X線学的2Dおよび3Dラジオロジカルデータの複雑さは、既存のモデルが一般的な非医学的画像で事前訓練されているが、適切に対処できないという固有の課題を生んでいる。 このギャップを埋め, 放射線画像診断に必要な診断精度を活かすために, 視覚言語事前訓練(VLP)フレームワークを利用した無線コントラスト言語画像前訓練(RadCLIP)を導入した。 CLIP(Contrastive Language- Image Pre-training)に基づいて構築されたRadCLIPには,ボリューム画像解析に適したスライスプーリング機構が組み込まれている。 RadCLIPは、放射性画像と対応するテキストアノテーションを効果的に整合させ、放射性画像の堅牢なビジョンバックボーンを作成するために事前訓練された。 広汎な実験により、RadCLIPは単モードのX線画像分類とクロスモーダルな画像テキストマッチングの両方において優れた性能を示し、臨床環境での診断精度と効率を向上させるための重要な約束を強調した。 主なコントリビューションは,多種多様なラジオロジックな2D/3D画像テキストペアを用いた大規模データセットのキュレーション,2D画像の統合のための注意機構を用いたスライスプールアダプタ,および様々なラジオロジック下流タスクにおけるRadCLIPの総合評価である。

The integration of artificial intelligence (AI) with radiology marks a transformative era in medicine. Vision foundation models have been adopted to enhance radiologic imaging analysis. However, the distinct complexities of radiologic 2D and 3D radiologic data pose unique challenges that existing models, pre-trained on general non-medical images, fail to address adequately. To bridge this gap and capitalize on the diagnostic precision required in radiologic imaging, we introduce Radiologic Contrastive Language-Image Pre-training (RadCLIP): a cross-modal vision-language foundational model that harnesses Vision Language Pre-training (VLP) framework to improve radiologic image analysis. Building upon Contrastive Language-Image Pre-training (CLIP), RadCLIP incorporates a slice pooling mechanism tailored for volumetric image analysis and is pre-trained using a large and diverse dataset of radiologic image-text pairs. The RadCLIP was pre-trained to effectively align radiologic images with their corresponding text annotations, creating a robust vision backbone for radiologic images. Extensive experiments demonstrate RadCLIP's superior performance in both uni-modal radiologic image classification and cross-modal image-text matching, highlighting its significant promise for improving diagnostic accuracy and efficiency in clinical settings. Our Key contributions include curating a large dataset with diverse radiologic 2D/3D radiologic image-text pairs, a slice pooling adapter using an attention mechanism for integrating 2D images, and comprehensive evaluations of RadCLIP on various radiologic downstream tasks.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-05
# 著作権とコンピュータ科学 : 生成AIの法則と倫理

Between Copyright and Computer Science: The Law and Ethics of Generative AI ( http://arxiv.org/abs/2403.14653v2 )

ライセンス: Link先を確認
Deven R. Desai, Mark Riedl, (参考訳) 著作権とコンピュータ科学は相反し、衝突し続けているが、共存できる。 視覚的・聴覚的創造物のデジタル化、共有技術、検索エンジン、ソーシャルメディアの提供、著作権に基づく産業への挑戦、著作権法の範囲に関する質問など、新しい技術の出現。 人工知能研究のブレークスルー、特に、トレーニングモデルの一部として著作権物質を利用する大規模言語モデルは、著作権とコンピュータ科学の緊張が続いている最近の例である。 いくつかの誤解された企業が生み出した、急激な市場投入、エッジな問題のケースは、現在、中核的な法的教義に課題を提起し、さらに悪いことにオープンインターネットの慣行をシフトさせる可能性がある。 その結果は、その成果である必要はないし、そうでなくてもよい。 本条は、一部の学者の見解に反して、フェアユース法は、目的がフェアユースであっても、誰かが著作権のある資料にアクセスできるあらゆる方法に恵まれないことを示す。 それでも、AI研究を進めるための科学的なデータの必要性は、大規模な書籍コーパスへのアクセスを意味し、その研究の将来にはオープンインターネットが不可欠である。 しかし、著作権業界は、著作権のある素材のほとんど全ての使用は、非表現的な使用であっても補償されなければならないと主張している。 この記事の解決策は、双方が変更する必要があることを認めている。 それはコンピュータ科学の世界にその行動の規律を強制し、場合によっては著作権のある素材の支払いを強制するものである。 また、著作権業界は、すべての使用が著作権業界によって認可された使用に補償されるか制限されなければならないという信念を捨てる必要がある。 この再バランスの一環として、本条は、この衝突から生じた問題に対処し、理論化されている。

Copyright and computer science continue to intersect and clash, but they can coexist. The advent of new technologies such as digitization of visual and aural creations, sharing technologies, search engines, social media offerings, and more challenge copyright-based industries and reopen questions about the reach of copyright law. Breakthroughs in artificial intelligence research, especially Large Language Models that leverage copyrighted material as part of training models, are the latest examples of the ongoing tension between copyright and computer science. The exuberance, rush-to-market, and edge problem cases created by a few misguided companies now raises challenges to core legal doctrines and may shift Open Internet practices for the worse. That result does not have to be, and should not be, the outcome. This Article shows that, contrary to some scholars' views, fair use law does not bless all ways that someone can gain access to copyrighted material even when the purpose is fair use. Nonetheless, the scientific need for more data to advance AI research means access to large book corpora and the Open Internet is vital for the future of that research. The copyright industry claims, however, that almost all uses of copyrighted material must be compensated, even for non-expressive uses. The Article's solution accepts that both sides need to change. It is one that forces the computer science world to discipline its behaviors and, in some cases, pay for copyrighted material. It also requires the copyright industry to abandon its belief that all uses must be compensated or restricted to uses sanctioned by the copyright industry. As part of this re-balancing, the Article addresses a problem that has grown out of this clash and under theorized.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-05
# すべてを修正するための一流:1つの正規化流とスイッチによる高エネルギー物理学のシミュレーションの改善

One flow to correct them all: improving simulations in high-energy physics with a single normalising flow and a switch ( http://arxiv.org/abs/2403.18582v2 )

ライセンス: Link先を確認
Caio Cesar Daumann, Mauro Donega, Johannes Erdmann, Massimiliano Galli, Jan Lukas Späh, Davide Valsecchi, (参考訳) シミュレーションイベントは、ほとんどの高エネルギー物理分析において重要な要素である。 しかし、シミュレーションの不完全性は、観測されたデータとシミュレーションされた事象の間に大きな違いをもたらす可能性がある。 関係する観測物に対するそのような誤モデリングの効果は、スケール因子、重み付き、あるいは観測物の分布とその相関を変更することによって、効果的に補正されなければならない。 本稿では,ブール条件付き単一正規化フローに基づく単純なアーキテクチャを用いて,1つの多次元分布(シミュレーション)を1つの多次元分布(データ)に変換する補正手法を提案する。 本手法の有効性を,観測対象の非自明な誤モデリングを用いた物理刺激型玩具データセットに適用し,その相関性を示す。

Simulated events are key ingredients in almost all high-energy physics analyses. However, imperfections in the simulation can lead to sizeable differences between the observed data and simulated events. The effects of such mismodelling on relevant observables must be corrected either effectively via scale factors, with weights or by modifying the distributions of the observables and their correlations. We introduce a correction method that transforms one multidimensional distribution (simulation) into another one (data) using a simple architecture based on a single normalising flow with a boolean condition. We demonstrate the effectiveness of the method on a physics-inspired toy dataset with non-trivial mismodelling of several observables and their correlations.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-05
# マルチ・ロバスト因果変化の寄与

Multiply-Robust Causal Change Attribution ( http://arxiv.org/abs/2404.08839v4 )

ライセンス: Link先を確認
Victor Quintas-Martinez, Mohammad Taha Bahadori, Eduardo Santiago, Jeff Mu, Dominik Janzing, David Heckerman, (参考訳) 2つのサンプルデータを比較して、結果変数の分布の変化を観察する。 複数の説明変数が存在する場合、それぞれの原因によってどの程度の変化が説明できるのか? 我々は、因果モデルから回帰法と再重み付け法を組み合わせて、それぞれの因果機構の寄与を定量化する新しい推定戦略を開発する。 提案手法は多元的ロバストであり,部分的不特定条件下でも対象パラメータを復元する。 我々は、推定器が一貫し、漸近的に正常であることを証明した。 さらに、Shapley値のような因果帰属のための既存のフレームワークにも組み込むことができ、一貫性と大規模な分布特性を継承する。 本手法はモンテカルロシミュレーションにおいて優れた性能を示し,その有効性を示す。 提案手法はPythonライブラリであるDoWhy(arXiv:2011.04216, arXiv:2206.06821)の一部として実装されている。

Comparing two samples of data, we observe a change in the distribution of an outcome variable. In the presence of multiple explanatory variables, how much of the change can be explained by each possible cause? We develop a new estimation strategy that, given a causal model, combines regression and re-weighting methods to quantify the contribution of each causal mechanism. Our proposed methodology is multiply robust, meaning that it still recovers the target parameter under partial misspecification. We prove that our estimator is consistent and asymptotically normal. Moreover, it can be incorporated into existing frameworks for causal attribution, such as Shapley values, which will inherit the consistency and large-sample distribution properties. Our method demonstrates excellent performance in Monte Carlo simulations, and we show its usefulness in an empirical application. Our method is implemented as part of the Python library DoWhy (arXiv:2011.04216, arXiv:2206.06821).
翻訳日:2024-09-09 20:23:44 公開日:2024-09-05
# UnsafeBench: リアルタイムおよびAI生成画像上の画像安全分類器のベンチマーク

UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images ( http://arxiv.org/abs/2405.03486v2 )

ライセンス: Link先を確認
Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang, (参考訳) テキスト・ツー・イメージのモデルの出現と、その誤用に関する懸念により、開発者は、生成した安全でないイメージを緩和するために、画像安全分類器をますます頼りにしている。 しかし、実際の画像とAI生成画像の両方において、現在の画像安全分類器の性能は依然として不明である。 本研究では,画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。 まず、安全でない画像の11のカテゴリ(性的、暴力的、憎しみなど)に基づいて、安全または安全でないと注釈付けされた10Kの現実世界およびAI生成画像の大規模なデータセットをキュレートする。 次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。 既存の画像安全分類器は、安全でない画像の多面的問題を緩和するのに十分な包括的かつ効果的ではないことを示す。 また、実世界の画像とAI生成画像の間には、画質、スタイル、レイアウトの分布シフトがあり、それによって効率と堅牢性が低下する。 これらの発見に触発されて、我々は、特にAI生成画像において、既存の分類器の主な欠点に対処する、包括的画像モデレーションツールであるAspectiveVisionを構築した。 UnsafeBenchとAspectiveVisionは、生成AIの時代における画像安全分類の展望をより深く理解する上で、研究コミュニティに役立つ。

With the advent of text-to-image models and concerns about their misuse, developers are increasingly relying on image safety classifiers to moderate their generated unsafe images. Yet, the performance of current image safety classifiers remains unknown for both real-world and AI-generated images. In this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers, with a particular focus on the impact of AI-generated images on their performance. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough to mitigate the multifaceted problem of unsafe images. Also, there exists a distribution shift between real-world and AI-generated images in image qualities, styles, and layouts, leading to degraded effectiveness and robustness. Motivated by these findings, we build a comprehensive image moderation tool called PerspectiveVision, which addresses the main drawbacks of existing classifiers with improved effectiveness and robustness, especially on AI-generated images. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.
翻訳日:2024-09-09 20:23:44 公開日:2024-09-05
# イオン鎖交感神経冷却とゲートダイナミクスの解析

Analysis of ion chain sympathetic cooling and gate dynamics ( http://arxiv.org/abs/2405.13851v2 )

ライセンス: Link先を確認
Aditya Paul, Crystal Noel, (参考訳) 交感冷却は、しばしば閉じ込められたイオン量子コンピュータの運動加熱を緩和するために用いられる技法である。 しかし, 最適ゲート性能のための冷却剤数や冷却デューティサイクルなどのシステムパラメータの選択には, 動作誤差と, クビット劣化などの他の遅いエラーとのトレードオフを評価する必要がある。 最適パラメータは、特定の系の冷却電力、加熱速度、イオン間隔に依存する。 本研究では, 閉じ込められたイオンの長い鎖の同調冷却に関するベストプラクティスを, 解析的および計算的手法を用いて解析することを目的とする。 本研究では, チェーンの中心に冷却剤を配置した場合に最適冷却性能が得られ, 特定の冷却パラメータのセットが与えられたモードの冷却限界に摂動的上界を与える場合の最適冷却性能を示すケーススタディを用いた。 さらに, 計算ツールを用いて, チェーン内の冷却剤イオン数と中心質量モード加熱率とのトレードオフを解析した。 また、キュービットコヒーレンス時間が長い場合、回路を動作させる場合の冷却が最適であることを示す。 これらの結果は、長鎖のイオンを用いたトラップイオン量子コンピュータの回路性能を最大化するために、共振冷却パラメータを選択するためのロードマップを提供する。

Sympathetic cooling is a technique often employed to mitigate motional heating in trapped-ion quantum computers. However, choosing system parameters such as number of coolants and cooling duty cycle for optimal gate performance requires evaluating trade-offs between motional errors and other slower errors such as qubit dephasing. The optimal parameters depend on cooling power, heating rate, and ion spacing in a particular system. In this study, we aim to analyze best practices for sympathetic cooling of long chains of trapped ions using analytical and computational methods. We use a case study to show that optimal cooling performance is achieved when coolants are placed at the center of the chain and provide a perturbative upper-bound on the cooling limit of a mode given a particular set of cooling parameters. In addition, using computational tools, we analyze the trade-off between the number of coolant ions in a chain and the center-of-mass mode heating rate. We also show that cooling as often as possible when running a circuit is optimal when the qubit coherence time is otherwise long. These results provide a roadmap for how to choose sympathetic cooling parameters to maximize circuit performance in trapped ion quantum computers using long chains of ions.
翻訳日:2024-09-09 20:13:58 公開日:2024-09-05
# マルチモーダル大言語モデルのための安全プロンプトの再利用

Refusing Safe Prompts for Multi-modal Large Language Models ( http://arxiv.org/abs/2407.09050v2 )

ライセンス: Link先を確認
Zedian Shao, Hongbin Liu, Yuepeng Hu, Neil Zhenqiang Gong, (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、今日の生成AIエコシステムの基盤となり、テック大企業やスタートアップの間で激しい競争を巻き起こしている。 特に、MLLMは、画像と質問からなるプロンプトが与えられたテキスト応答を生成する。 最先端のMLLMは安全フィルタとアライメント技術を用いて安全でないプロンプトを拒否するが,本研究では,安全プロンプトに対する拒絶を誘導する最初の手法であるMLLM-Refusalを紹介する。 特に、MLLM-Refusalは、ほとんど認識不能な拒絶摂動を最適化し、画像を付加するので、ターゲットMLLMは、摂動画像と安全な質問を含む安全なプロンプトを拒否する可能性が高い。 具体的には,MLLM-Refusalを制約付き最適化問題として定式化し,その解法を提案する。 本手法は,MLLM のユーザエクスペリエンスを損なう可能性を秘めているため,MLLM モデルプロバイダに対して競争上の優位性を提供する。 4つのデータセットにわたるMLLMに対するMLLM-Refusalの評価を行い、競合するMLLMが非競合MLLMに影響を与えずに安全なプロンプトを拒否する効果を示した。 さらに, ガウス雑音, DiffPure, 対人訓練の3つの潜在的な対策について検討した。 その結果,MLLM-Refusalの有効性は軽減できるものの,競合するMLLMの精度や効率を犠牲にできることがわかった。 コードはhttps://github.com/Sadcardation/MLLM-Refusalで入手できる。

Multimodal large language models (MLLMs) have become the cornerstone of today's generative AI ecosystem, sparking intense competition among tech giants and startups. In particular, an MLLM generates a text response given a prompt consisting of an image and a question. While state-of-the-art MLLMs use safety filters and alignment techniques to refuse unsafe prompts, in this work, we introduce MLLM-Refusal, the first method that induces refusals for safe prompts. In particular, our MLLM-Refusal optimizes a nearly-imperceptible refusal perturbation and adds it to an image, causing target MLLMs to likely refuse a safe prompt containing the perturbed image and a safe question. Specifically, we formulate MLLM-Refusal as a constrained optimization problem and propose an algorithm to solve it. Our method offers competitive advantages for MLLM model providers by potentially disrupting user experiences of competing MLLMs, since competing MLLM's users will receive unexpected refusals when they unwittingly use these perturbed images in their prompts. We evaluate MLLM-Refusal on four MLLMs across four datasets, demonstrating its effectiveness in causing competing MLLMs to refuse safe prompts while not affecting non-competing MLLMs. Furthermore, we explore three potential countermeasures-adding Gaussian noise, DiffPure, and adversarial training. Our results show that though they can mitigate MLLM-Refusal's effectiveness, they also sacrifice the accuracy and/or efficiency of the competing MLLM. The code is available at https://github.com/Sadcardation/MLLM-Refusal.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-05
# 単層非学習勾配による未学習情報

Unlearning Targeted Information via Single Layer Unlearning Gradient ( http://arxiv.org/abs/2407.11867v2 )

ライセンス: Link先を確認
Zikui Cai, Yaoteng Tan, M. Salman Asif, (参考訳) 生成AIを用いた無許可のプライバシ関連著作権コンテンツ生成は、人間の社会にとって重要な関心事となり、倫理的、法的、プライバシー上の問題を提起し、緊急の注意を喚起している。 EUの一般データ保護規則(GDPR)には「忘れられる権利」が含まれており、個人が個人データの削除を要求することができる。 しかし、これは主にAIモデルではなく、従来のデータベースに格納されたデータに適用される。 近年,AIモデルトレーニングで使用されるセンシティブなコンテンツの影響を排除しようとする機械学習技術が出現している。 本研究では,SLUG(Single Layer Unlearning Gradient)と呼ばれる新しい手法を提案する。 提案手法は高度にモジュール化されており,広く使用されている基盤モデル(例えばCLIP)や生成モデル(例えば,安定拡散)の出力から,有名人の名前や著作権のあるコンテンツなどの複数の機密概念を選択的に除去することができる。 我々の手法は、AIが生成したコンテンツがプライバシー規制や知的財産法に準拠することを保証し、生成モデルの責任ある利用を促進し、法的リスクを軽減し、信頼できる社会的責任を持つAIエコシステムを促進する。

Unauthorized privacy-related and copyrighted content generation using generative-AI is becoming a significant concern for human society, raising ethical, legal, and privacy issues that demand urgent attention. The EU's General Data Protection Regulation (GDPR) include a "right to be forgotten," which allows individuals to request the deletion of their personal data. However, this primarily applies to data stored in traditional databases, not AI models. Recently, machine unlearning techniques have arise that attempt to eliminate the influence of sensitive content used during AI model training, but they often require extensive updates to the deployed systems and incur substantial computational costs. In this work, we propose a novel and efficient method called Single Layer Unlearning Gradient (SLUG), that can unlearn targeted information by updating targeted layers of a model using a one-time gradient computation. Our method is highly modular and enables the selective removal of multiple sensitive concepts, such as celebrity names and copyrighted content, from the generated outputs of widely used foundation models (e.g., CLIP) and generative models (e.g., Stable Diffusion). Broadly, our method ensures AI-generated content complies with privacy regulations and intellectual property laws, fostering responsible use of generative models, mitigating legal risks and promoting a trustworthy, socially responsible AI ecosystem.
翻訳日:2024-09-09 18:20:31 公開日:2024-09-05
# Peer-induced Fairness: アルゴリズムフェアネス監査のための因果的アプローチ

Peer-induced Fairness: A Causal Approach for Algorithmic Fairness Auditing ( http://arxiv.org/abs/2408.02558v4 )

ライセンス: Link先を確認
Shiqi Fang, Zexun Chen, Jake Ansell, (参考訳) 2024年8月1日、欧州連合の人工知能法が施行されたことにより、リスクの高いAIアプリケーションは、厳格な透明性と公正性の基準に従う必要がある。 アルゴリズムの公平性を科学的に監査するにはどうすればいいのか? 現在の方法は通常、より複雑なシナリオを考慮せずに、監査の基本的な検出段階に留まる。 本稿では, 対実フェアネスとピア比較戦略の強みを組み合わせ, アルゴリズムフェアネスを監査するための信頼性と堅牢性を備えた新しい枠組みである「ピア誘導フェアネス」を提案する。 我々のフレームワークは普遍的であり、様々な領域に適用可能であり、歪んだ分布を含む様々なレベルのデータ品質を扱うことができる。 さらに、アルゴリズム的識別による不利な判断が、被験者の固有の制限を生じさせるかどうかを区別し、透明性を高めることができる。 このフレームワークは、AI開発者のための自己評価ツールと、EU AI Actへの準拠を保証する監査者のための外部アセスメントツールの両方として機能する。 我々は、中小企業における金融アクセスの実用性を実証し、非ミクロ企業と比較して、マイクロ確認の41.51%が顔の差別に重大な不公平さを見出している。 これらの知見は、公平なAI駆動意思決定を保証するための幅広い応用のためのフレームワークの可能性を強調している。

With the European Union's Artificial Intelligence Act taking effect on 1 August 2024, high-risk AI applications must adhere to stringent transparency and fairness standards. This paper addresses a crucial question: how can we scientifically audit algorithmic fairness? Current methods typically remain at the basic detection stage of auditing, without accounting for more complex scenarios. We propose a novel framework, ``peer-induced fairness'', which combines the strengths of counterfactual fairness and peer comparison strategy, creating a reliable and robust tool for auditing algorithmic fairness. Our framework is universal, adaptable to various domains, and capable of handling different levels of data quality, including skewed distributions. Moreover, it can distinguish whether adverse decisions result from algorithmic discrimination or inherent limitations of the subjects, thereby enhancing transparency. This framework can serve as both a self-assessment tool for AI developers and an external assessment tool for auditors to ensure compliance with the EU AI Act. We demonstrate its utility in small and medium-sized enterprises access to finance, uncovering significant unfairness-41.51% of micro-firms face discrimination compared to non-micro firms. These findings highlight the framework's potential for broader applications in ensuring equitable AI-driven decision-making.
翻訳日:2024-09-09 18:10:23 公開日:2024-09-05
# QEDCartographer: Reward-free Reinforcement Learning を用いた形式検証の自動化

QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning ( http://arxiv.org/abs/2408.09237v3 )

ライセンス: Link先を確認
Alex Sanchez-Stern, Abhishek Varghese, Zhanna Kaufman, Dylan Zhang, Talia Ringer, Yuriy Brun, (参考訳) 形式的検証は信頼性の高いソフトウェアを作成するための有望な方法であるが,手作業による検証証明の難しさにより,実用性は著しく制限されている。 近年の手法では、定理証明器を用いて証明空間を探索し、いくつかの証明合成を自動化している。 残念なことに、定理証明器は最も粗末な進捗推定のみを提供し、事実上無向探索をもたらす。 この問題に対処するために、教師付きと強化学習を組み合わせた自動証明合成ツールであるQEDCartographerを作成し、より効果的に証明空間を探索する。 QEDCartographerは証明の分岐構造を取り入れ、報酬のない探索を可能にし、形式検証に固有のスパース報酬問題を克服する。 オープンソースCoqプロジェクトの68.5K定理のCoqGymベンチマークを用いて,QEDCartographerを評価した。 QEDCartographerはテストセット定理の21.4%を自動的に証明している。 従来の検索ベースの証明合成ツールであるTok、Tac、ASTactic、Passport、Proverbot9001は、教師あり学習のみに依存しており、それぞれ9.6%、9.8%、10.9%、12.5%、19.8%を証明している。 62のツールを組み合わせたDidiaは19.2%を証明している。 最も効果的な先行ツールであるProverbot9001と比較して、QEDCartographerは29%高速で34%の短い証明を生成する。 QEDCartographerと非学習ベースのCoqHammerは30.3%、CoqHammerは26.6%である。 本研究は,強化学習が証明合成ツールの探索機構を改善するための実りある研究方向であることを実証する。

Formal verification is a promising method for producing reliable software, but the difficulty of manually writing verification proofs severely limits its utility in practice. Recent methods have automated some proof synthesis by guiding a search through the proof space using a theorem prover. Unfortunately, the theorem prover provides only the crudest estimate of progress, resulting in effectively undirected search. To address this problem, we create QEDCartographer, an automated proof-synthesis tool that combines supervised and reinforcement learning to more effectively explore the proof space. QEDCartographer incorporates the proofs' branching structure, enabling reward-free search and overcoming the sparse reward problem inherent to formal verification. We evaluate QEDCartographer using the CoqGym benchmark of 68.5K theorems from 124 open-source Coq projects. QEDCartographer fully automatically proves 21.4% of the test-set theorems. Previous search-based proof-synthesis tools Tok, Tac, ASTactic, Passport, and Proverbot9001, which rely only on supervised learning, prove 9.6%, 9.8%, 10.9%, 12.5%, and 19.8%, respectively. Diva, which combines 62 tools, proves 19.2%. Comparing to the most effective prior tool, Proverbot9001, QEDCartographer produces 34% shorter proofs 29% faster, on average over the theorems both tools prove. Together, QEDCartographer and non-learning-based CoqHammer prove 30.3% of the theorems, while CoqHammer alone proves 26.6%. Our work demonstrates that reinforcement learning is a fruitful research direction for improving proof-synthesis tools' search mechanisms.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-05
# Goal-directed ASP を用いたシステム保証事例のセマンティック解析の自動化

Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP ( http://arxiv.org/abs/2408.11699v3 )

ライセンス: Link先を確認
Anitha Murugesan, Isaac Wong, Joaquín Arias, Robert Stroud, Srivatsan Varadarajan, Elmer Salazar, Gopal Gupta, Robin Bloomfield, John Rushby, (参考訳) 保証ケースは、安全とセキュリティが重要となるシステムの認証に関する議論と証拠を示すための構造化された方法を提供する。 しかしながら、これらの保証ケースの作成と評価は、適度な複雑さのシステムであっても複雑で困難である可能性がある。 そのため、これらのタスクのための新しい自動化手法を開発する必要性が高まっている。 既存の保証ケースツールは構造的側面の自動化に重点を置いているが、保証引数のセマンティックコヒーレンスと正確性を完全に評価する能力は欠如している。 従来の作業では、推論プロセス、エビデンス利用、およびデファタ(デファタ)と反証拠の明確な記述を優先するAssurance 2.0フレームワークを導入しました。 本稿では,共通センス推論と解集合プログラミングの解法,特にs(CASP)を用いて,意味ルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。 これらの分析手法を用いることで、論理的整合性、妥当性、不実現性など、保証事例のユニークな意味的側面を考察する。 これらの分析の応用は、システム開発者と評価者の両方に、保証ケースに対する信頼性を高めます。

Assurance cases offer a structured way to present arguments and evidence for certification of systems where safety and security are critical. However, creating and evaluating these assurance cases can be complex and challenging, even for systems of moderate complexity. Therefore, there is a growing need to develop new automation methods for these tasks. While most existing assurance case tools focus on automating structural aspects, they lack the ability to fully assess the semantic coherence and correctness of the assurance arguments. In prior work, we introduced the Assurance 2.0 framework that prioritizes the reasoning process, evidence utilization, and explicit delineation of counter-claims (defeaters) and counter-evidence. In this paper, we present our approach to enhancing Assurance 2.0 with semantic rule-based analysis capabilities using common-sense reasoning and answer set programming solvers, specifically s(CASP). By employing these analysis techniques, we examine the unique semantic aspects of assurance cases, such as logical consistency, adequacy, indefeasibility, etc. The application of these analyses provides both system developers and evaluators with increased confidence about the assurance case.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-05
# UserSumBench: ユーザ要約アプローチを評価するベンチマークフレームワーク

UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches ( http://arxiv.org/abs/2408.16966v2 )

ライセンス: Link先を確認
Chao Wang, Neo Wu, Lin Ning, Jiaxing Wu, Luyang Liu, Jun Xie, Shawn O'Banion, Bradley Green, (参考訳) 大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。 これらの要約は、好みや興味などの重要なユーザ情報を取り込み、説明可能なレコメンデータシステムなど、LLMベースのパーソナライズアプリケーションには有用である。 しかし, 新たな要約手法の開発は, 地味ラベルの欠如, ユーザ要約の主観性, 費用と時間を要する人的評価などによって妨げられている。 これらの課題に対処するために, LLM に基づく要約手法の反復的開発を容易にするベンチマークフレームワークである \UserSumBench を紹介する。 このフレームワークは、(1)参照なし要約品質メトリクスの2つの重要なコンポーネントを提供する。 この指標は,3つの多様なデータセット(MovieLens,Yelp,Amazon Review)にまたがって,人間の好みに合わせて有効であることを示す。 2) 時間階層的要約と自己批判的検証を利用して, 幻覚を排除しつつ高品質な要約を生成する新しい頑健な要約手法を提案する。 この方法は、要約技術のさらなる革新のための強力なベースラインとして機能する。

Large language models (LLMs) have shown remarkable capabilities in generating user summaries from a long list of raw user activity data. These summaries capture essential user information such as preferences and interests, and therefore are invaluable for LLM-based personalization applications, such as explainable recommender systems. However, the development of new summarization techniques is hindered by the lack of ground-truth labels, the inherent subjectivity of user summaries, and human evaluation which is often costly and time-consuming. To address these challenges, we introduce \UserSumBench, a benchmark framework designed to facilitate iterative development of LLM-based summarization approaches. This framework offers two key components: (1) A reference-free summary quality metric. We show that this metric is effective and aligned with human preferences across three diverse datasets (MovieLens, Yelp and Amazon Review). (2) A novel robust summarization method that leverages time-hierarchical summarizer and self-critique verifier to produce high-quality summaries while eliminating hallucination. This method serves as a strong baseline for further innovation in summarization techniques.
翻訳日:2024-09-09 17:59:54 公開日:2024-09-05
# 向きの正則性による構造適応:多変量関数データにおける速度加速推定

Structural adaptation via directional regularity: rate accelerated estimation in multivariate functional data ( http://arxiv.org/abs/2409.00817v2 )

ライセンス: Link先を確認
Omar Kassi, Sunny G. W. Wang, (参考訳) 多変量関数データに対する新しい異方性の定義である方向正則性を導入する。 次元に沿った滑らかさの概念として異方性を決定する従来の見解を取る代わりに、方向の正則性は、方向のレンズを通して異方性を見る。 多変量プロセスの方向正則性に適応することにより,収束速度の高速化がベイズの変化を通じて得られることを示す。 関数データのユニークな複製構造により、基底行列の変化を推定および同定するアルゴリズムを構築した。 本アルゴリズムの非漸近境界は, 広範囲なシミュレーション研究から得られた数値的証拠によって補足される。 方向性正則性アプローチの2つの応用について論じ、多変量関数型データ解析における標準前処理ステップとしての考察を提唱する。

We introduce directional regularity, a new definition of anisotropy for multivariate functional data. Instead of taking the conventional view which determines anisotropy as a notion of smoothness along a dimension, directional regularity additionally views anisotropy through the lens of directions. We show that faster rates of convergence can be obtained through a change-of-basis by adapting to the directional regularity of a multivariate process. An algorithm for the estimation and identification of the change-of-basis matrix is constructed, made possible due to the unique replication structure of functional data. Non-asymptotic bounds are provided for our algorithm, supplemented by numerical evidence from an extensive simulation study. We discuss two possible applications of the directional regularity approach, and advocate its consideration as a standard pre-processing step in multivariate functional data analysis.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-05
# ブラジルテレグラムのフラットアースコミュニティ--物理現象としての重力の存在を疑問視するために

Flat-earth communities on Brazilian Telegram: when faith is used to question the existence of gravity as a physics phenomenon ( http://arxiv.org/abs/2409.03800v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, (参考訳) ブラジルテレグラムでは、特に新型コロナウイルス(COVID-19)のパンデミックなど、科学機関や政府機関への不信感が強まっている。 そこで本研究では, ブラジルの陰謀論コミュニティが, テレグラムで特徴付け, 明瞭化されているフラットアーストピックに対して, どのように取り組んできたか, という研究課題に対処することを目的とする。 この研究は、ブラジルの陰謀論コミュニティをテレグラム上で理解し、特徴づけることが主な目的である7つの研究のシリーズの一部であることは注目に値する。 この7つの研究のシリーズは、コーネル大学のarXivで公開され、最初は7つの研究にミラーリングされた手法を適用し、分析の主題だけを変更し、プロプライエタリで認可されたコードを含む調査の再現性を提供し、フリーでオープンソースのソフトウェアの文化を付加した。 パンデミックにおいて、フラットアース主義の議論は400%増加し、科学機関における不信が引き起こされた;フラットアース・コミュニティは、新世界秩序のような他の陰謀論のポータルとして機能する;フラットアース・ネットワークは、内容や永続的な物語を広める影響力のあるグループを持ち、神や聖書のような宗教的なテーマは、科学における不信と宗教的な要素を結合して中心的であり、フラットアース・コミュニティは、重力のようなテーマを使って科学概念に挑戦し、世界の代替的な視点を補強する。

Conspiracy theories related to flat-earthism have gained traction on Brazilian Telegram, especially in times of global crisis, such as the COVID-19 pandemic, when distrust in scientific and governmental institutions has intensified. Therefore, this study aims to address the research question: how are Brazilian conspiracy theory communities on flat earth topics characterized and articulated on Telegram? It is worth noting that this study is part of a series of seven studies whose main objective is to understand and characterize Brazilian conspiracy theory communities on Telegram. This series of seven studies is openly and originally available on arXiv at Cornell University, applying a mirrored method across the seven studies, changing only the thematic object of analysis and providing investigation replicability, including with proprietary and authored codes, adding to the culture of free and open-source software. Regarding the main findings of this study, the following were observed: During the Pandemic, flat-earthist discussions increased by 400%, driven by distrust in scientific institutions; Flat-Earther communities act as portals for other conspiracy theories, such as the New World Order; Although smaller, the flat-Earther network has influential groups that disseminate content and perpetuate narratives; Religious themes such as God and the Bible are central, combining religious elements with distrust in science; Flat-Earther communities use themes such as gravity to challenge established scientific concepts, reinforcing an alternative view of the world.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-05
# 結果:非教師付きアウト・オブ・ディストリビューション検出における「いいね!」に対するインクリメンタルな効果

Resultant: Incremental Effectiveness on Likelihood for Unsupervised Out-of-Distribution Detection ( http://arxiv.org/abs/2409.03801v1 )

ライセンス: Link先を確認
Yewen Li, Chaojie Wang, Xiaobo Xia, Xu He, Ruyi An, Dong Li, Tongliang Liu, Bo An, Xinrun Wang, (参考訳) unsupervised out-of-distriion (U-OOD) 検出は、未表示のin-distriion (ID)データのみに基づいて訓練された検出器を用いてOODデータサンプルを識別することである。 深部生成モデル (DGM) によって推定される可能性関数は自然検出器となりうるが、その性能はFashionMNIST (ID) や MNIST (OOD) のような一般的な "ハード" ベンチマークで制限されている。 近年の研究は、DGMに基づく様々な検出器を開発し、可能性を超えて移動している。 しかし、「ハード」ベンチマークでの成功にもかかわらず、ほとんどの場合、ほぼ完全な検出器となる可能性のあるSVHN (ID) 対 CIFAR10 (OOD) のような「ハードでない」ケースでは、その性能を常に上回るか、一致させるのに苦労している。 そこで本研究では,U-OOD検出の精度を常に上回るか,少なくともその性能に適合するか,という可能性に対する漸進的有効性に,より注意を払っている。 まず、変動型DGMの可能性について検討し、その検出性能を2方向に改善できることを見出した。 一 潜伏分布ミスマッチの緩和及び 二 データセットのエントロピー・ミューチュアル統合を校正すること。 次に,各方向,特にポストホック前とデータセットのエントロピー・ミューチュアルキャリブレーションの2つの手法を適用した。 最後の手法である Resultant はこれらの2つの方向を組み合わせて,いずれの手法よりもインクリメンタルな効率性を向上させる。 実験結果から, 結果物は多岐にわたるタスクにおいて, 確率の漸進的有効性を保ちつつ, 新たな最先端U-OOD検出器となる可能性が示唆された。

Unsupervised out-of-distribution (U-OOD) detection is to identify OOD data samples with a detector trained solely on unlabeled in-distribution (ID) data. The likelihood function estimated by a deep generative model (DGM) could be a natural detector, but its performance is limited in some popular "hard" benchmarks, such as FashionMNIST (ID) vs. MNIST (OOD). Recent studies have developed various detectors based on DGMs to move beyond likelihood. However, despite their success on "hard" benchmarks, most of them struggle to consistently surpass or match the performance of likelihood on some "non-hard" cases, such as SVHN (ID) vs. CIFAR10 (OOD) where likelihood could be a nearly perfect detector. Therefore, we appeal for more attention to incremental effectiveness on likelihood, i.e., whether a method could always surpass or at least match the performance of likelihood in U-OOD detection. We first investigate the likelihood of variational DGMs and find its detection performance could be improved in two directions: i) alleviating latent distribution mismatch, and ii) calibrating the dataset entropy-mutual integration. Then, we apply two techniques for each direction, specifically post-hoc prior and dataset entropy-mutual calibration. The final method, named Resultant, combines these two directions for better incremental effectiveness compared to either technique alone. Experimental results demonstrate that the Resultant could be a new state-of-the-art U-OOD detector while maintaining incremental effectiveness on likelihood in a wide range of tasks.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-05
# 人工知能プロジェクトにおけるデータ準備性向上のための探索的ビジュアル分析

Exploratory Visual Analysis for Increasing Data Readiness in Artificial Intelligence Projects ( http://arxiv.org/abs/2409.03805v1 )

ライセンス: Link先を確認
Mattias Tiger, Daniel Jakobsson, Anders Ynnerman, Fredrik Heintz, Daniel Jönsson, (参考訳) 視覚分析手法を用いて、人工知能プロジェクトにおける異種データの可読性向上から学んだ経験と教訓を提示する。 データ準備度レベルを高めるには、データだけでなく、その使用状況も理解する必要がある。 本研究の目的は,データ準備性面と異なるデータ型に適した視覚解析手法のマッピングに貢献することである。 定義されたマッピングを用いて、数値、分類、テキストを含む時間変化データを含むユースケースにおいて、データの可読度を向上する。 マッピングに加えて、データ準備性の概念を拡張して、タスクとソリューションの側面をよりよく考慮し、データ収集期間中の分散シフトに明示的に対処します。 我々は、提示された視覚分析技術を用いて、将来の人工知能プロジェクトを支援し、データ準備レベルを上げる経験について報告する。

We present experiences and lessons learned from increasing data readiness of heterogeneous data for artificial intelligence projects using visual analysis methods. Increasing the data readiness level involves understanding both the data as well as the context in which it is used, which are challenges well suitable to visual analysis. For this purpose, we contribute a mapping between data readiness aspects and visual analysis techniques suitable for different data types. We use the defined mapping to increase data readiness levels in use cases involving time-varying data, including numerical, categorical, and text. In addition to the mapping, we extend the data readiness concept to better take aspects of the task and solution into account and explicitly address distribution shifts during data collection time. We report on our experiences in using the presented visual analysis techniques to aid future artificial intelligence projects in raising the data readiness level.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-05
# Mpox Screen Lite: 電源の低いアフリカのMpox緊急対応のための、AI駆動のオフラインMpoxスクリーニング

Mpox Screen Lite: AI-Driven On-Device Offline Mpox Screening for Low-Resource African Mpox Emergency Response ( http://arxiv.org/abs/2409.03806v1 )

ライセンス: Link先を確認
Yudara Kularathne, Prathapa Janitha, Sithira Ambepitiya, (参考訳) 背景: 2024年のMpoxの流行は、特にアフリカで重篤な1bの出現で、リソース制限設定における診断能力の重大なギャップを浮き彫りにした。 本研究の目的は、低リソース環境でオフラインで動作するように設計されたMpox用のAI駆動オンデバイススクリーニングツールの開発と評価である。 方法: 合成データを含む2,700枚の画像(Mpox, その他の皮膚条件, 正常皮膚)で学習したYOLOv8nに基づく深層学習モデルを開発した。 モデルは360度画像で検証され、540枚の画像でテストされた。 1500個の独立した画像を用いて、より大きな外部検証を行った。 パフォーマンス指標には精度、精度、リコール、F1スコア、感度、特異性があった。 結果: 最終テストセットでは, モデルが高い精度(96%)を示した。 Mpox検出では93%の精度、97%のリコール、95%のF1スコアを達成した。 Mpox検出の感度と特異性はそれぞれ97%,96%であった。 性能はより大きな外部検証において一貫しており、モデルの堅牢性と一般化性を確認した。 解釈: このAI駆動スクリーニングツールは、リソース制約のある環境でのMpox検出の迅速で正確でスケーラブルなソリューションを提供する。 オフライン機能と多様なデータセットにわたるハイパフォーマンスは、特に従来の診断インフラが欠如している領域において、Mpoxの監視と管理を改善する大きな可能性を示唆している。

Background: The 2024 Mpox outbreak, particularly severe in Africa with clade 1b emergence, has highlighted critical gaps in diagnostic capabilities in resource-limited settings. This study aimed to develop and validate an artificial intelligence (AI)-driven, on-device screening tool for Mpox, designed to function offline in low-resource environments. Methods: We developed a YOLOv8n-based deep learning model trained on 2,700 images (900 each of Mpox, other skin conditions, and normal skin), including synthetic data. The model was validated on 360 images and tested on 540 images. A larger external validation was conducted using 1,500 independent images. Performance metrics included accuracy, precision, recall, F1-score, sensitivity, and specificity. Findings: The model demonstrated high accuracy (96%) in the final test set. For Mpox detection, it achieved 93% precision, 97% recall, and an F1-score of 95%. Sensitivity and specificity for Mpox detection were 97% and 96%, respectively. Performance remained consistent in the larger external validation, confirming the model's robustness and generalizability. Interpretation: This AI-driven screening tool offers a rapid, accurate, and scalable solution for Mpox detection in resource-constrained settings. Its offline functionality and high performance across diverse datasets suggest significant potential for improving Mpox surveillance and management, particularly in areas lacking traditional diagnostic infrastructure.
翻訳日:2024-09-09 17:50:10 公開日:2024-09-05
# リプシッツ最適化によるデフォルマブルシミュレーションの高速化ニューラル部分空間に基づく低次解法

Accelerate Neural Subspace-Based Reduced-Order Solver of Deformable Simulation by Lipschitz Optimization ( http://arxiv.org/abs/2409.03807v1 )

ライセンス: Link先を確認
Aoran Lyu, Shixian Zhao, Chuhua Xian, Zhihao Cen, Hongmin Cai, Guoxin Fang, (参考訳) 還元次数シミュレーションは、高いDOFで物理シミュレーションを加速させる新しい手法であり、最近開発された非線形部分空間を持つニューラルネットワークベースの手法は、より簡潔な部分空間を検出できるため、様々な用途で有効であることが証明されている。 しかし、部分空間内のシミュレーション対象の複雑さと展望は最適化されておらず、収束速度を高める余地を残している。 この研究は、最適化された部分空間マッピングを見つけるための一般的な方法を提案し、構成多様体の包括的表現を捉えながら、ニューラルネットワークの低次シミュレーションのさらなる加速を可能にした。 シミュレーション目的において, 弾性項のリプシッツエネルギーを最適化し, キュキュア近似をトレーニングプロセスに組み込むことで, 新たに導入されたエネルギーを最適化する際の高メモリと時間要求を管理する。 本手法は,構成多様体のパラメータ化を最適化するための教師付き設定と教師なし設定の両方に適用可能である。 準静的シミュレーションと動的シミュレーションの両方において,本手法の有効性を示す。 提案手法は最大6.83の加速係数を達成し, 衝突処理を伴う大きなねじれ, 曲げ, 回転変形など, 様々なケースで同等のシミュレーション精度を維持した。 この新しいアプローチは、物理シミュレーションを加速する大きな可能性を秘めており、複雑な変形可能なオブジェクトをモデル化する上で、既存のニューラルネットワークベースのソリューションに対する良いアドオンとなる。

Reduced-order simulation is an emerging method for accelerating physical simulations with high DOFs, and recently developed neural-network-based methods with nonlinear subspaces have been proven effective in diverse applications as more concise subspaces can be detected. However, the complexity and landscape of simulation objectives within the subspace have not been optimized, which leaves room for enhancement of the convergence speed. This work focuses on this point by proposing a general method for finding optimized subspace mappings, enabling further acceleration of neural reduced-order simulations while capturing comprehensive representations of the configuration manifolds. We achieve this by optimizing the Lipschitz energy of the elasticity term in the simulation objective, and incorporating the cubature approximation into the training process to manage the high memory and time demands associated with optimizing the newly introduced energy. Our method is versatile and applicable to both supervised and unsupervised settings for optimizing the parameterizations of the configuration manifolds. We demonstrate the effectiveness of our approach through general cases in both quasi-static and dynamics simulations. Our method achieves acceleration factors of up to 6.83 while consistently preserving comparable simulation accuracy in various cases, including large twisting, bending, and rotational deformations with collision handling. This novel approach offers significant potential for accelerating physical simulations, and can be a good add-on to existing neural-network-based solutions in modeling complex deformable objects.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# コードLLMはどのように機能するか? 高品質データによるコードインストラクションチューニングの強化

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data ( http://arxiv.org/abs/2409.03810v1 )

ライセンス: Link先を確認
Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu, (参考訳) 近年,より優れたコード命令チューニングデータの構築方法の研究への関心が高まっている。 しかし、これらのデータセットでトレーニングされたコードモデルは、HumanEval上では高いパフォーマンスを示すが、LiveCodeBenchのような他のベンチマークではより悪いパフォーマンスを示す。 さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に悩まされていることが判明した。 リークデータの大半をクリーンアップした後、よく知られた高品質なデータセットは、パフォーマンスが良くない。 この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。 そこで本研究では,優れたサンプルを選択するための効率的なコードデータプルーニング手法を提案する。 我々のアプローチは、命令の複雑さ、応答品質、命令の多様性の3つの次元に基づいています。 選択したデータに基づいて、LLaMA3から微調整されたモデルのファミリーであるXCoderを提示する。 実験の結果、XCoderは、少ないトレーニングデータを用いて、新しい最先端のパフォーマンスを実現し、データストラテジーの有効性を検証した。 さらに、データ構成に関する包括的な分析を行い、既存のコードデータセットがそれらの構築方法によって異なる特徴を持っていることを発見し、将来のコードLLMに対する新たな洞察を提供する。 私たちのモデルとデータセットはhttps://github.com/banksy23/XCoderでリリースされています。

Recently, there has been a growing interest in studying how to construct better code instruction tuning data. However, we observe Code models trained with these datasets exhibit high performance on HumanEval but perform worse on other benchmarks such as LiveCodeBench. Upon further investigation, we find that many datasets suffer from severe data leakage. After cleaning up most of the leaked data, some well-known high-quality datasets perform poorly. This discovery reveals a new challenge: identifying which dataset genuinely qualify as high-quality code instruction data. To address this, we propose an efficient code data pruning strategy for selecting good samples. Our approach is based on three dimensions: instruction complexity, response quality, and instruction diversity. Based on our selected data, we present XCoder, a family of models finetuned from LLaMA3. Our experiments show XCoder achieves new state-of-the-art performance using fewer training data, which verify the effectiveness of our data strategy. Moreover, we perform a comprehensive analysis on the data composition and find existing code datasets have different characteristics according to their construction methods, which provide new insights for future code LLMs. Our models and dataset are released in https://github.com/banksy23/XCoder
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# PARCO: 効果的なマルチエージェント組合せ最適化のための並列自己回帰政策の学習

PARCO: Learning Parallel Autoregressive Policies for Efficient Multi-Agent Combinatorial Optimization ( http://arxiv.org/abs/2409.03811v1 )

ライセンス: Link先を確認
Federico Berto, Chuanbo Hua, Laurin Luttmann, Jiwoo Son, Junyoung Park, Kyuree Ahn, Changhyun Kwon, Lin Xie, Jinkyoo Park, (参考訳) ルーティングやスケジューリングといったマルチエージェントの組合せ最適化問題には,NPのハードな組み合わせ性,エージェント数に対する制約,目的関数の最適化の難しさなど,実用上の意義がある。 本稿では、並列自己回帰復号法を用いて、強化学習を伴うマルチエージェント組合せ問題に対する高速サロゲート解法を学習する新しいアプローチであるPARCO(Parallel AutoRegressive Combinatorial Optimization)を紹介する。 優先度に基づく競合処理方式によって強化された,複数の決定を異なるエージェントで同時に復号化するための多重ポインタ機構を持つモデルを提案する。 さらに,コミュニケーション層を設計し,効果的なエージェントコラボレーションを実現し,意思決定の充実を図る。 我々は、ルーティングとスケジューリングにおける代表的マルチエージェント組合せ問題におけるPARCOを評価し、学習した解法が古典的ベースラインとニューラルベースラインの両方に対して、解の質と速度の両面で競合する結果をもたらすことを示した。 コードはhttps://github.com/ai4co/parco.comで公開しています。

Multi-agent combinatorial optimization problems such as routing and scheduling have great practical relevance but present challenges due to their NP-hard combinatorial nature, hard constraints on the number of possible agents, and hard-to-optimize objective functions. This paper introduces PARCO (Parallel AutoRegressive Combinatorial Optimization), a novel approach that learns fast surrogate solvers for multi-agent combinatorial problems with reinforcement learning by employing parallel autoregressive decoding. We propose a model with a Multiple Pointer Mechanism to efficiently decode multiple decisions simultaneously by different agents, enhanced by a Priority-based Conflict Handling scheme. Moreover, we design specialized Communication Layers that enable effective agent collaboration, thus enriching decision-making. We evaluate PARCO in representative multi-agent combinatorial problems in routing and scheduling and demonstrate that our learned solvers offer competitive results against both classical and neural baselines in terms of both solution quality and speed. We make our code openly available at https://github.com/ai4co/parco.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 磁気浮上粒子による暗黒物質の探索

First Search for Ultralight Dark Matter Using a Magnetically Levitated Particle ( http://arxiv.org/abs/2409.03814v1 )

ライセンス: Link先を確認
Dorian W. P. Amaral, Dennis G. Uitenbroek, Tjerk H. Oosterkamp, Christopher D. Tunnell, (参考訳) 磁気浮上粒子を用いた超軽量ダークマターの探索を行った。 超伝導トラップにサブミリ永久磁石を浮上させ、測定力感度が$0.2\,\mathrm{fN/\sqrt{Hz}}$とする。 1.10360 \text{ - } 1.10485) \times 10^{-13}\,\mathrm{eV} / c^2$。 結合強度の最も厳密な制限は$g_{B - L} \lesssim 2.98 \times 10^{-21}$である。 POLONAISE (Probing Oscillations using Levitated Objects for Novel Accelerometry in Searches of Exotic Physics) 実験を行い、暗黒物質探索におけるこの新しい量子センシング技術の可能性を示す。

We perform the first search for ultralight dark matter using a magnetically levitated particle. A sub-millimeter permanent magnet is levitated in a superconducting trap with a measured force sensitivity of $0.2\,\mathrm{fN/\sqrt{Hz}}$. We find no evidence of a signal and derive limits on dark matter coupled to the difference between baryon and lepton number, $B - L$, in the mass range $(1.10360 \text{ - } 1.10485) \times 10^{-13}\,\mathrm{eV} / c^2$. Our most stringent limit on the coupling strength is $g_{B - L} \lesssim 2.98 \times 10^{-21}$. We propose the POLONAISE (Probing Oscillations using Levitated Objects for Novel Accelerometry in Searches of Exotic physics) experiment, featuring short-, medium-, and long-term upgrades that will give us leading sensitivity in a wide mass range and demonstrating the promise of this novel quantum sensing technology in the hunt for dark matter.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 神経エントロピー

Neural Entropy ( http://arxiv.org/abs/2409.03817v1 )

ライセンス: Link先を確認
Akhil Premkumar, (参考訳) 拡散モデルのパラダイムを用いて,深層学習と情報理論の関連性を検討する。 非平衡熱力学から確立された原理を用いて、拡散過程を逆転させるために必要な情報の量を特徴付けることができる。 ニューラルネットワークはこの情報を格納し、生成段階でマクスウェルの悪魔を思い起こさせるように操作する。 我々は,このサイクルを,エントロピーマッチングモデル(entropy matching model)と呼ぶ新しい拡散スキームを用いて説明し,トレーニング中にネットワークに伝達された情報は,逆転時に無効にしなければならないエントロピーと正確に一致する。 このエントロピーを用いて、ネットワークの符号化効率と記憶容量を解析できることを実証する。 この概念図は、確率的最適制御、熱力学、情報理論、最適輸送の要素をブレンドし、ニューラルネットワークを理解するためのテストベンチとして拡散モデルを適用する可能性を高める。

We examine the connection between deep learning and information theory through the paradigm of diffusion models. Using well-established principles from non-equilibrium thermodynamics we can characterize the amount of information required to reverse a diffusive process. Neural networks store this information and operate in a manner reminiscent of Maxwell's demon during the generative stage. We illustrate this cycle using a novel diffusion scheme we call the entropy matching model, wherein the information conveyed to the network during training exactly corresponds to the entropy that must be negated during reversal. We demonstrate that this entropy can be used to analyze the encoding efficiency and storage capacity of the network. This conceptual picture blends elements of stochastic optimal control, thermodynamics, information theory, and optimal transport, and raises the prospect of applying diffusion models as a test bench to understand neural networks.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# CPU、GPU、TPU上での量子Red TEAのベンチマーク

Benchmarking Quantum Red TEA on CPUs, GPUs, and TPUs ( http://arxiv.org/abs/2409.03818v1 )

ライセンス: Link先を確認
Daniel Jaschke, Marco Ballarin, Nora Reinić, Luka Pavešić, Simone Montangero, (参考訳) 我々は、CPU、GPU、TPUを用いた異種ハードウェアプラットフォーム上での多体量子システムのシミュレーションをベンチマークした。 我々は、異なる線形代数バックエンド、例えば、numpyとトーチ、jax、テンソルフローライブラリを比較し、ターゲットハードウェアに対する混合精度に着想を得たアプローチと最適化を比較した。 Quantum TEAライブラリの量子赤TEAは、テンソルがテンソルネットワークアルゴリズムの構築ブロックである、異なるライブラリやハードウェアでテンソルを扱うことに特化している。 ベンチマーク問題は、相互作用モデルにおける基底状態の変動探索である。 これは量子多体物理学におけるユビキタス問題であり、テンソルネットワーク法を用いて解く。 この近似的最先端法は、粒子数の関数としてヒルベルト空間の指数的成長を克服する鍵となる量子相関を圧縮する。 我々は、CPU上でパラメータをチューニングする際の34の係数の高速化と、GPUに移行する際の最高のCPU設定上の2.76の要素を得る方法を提案する。

We benchmark simulations of many-body quantum systems on heterogeneous hardware platforms using CPUs, GPUs, and TPUs. We compare different linear algebra backends, e.g., numpy versus the torch, jax, or tensorflow library, as well as a mixed-precision-inspired approach and optimizations for the target hardware. Quantum red TEA out of the Quantum TEA library specifically addresses handling tensors with different libraries or hardware, where the tensors are the building block of tensor network algorithms. The benchmark problem is a variational search of a ground state in an interacting model. This is a ubiquitous problem in quantum many-body physics, which we solve using tensor network methods. This approximate state-of-the-art method compresses quantum correlations which is key to overcoming the exponential growth of the Hilbert space as a function of the number of particles. We present a way to obtain speedups of a factor of 34 when tuning parameters on the CPU, and an additional factor of 2.76 on top of the best CPU setup when migrating to GPUs.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 局所量子スピン鎖クエンチに対する有限時間経路場理論摂動法

Finite time path field theory perturbative methods for local quantum spin chain quenches ( http://arxiv.org/abs/2409.03832v1 )

ライセンス: Link先を確認
Domagoj Kuić, Alemka Knapp, Diana Šaponja-Milutinović, (参考訳) スピン鎖における有限時間経路場理論の摂動的手法を用いて局所磁場クエンチを議論する: 横磁場におけるイジングとXY。 共通する特徴は次の通りである。 一 第二の量子化非相互作用フェルミオン問題への写像により積分可能であること。 二 基底状態が非退化であるとき(特別の場合を除いて有限鎖に対して真である)、ボゴリューボフフェルミオンの真空として表すことができる。 局所磁場摂動を有限時間で切り替えることによって、問題は不可積分となり、数値的あるいは摂動的手法によってアプローチされなければならない。 射影関数のウィグナー変換に基づく有限時間経路場理論の形式主義を用いて、次のように示す。 一 焼成鎖のLoschmidtエコーにおける基本的な「気泡」図を摂動の順序で計算すること。 二 一般化されたシュウィンガー・ダイソン方程式を「バブル」図形のフェルミオン二点再帰関数に対して再仮定し、従って特定の特異性仮定の下で幅広い摂動強度に対してロシミトエコーの摂動拡大の再開を達成する。 仮定の極限とそれを超える一般化、および他のスピン鎖についてもさらに議論する。

We discuss local magnetic field quenches using perturbative methods of finite time path field theory in the following spin chains: Ising and XY in a transverse magnetic field. Their common characteristics are: i) they are integrable via mapping to second quantized noninteracting fermion problem; ii) when the ground state is nondegenerate (true for finite chains except in special cases) it can be represented as a vacuum of Bogoliubov fermions. By switching on a local magnetic field perturbation at finite time, the problem becomes nonintegrable and must be approached via numeric or perturbative methods. Using the formalism of finite time path field theory based on Wigner transforms of projected functions, we show how to: i) calculate the basic "bubble" diagram in the Loschmidt echo of a quenched chain to any order in the perturbation; ii) resum the generalized Schwinger-Dyson equation for the fermion two point retarded functions in the "bubble" diagram, hence achieving the resummation of perturbative expansion of Loschmidt echo for a wide range of perturbation strengths under certain analiticity assumptions. Limitations of the assumptions and possible generalizations beyond it and also for other spin chains are further discussed.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# スピン二元ブラックホール融合の高次波モードのAI予測

AI forecasting of higher-order wave modes of spinning binary black hole mergers ( http://arxiv.org/abs/2409.03833v1 )

ライセンス: Link先を確認
Victoria Tiki, Kiet Pham, Eliu Huerta, (参考訳) 準円、回転、非必要二元ブラックホール融合により放出される高次波動モードの非線形ダイナミクスを予測する物理インスピレーション型変圧器モデルを提案する。 このモデルは、合併前のフェーズからリングダウンまでの波形の進化を予測し、$ t \in [-5000\textrm{M}, -100\textrm{M})$の入力時系列から始まる。 合併イベントは、$l = |m| = 2$モードを含む波形のピーク振幅として定義され、$ t = 0\textrm{M} $で発生する。 変換器は、時間範囲$ t \in [-100\textrm{M}, 130\textrm{M}] $で予測を生成する。 我々は, NRHybSur3dq8モデルを用いて, 質量比$ q \in [1, 8] $, spin component $ s^z_{\{1,2\}} \in [-0.8, 0.8] $, modes to $l \leq 4$, including the $(5,5)$ mode, including the $(4,0)$ and $(4,1)$ modes, and inclination angles $\theta \in [0, \pi]$という信号多様体を考慮し, トレーニング, 評価, テストセットを作成した。 14,440,761個の波形でトレーニングを行い、Deltaスーパーコンピュータで16個のNVIDIA A100 GPUを使用して15時間でトレーニングを完了した。 我々はDeltaAIスーパーコンピュータで4つのH100 GPUを用いて、7時間以内に、地上の真理と予測波形の重なりを840,000の波形を用いて計算し、それぞれ平均重なりが0.996と0.997であることを確認した。 さらに,変換器モデルを用いて正確な予測を行うために,波形特性の解明のための解釈可能性の検討を行った。 この研究に使用される科学ソフトウェアは、この原稿とともにリリースされている。

We present a physics-inspired transformer model that predicts the non-linear dynamics of higher-order wave modes emitted by quasi-circular, spinning, non-precessing binary black hole mergers. The model forecasts the waveform evolution from the pre-merger phase through the ringdown, starting with an input time-series spanning $ t \in [-5000\textrm{M}, -100\textrm{M}) $. The merger event, defined as the peak amplitude of waveforms that include the $l = |m| = 2$ modes, occurs at $ t = 0\textrm{M} $. The transformer then generates predictions over the time range $ t \in [-100\textrm{M}, 130\textrm{M}] $. We produced training, evaluation and test sets using the NRHybSur3dq8 model, considering a signal manifold defined by mass ratios $ q \in [1, 8] $; spin components $ s^z_{\{1,2\}} \in [-0.8, 0.8] $; modes up to $l \leq 4$, including the $(5,5)$ mode but excluding the $(4,0)$ and $(4,1)$ modes; and inclination angles $\theta \in [0, \pi]$. We trained the model on 14,440,761 waveforms, completing the training in 15 hours using 16 NVIDIA A100 GPUs in the Delta supercomputer. We used 4 H100 GPUs in the DeltaAI supercomputer to compute, within 7 hours, the overlap between ground truth and predicted waveforms using a test set of 840,000 waveforms, finding that the mean and median overlaps over the test set are 0.996 and 0.997, respectively. Additionally, we conducted interpretability studies to elucidate the waveform features utilized by our transformer model to produce accurate predictions. The scientific software used for this work is released with this manuscript.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# Matchgate Classical Shadowsのための統一フレームワーク

Unified Framework for Matchgate Classical Shadows ( http://arxiv.org/abs/2409.03836v1 )

ライセンス: Link先を確認
Valentin Heyraud, Héloise Chomet, Jules Tilly, (参考訳) 量子フェルミオン特性の推定は、計算的に困難だが電子システムの研究にとって重要な課題である。 近年、フェルミオン・ガウス・ユニタリ (Fermionic Gaussian Unitary, FGUs) のサンプリングに頼って古典的なシャドウプロトコルを導入することにより、この課題に対処し始めている。 文献で提案された異なるプロトコルは、FGUを関連付ける直交群 $O(2n)$ の異なる部分アンサンブルを使用する。 本稿では、これらのプロトコルを統一し、それらの等価性を証明し、最適なサンプリングスキームから導出するアプローチを提案する。 まず、FGUアンサンブルの最初の3つのモーメントが$SO(2n)$とクリフォード群との交点が等しいことを証明し、O(2n)$で知られている結果を一般化し、以前の研究で提起された問題に対処することから始める。 この証明に基づいて、文献で分析されたFGUアンサンブルから生じる影プロトコル間の等価性を確立する。 最後に, ゲート数の点で最適であり, 前のアンサンブルの保証を継承する, マッチゲート回路の小さなサブアンサンブルをサンプリングする手法を提案する。

Estimating quantum fermionic properties is a computationally difficult yet crucial task for the study of electronic systems. Recent developments have begun to address this challenge by introducing classical shadows protocols relying on sampling of Fermionic Gaussian Unitaries (FGUs): a class of transformations in fermionic space which can be conveniently mapped to matchgates circuits. The different protocols proposed in the literature use different sub-ensembles of the orthogonal group $O(2n)$ to which FGUs can be associated. We propose an approach that unifies these different protocols, proving their equivalence, and deriving from it an optimal sampling scheme. We begin by demonstrating that the first three moments of the FGU ensemble associated with $SO(2n)$ and of its intersection with the Clifford group are equal, generalizing a result known for $O(2n)$ and addressing a question raised in previous works. Building on this proof, we establish the equivalence between the shadows protocols resulting from FGU ensembles analyzed in the literature. Finally, from our results, we propose a sampling scheme for a small sub-ensemble of matchgates circuits that is optimal in terms of number of gates and that inherits the performances guarantees of the previous ensembles.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# APITestGenie: 生成AIによるAPIテストの自動生成

APITestGenie: Automated API Test Generation through Generative AI ( http://arxiv.org/abs/2409.03838v1 )

ライセンス: Link先を確認
André Pereira, Bruno Lima, João Pascoal Faria, (参考訳) LLM(Large Language Models)を利用したインテリジェントアシスタントは、プログラムとテストのコードを高い精度で生成し、開発者とテスタの生産性を高める。 しかし、現代のソフトウェアシステムの基本的な構成要素を構成し、重要なテスト課題を提起する、Web APIのテストのためのLLMを探求する研究が不足している。 したがって、この記事では、LLMを利用してビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成するアプローチとツールであるAPITestGenieを紹介します。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。 タスク毎に3世代の試みによって、この成功率は80%に向上した。 人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練することを推奨します。 業界の専門家からのフィードバックは、APIテストプロセスを改善するツールの採用に強い関心を示している。

Intelligent assistants powered by Large Language Models (LLMs) can generate program and test code with high accuracy, boosting developers' and testers' productivity. However, there is a lack of studies exploring LLMs for testing Web APIs, which constitute fundamental building blocks of modern software systems and pose significant test challenges. Hence, in this article, we introduce APITestGenie, an approach and tool that leverages LLMs to generate executable API test scripts from business requirements and API specifications. In experiments with 10 real-world APIs, the tool generated valid test scripts 57% of the time. With three generation attempts per task, this success rate increased to 80%. Human intervention is recommended to validate or refine generated scripts before integration into CI/CD pipelines, positioning our tool as a productivity assistant rather than a replacement for testers. Feedback from industry specialists indicated a strong interest in adopting our tool for improving the API test process.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 社会的アイデンティティ導入に伴う大規模言語モデルにおける永続的外集団バイアス

Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption ( http://arxiv.org/abs/2409.03843v1 )

ライセンス: Link先を確認
Wenchao Dong, Assem Zhunis, Dongyoung Jeong, Hyojin Chin, Jiyoung Han, Meeyoung Cha, (参考訳) 人間の認識と人工知能の類似性について,大規模言語モデル(LLM)がターゲットのプロンプトによって課されるアイデンティティを内在化する方法について検討した。 社会的アイデンティティ理論(Social Identity Theory)によって指示されたこれらのアイデンティティ割り当ては、LLMに"We"(内集団)と"they"(外集団)を区別させる。 この自己分類は、内集団の好意と外集団の偏見の両方を生じる。 それにもかかわらず、既存の文献は、主にグループ間の偏見と差別の根源である外集団バイアスを見落とし、グループ内での好意に焦点を当てている。 我々の実験は、外集団バイアスが内集団の好意のように強く現れることを示すことによって、このギャップに対処する。 さらに, 当初嫌われていた集団の視点を取り入れることによって, LLMの本来の自由主義的, 反保守的バイアスを緩和することに成功した。 これらの結果は男女差の文脈で再現された。 我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。

Drawing parallels between human cognition and artificial intelligence, we explored how large language models (LLMs) internalize identities imposed by targeted prompts. Informed by Social Identity Theory, these identity assignments lead LLMs to distinguish between "we" (the ingroup) and "they" (the outgroup). This self-categorization generates both ingroup favoritism and outgroup bias. Nonetheless, existing literature has predominantly focused on ingroup favoritism, often overlooking outgroup bias, which is a fundamental source of intergroup prejudice and discrimination. Our experiment addresses this gap by demonstrating that outgroup bias manifests as strongly as ingroup favoritism. Furthermore, we successfully mitigated the inherent pro-liberal, anti-conservative bias in LLMs by guiding them to adopt the perspectives of the initially disfavored group. These results were replicated in the context of gender bias. Our findings highlight the potential to develop more equitable and balanced language models.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# MetaBGM: 環境認識とパーソナライゼーションを備えた連続マルチシーン体験のための動的サウンドトラック変換

MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization ( http://arxiv.org/abs/2409.03844v1 )

ライセンス: Link先を確認
Haoxuan Liu, Zihao Wang, Haorong Hong, Youwei Feng, Jiaxin Yu, Han Diao, Yunfei Xu, Kejun Zhang, (参考訳) 本稿では,動的シーンやリアルタイムユーザインタラクションに適応するバックグラウンド音楽を生成するための基盤的フレームワークであるMetaBGMを紹介する。 我々は、マルチシーンを、ゲーム設定や映画のシーンの遷移など、環境コンテキストのバリエーションとして定義する。 バックエンドデータをオーディオ生成モデルのための音楽記述テキストに変換するという課題に対処するため、MetaBGMは、連続シーンとユーザ状態データをこれらのテキストに変換する新しい2段階生成アプローチを採用し、それをリアルタイムなサウンドトラック生成のためにオーディオ生成モデルに入力する。 実験により,MetaBGMは対話型アプリケーションにおいて,コンテキストに関連のある動的バックグラウンド音楽を効果的に生成することを示した。

This paper introduces MetaBGM, a groundbreaking framework for generating background music that adapts to dynamic scenes and real-time user interactions. We define multi-scene as variations in environmental contexts, such as transitions in game settings or movie scenes. To tackle the challenge of converting backend data into music description texts for audio generation models, MetaBGM employs a novel two-stage generation approach that transforms continuous scene and user state data into these texts, which are then fed into an audio generation model for real-time soundtrack creation. Experimental results demonstrate that MetaBGM effectively generates contextually relevant and dynamic background music for interactive applications.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 潜時宇宙エネルギーに基づくニューラル・オード

Latent Space Energy-based Neural ODEs ( http://arxiv.org/abs/2409.03845v1 )

ライセンス: Link先を確認
Sheng Cheng, Deqian Kong, Jianwen Xie, Kookjin Lee, Ying Nian Wu, Yezhou Yang, (参考訳) 本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。 このモデルの族は、潜在状態ベクトルの非線形変換であるニューラルエミッションモデルによって時系列の各データポイントを生成する。 潜在状態の軌道は神経常微分方程式(ODE)によって暗黙的に記述され、初期状態はエネルギーベースモデルによってパラメータ化された情報的事前分布に従う。 さらに、このモデルを拡張して、潜在空間における時間不変変数として表される変動の基底となる静的因子から動的状態を切り離すことができる。 我々は,マルコフ連鎖モンテカルロ(MCMC)を用いて,推論ネットワークなどの補助部品を必要とせず,最大推定値を用いてモデルを訓練する。 振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験により, 学習可能なエネルギーベース前のODEが既存のものより優れており, 動的パラメータ化を一般化し, 長期の予測を可能にすることを示した。

This paper introduces a novel family of deep dynamical models designed to represent continuous-time sequence data. This family of models generates each data point in the time series by a neural emission model, which is a non-linear transformation of a latent state vector. The trajectory of the latent states is implicitly described by a neural ordinary differential equation (ODE), with the initial state following an informative prior distribution parameterized by an energy-based model. Furthermore, we can extend this model to disentangle dynamic states from underlying static factors of variation, represented as time-invariant variables in the latent space. We train the model using maximum likelihood estimation with Markov chain Monte Carlo (MCMC) in an end-to-end manner, without requiring additional assisting components such as an inference network. Our experiments on oscillating systems, videos and real-world state sequences (MuJoCo) illustrate that ODEs with the learnable energy-based prior outperform existing counterparts, and can generalize to new dynamic parameterization, enabling long-horizon predictions.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# Sirius: 効率的なLLMのための補正によるコンテキストスペーサ

Sirius: Contextual Sparsity with Correction for Efficient LLMs ( http://arxiv.org/abs/2409.03856v1 )

ライセンス: Link先を確認
Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen, (参考訳) 大きな言語モデル(LLM)の花が咲くにつれ、推論効率はますます重要になる。 推定時のコストを削減するために,様々な近似法が提案されている。 CS(Contextual Sparsity)は、トレーニングのない性質と、品質劣化を伴わずに高い圧縮比に達する能力に訴えている。 しかし,様々な複雑な生成タスクにおける文脈空間的疎性手法を総合的に評価した結果,CSは即時理解タスクに成功しているが,CSは推論,推論,知識に基づくタスクにおいて,モデル性能を著しく低下させることがわかった。 エンド・ツー・エンドの精度の差にもかかわらず、スパースモデルはしばしば一般的な問題解決ロジックを共有しており、元のモデル性能を回復するためにはトークンの修正がほんの数回必要である。 本稿では,効率向上を維持しつつ,推論タスクのCSモデル品質を著しく向上させる,効率的な補正機構であるSiriusを紹介する。 Siriusは推論、数学、コーディングにおいて8つの難しい生成タスクを持つ6つのモデルで評価され、一貫した効率と効率を示す。 また,Siriusのシステム実装を慎重に開発し,8Bモデルオンチップで約20%のレイテンシ削減を実現し,70Bモデルオフロードで35%の削減を実現した。 Siriusの実装はhttps://github.com/Infini-AI-Lab/Sirius.git.comで公開しています。

With the blossom of large language models (LLMs), inference efficiency becomes increasingly important. Various approximation methods are proposed to reduce the cost at inference time. Contextual Sparsity (CS) is appealing for its training-free nature and its ability to reach a higher compression ratio seemingly without quality degradation. However, after a comprehensive evaluation of contextual sparsity methods on various complex generation tasks, we find that although CS succeeds in prompt-understanding tasks, CS significantly degrades the model performance for reasoning, deduction, and knowledge-based tasks. Despite the gap in end-to-end accuracy, we observed that sparse models often share general problem-solving logic and require only a few token corrections to recover the original model performance. This paper introduces Sirius, an efficient correction mechanism, which significantly recovers CS models quality on reasoning tasks while maintaining its efficiency gain. Sirius is evaluated on 6 models with 8 difficult generation tasks in reasoning, math, and coding and shows consistent effectiveness and efficiency. Also, we carefully develop a system implementation for Sirius and show that Sirius achieves roughly 20% reduction in latency for 8B model on-chip and 35% reduction for 70B model offloading. We open-source our implementation of Sirius at https://github.com/Infini-AI-Lab/Sirius.git.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# ガモウとフェルミの黄金律

The Gamow and the Fermi Golden Rules ( http://arxiv.org/abs/2409.03858v1 )

ライセンス: Link先を確認
Rafael de la Madrid, (参考訳) 運動量表現におけるガモフ状態が二乗可積分であるという事実を利用して、2体非相対論的崩壊の微分と総減衰幅を得る。 結果として生じるガモウ・ゴールデン・ルールはエネルギー分布と角崩壊分布の両方を記述するのに適しており、共鳴が長寿命でエネルギー閾値から遠いときにフェルミ・ゴールデン・ルールとなる。 また、状態と位相空間の正確な密度は、ガモウ・ゴールデン・ルールから自然に生じることを示す。 アップショットは、ガモウ状態とゴールデンルールが量子共鳴の統一的な記述に組み合わさることである。

By using the fact that the Gamow states in the momentum representation are square integrable, we obtain the differential and the total decay width of a two-body, non-relativistic decay. The resulting Gamow Golden Rule is well suited to describe both energy and angular decay distributions, and it becomes the Fermi Golden Rule when the resonance is long-lived and far from the energy threshold. We also show that the correct density of states and phase space factors arise naturally from the Gamow Golden Rule. The upshot is that the Gamow states and the Golden Rule can be combined into a unified description of quantum resonances.
翻訳日:2024-09-09 17:40:07 公開日:2024-09-05
# 量子機械学習を用いたマイクロ波パルスの訓練

Training microwave pulses using quantum machine learning ( http://arxiv.org/abs/2409.03861v1 )

ライセンス: Link先を確認
Jaden Nola, Uriah Sanchez, Anusha Krishna Murthy, Elizabeth Behrman, James Steck, (参考訳) 単一量子変換のゲート列は単一マイクロ波パルスに縮合され、初期状態から合成変換の所望状態へキュービットを直接マッピングする。 ここで、機械学習を用いて、キュービット上の3つのシーケンシャルゲート操作の変換に関連する1つの駆動パルスのパラメータ化値を学習する。 これは、将来の量子回路がシングルキュービット演算のおよそ3分の1を格納し、ノイズやデコヒーレンスの問題を大幅に軽減することを意味している。 量子機械学習の手法により、さらに凝縮と効率が向上する可能性がある。

A gate sequence of single-qubit transformations may be condensed into a single microwave pulse that maps a qubit from an initialized state directly into the desired state of the composite transformation. Here, machine learning is used to learn the parameterized values for a single driving pulse associated with a transformation of three sequential gate operations on a qubit. This implies that future quantum circuits may contain roughly a third of the number of single-qubit operations performed, greatly reducing the problems of noise and decoherence. There is a potential for even greater condensation and efficiency using the methods of quantum machine learning.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 局所的な更新がフェデレーション学習の一般化性能に与える影響を理論的に定量化できるか?

Can We Theoretically Quantify the Impacts of Local Updates on the Generalization Performance of Federated Learning? ( http://arxiv.org/abs/2409.03863v1 )

ライセンス: Link先を確認
Peizhong Ju, Haibo Yang, Jia Liu, Yingbin Liang, Ness Shroff, (参考訳) フェデレートラーニング(FL)は、直接データ共有を必要とせず、さまざまなサイトで機械学習モデルをトレーニングする効果により、大きな人気を集めている。 局所的な更新を伴うFLは通信効率のよい分散学習フレームワークであることを示しているが、局所的な更新を伴うFLの一般化性能は比較的低い。 この調査の欠如は、FLフレームワーク内のローカル更新によるデータ不均一性と頻繁な通信の間の複雑な相互作用に起因する可能性がある。 学習プロセスが進化するにつれて、データの異質性や局所的な更新がFLの一般化性能に与える影響を定量化できますか? この目的のために、線形モデルを用いたFLの一般化性能に関する包括的な理論的研究を行い、定常・オンライン・非定常両方のケースにおいてデータの均一性を考慮した。 モデルエラーのクローズドフォーム表現を提供することにより、3つの設定(K=1$, $K<\infty$, $K=\infty$)で局所的な更新回数(K$と表記される)の影響を厳格に定量化し、一般化性能がラウンド数$t$でどのように進化するかを示す。 我々の調査はまた、異なる構成(モデルパラメータ数$p$とトレーニングサンプル数$n$を含む)が全体的な一般化性能にどのように貢献するかを包括的に理解し、FLオーバーネットワークを実装するための新たな洞察(良心過剰化など)を隠蔽する。

Federated Learning (FL) has gained significant popularity due to its effectiveness in training machine learning models across diverse sites without requiring direct data sharing. While various algorithms along with their optimization analyses have shown that FL with local updates is a communication-efficient distributed learning framework, the generalization performance of FL with local updates has received comparatively less attention. This lack of investigation can be attributed to the complex interplay between data heterogeneity and infrequent communication due to the local updates within the FL framework. This motivates us to investigate a fundamental question in FL: Can we quantify the impact of data heterogeneity and local updates on the generalization performance for FL as the learning process evolves? To this end, we conduct a comprehensive theoretical study of FL's generalization performance using a linear model as the first step, where the data heterogeneity is considered for both the stationary and online/non-stationary cases. By providing closed-form expressions of the model error, we rigorously quantify the impact of the number of the local updates (denoted as $K$) under three settings ($K=1$, $K<\infty$, and $K=\infty$) and show how the generalization performance evolves with the number of rounds $t$. Our investigation also provides a comprehensive understanding of how different configurations (including the number of model parameters $p$ and the number of training samples $n$) contribute to the overall generalization performance, thus shedding new insights (such as benign overfitting) for implementing FL over networks.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# カシミール効果によるデコヒーレンス?

Decoherence due to Casimir effect? ( http://arxiv.org/abs/2409.03866v1 )

ライセンス: Link先を確認
Anirudh Gundhi, (参考訳) 電子の開系力学は、2つの平行導電性パテの間に閉じ込められた放射場の存在下で研究される。 以前の研究で、この場の量子化された零点モードは、おそらくカシミール力による有限デコヒーレンス効果をもたらすことが示唆されている。 しかし、この研究では、電子の密度行列の対角線外要素は、環境との相互作用の突然の切り替えによって抑制され、典型的なシナリオでは観察的に関係がないことが示されている。 この研究はセットアップの重要な理論的側面を明らかにし、一般にコヒーレンスの不可逆的な損失は真空揺らぎに比定してはならないと主張している。 これは、すべての無限の画像電荷の効果的なクーロンポテンシャルによって引き起こされる加速のため、電子によるブレムスストラルングの放出からのみ生じる。

Open system dynamics of an electron is studied in the presence of radiation field, confined between two parallel conducting pates. It has been suggested in previous works that the quantized zero-point modes of this field lead to finite decoherence effects, possibly due to the Casimir force. However, in this work it is shown that the off-diagonal elements of the reduced density matrix of the electron are suppressed due to the sudden switching on of the interaction with the environment, and would not be observationally relevant in typical scenarios. The work clarifies important theoretical aspects of the setup and argues that any irreversible loss of coherence, in general, should not be ascribed to vacuum fluctuations. It can only originate from emission of bremsstrahlung by the electron, due to the acceleration caused by the effective Coulomb potential of all the infinite image charges.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 医用ビジョンランゲージモデルのわずかな適応

Few-shot Adaptation of Medical Vision-Language Models ( http://arxiv.org/abs/2409.03868v1 )

ライセンス: Link先を確認
Fereshteh Shakeri, Yunshi Huang, Julio Silva-Rodríguez, Houda Bahig, An Tang, Jose Dolz, Ismail Ben Ayed, (参考訳) マルチモーダル学習による画像とテキストデータの統合は、コンピュータビジョンへの展開の成功に続いて、医療画像研究における新しいアプローチとして登場した。 医療基礎モデルの確立と下流のタスクへのゼロショット転送に多くの努力が注がれているが、人気のある数ショット設定はいまだに探索されていない。 コンピュータビジョンにおけるこの設定の現況に続き、厳密な数ショットで医療ビジョン言語モデル(VLM)を適応するための最初の構造化されたベンチマークを導入し、自然画像の文脈でよく使われる様々な適応戦略について検討する。 さらに,学習可能なクラスワイド乗算器による視覚プロトタイプとテキスト埋め込みの最適ブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。 意外なことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して競争性能が向上する一方で、ブラックボックスの設定をかなり高速に調整する。 広範にわたる実験は、3つの異なる医療モダリティと専門基礎モデル、9つの下流タスク、そしていくつかの最先端の数ショット適応方法で構成されている。 私たちはベンチマークとコードを公開して、この創発的なテーマのさらなる開発をトリガーしました。

Integrating image and text data through multi-modal learning has emerged as a new approach in medical imaging research, following its successful deployment in computer vision. While considerable efforts have been dedicated to establishing medical foundation models and their zero-shot transfer to downstream tasks, the popular few-shot setting remains relatively unexplored. Following on from the currently strong emergence of this setting in computer vision, we introduce the first structured benchmark for adapting medical vision-language models (VLMs) in a strict few-shot regime and investigate various adaptation strategies commonly used in the context of natural images. Furthermore, we evaluate a simple generalization of the linear-probe adaptation baseline, which seeks an optimal blending of the visual prototypes and text embeddings via learnable class-wise multipliers. Surprisingly, such a text-informed linear probe yields competitive performances in comparison to convoluted prompt-learning and adapter-based strategies, while running considerably faster and accommodating the black-box setting. Our extensive experiments span three different medical modalities and specialized foundation models, nine downstream tasks, and several state-of-the-art few-shot adaptation methods. We made our benchmark and code publicly available to trigger further developments in this emergent subject: \url{https://github.com/FereshteShakeri/few-shot-MedVLMs}.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 実用的量子回路編み用ハードウェア対応ゲートカットフレームワーク

A Hardware-Aware Gate Cutting Framework for Practical Quantum Circuit Knitting ( http://arxiv.org/abs/2409.03870v1 )

ライセンス: Link先を確認
Xiangyu Ren, Mengyu Zhang, Antonio Barbalace, (参考訳) 回路編みは、大規模な量子回路を小さなサブ回路に切断することで、短期量子ハードウェアにおける数少ない物理量子ビットの制限を克服する有望な技術として出現する。 この領域における最近の研究は、主に回路下サンプリングオーバーヘッドを減らすことを目的としている。 残念ながら、これらの作業は回路切断中にハードウェア情報を無視するので、ステージ上での重要な課題となっている。 実際、これらの分割されたサブ回路の直接コンパイルと実行は、より総合的な最適化戦略の必要性を浮き彫りにして、低忠実度の結果をもたらす。 本研究では,回路編み物の実用性向上を目的としたハードウェア・アウェア・フレームワークを提案する。 従来の手法とは対照的に,回路切断時のゲートカット数とSWAP挿入数を同時に最適化する切断方式を設計した。 特に、キュービット間相互作用とチップレイアウトのグラフ類似性をヒューリスティックガイドとして活用し、その後のキュービットルーティングのステップにおいて、潜在的SWAPを削減する。 これに基づいて、我々が開発した回路編みフレームワークは、いくつかの量子アルゴリズムで評価され、最先端のアプローチと比較して、全サブ回路の深さを最大64%(平均48%)減らし、相対忠実度を2.7$\times$まで向上させた。

Circuit knitting emerges as a promising technique to overcome the limitation of the few physical qubits in near-term quantum hardware by cutting large quantum circuits into smaller subcircuits. Recent research in this area has been primarily oriented towards reducing subcircuit sampling overhead. Unfortunately, these works neglect hardware information during circuit cutting, thus posing significant challenges to the follow on stages. In fact, direct compilation and execution of these partitioned subcircuits yields low-fidelity results, highlighting the need for a more holistic optimization strategy. In this work, we propose a hardware-aware framework aiming to advance the practicability of circuit knitting. Drawing a contrast with prior methodologies, the presented framework designs a cutting scheme that concurrently optimizes the number of gate cuttings and SWAP insertions during circuit cutting. In particular, we leverage the graph similarity between qubits interactions and chip layout as a heuristic guide to reduces potential SWAPs in the subsequent step of qubit routing. Building upon this, the circuit knitting framework we developed has been evaluated on several quantum algorithms, leading to reduction of total subcircuits depth by up to 64% (48% on average) compared to the state-of-the-art approach, and enhancing the relative fidelity up to 2.7$\times$.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# ディスプレイ広告のコスト論:理論と実践

Cost-Control in Display Advertising: Theory vs Practice ( http://arxiv.org/abs/2409.03874v1 )

ライセンス: Link先を確認
Anoop R Katti, Rui C. Gonçalves, Rinchin Iakovlev, (参考訳) ディスプレイ広告では、広告主は予算と利益に対する制約のあるマーケティング目標を達成することを望んでいる。 これは通常、制約の下での全ユーティリティを最大化する最適化問題として定式化される。 この最適化は、双対空間におけるオンライン方式で行われ、入場広告オークションでは、二対変数に対して最適な値を想定した最適な入札式を用いて入札が行われる。 このアプローチは理論上は正しいが、実際には双対変数は最初から最適ではなく、時間とともに収束する。 具体的には、コスト制約に対して収束は漸近的である。 その結果,コストコントロールが不十分であることが判明した。 本研究では,最適入札公式の欠点を分析し,理論的導出から逸脱する修正を提案する。 様々なシナリオをシミュレートし,2つのアルゴリズムのコスト制御挙動について検討する。 実単語データに対する大規模評価により,提案手法はコスト違反を50%削減し,理論入札式よりも高いコスト制御を実現する。

In display advertising, advertisers want to achieve a marketing objective with constraints on budget and cost-per-outcome. This is usually formulated as an optimization problem that maximizes the total utility under constraints. The optimization is carried out in an online fashion in the dual space - for an incoming Ad auction, a bid is placed using an optimal bidding formula, assuming optimal values for the dual variables; based on the outcome of the previous auctions, the dual variables are updated in an online fashion. While this approach is theoretically sound, in practice, the dual variables are not optimal from the beginning, but rather converge over time. Specifically, for the cost-constraint, the convergence is asymptotic. As a result, we find that cost-control is ineffective. In this work, we analyse the shortcomings of the optimal bidding formula and propose a modification that deviates from the theoretical derivation. We simulate various practical scenarios and study the cost-control behaviors of the two algorithms. Through a large-scale evaluation on the real-word data, we show that the proposed modification reduces the cost violations by 50%, thereby achieving a better cost-control than the theoretical bidding formula.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 畳み込みニューラルネットワークによる土地地震記録からの地すべり分離

Ground-roll Separation From Land Seismic Records Based on Convolutional Neural Network ( http://arxiv.org/abs/2409.03878v1 )

ライセンス: Link先を確認
Zhuang Jia, Wenkai Lu, Meng Zhang, Yongkang Miao, (参考訳) 地すべり波は地中地震データにおいて一般的なコヒーレントノイズである。 このレイリー型表面波は通常、低周波、低外周速度、高振幅を有するため、地震ショットの反射現象は明らかでない。 一般的に使われているテクニックは、$f-k$ドメイン、ウェーブレットドメイン、またはカーブレットドメインのような変換されたドメインにおけるグラウンドロールとリフレクションの違いに焦点を当てている。 これらのアプローチでは、一連の固定された原子または塩基を用いて、時間空間領域のデータを変換された領域に変換し、異なる波形を分離する。 これらの問題に対処するために、畳み込みニューラルネットワーク(CNN)モデルを用いた新しい手法が提案され、トレーニングデータに基づいて、グラウンドロールとリフレクションの特徴を自動抽出する方法が提案されている。 提案手法では, 地すべり波によって汚染された低域通過フィルタ地震データをCNNの入力として使用し, 同時に地すべり成分と反射成分の低周波成分の両方を出力する。 識別的損失は、訓練過程における類似性損失とともに適用され、列車ラベルとの類似性を高めるとともに、2つの出力の差を増大させる。 合成データと実データの両方を用いて実験を行い,CNN法により地すべりと反射を効果的に分離し,ある程度の一般化能力を有することを示した。

Ground-roll wave is a common coherent noise in land field seismic data. This Rayleigh-type surface wave usually has low frequency, low apparent velocity, and high amplitude, therefore obscures the reflection events of seismic shot gathers. Commonly used techniques focus on the differences of ground-roll and reflection in transformed domain such as $f-k$ domain, wavelet domain, or curvelet domain. These approaches use a series of fixed atoms or bases to transform the data in time-space domain into transformed domain to separate different waveforms, thus tend to suffer from the complexity for a delicate design of the parameters of the transform domain filter. To deal with these problems, a novel way is proposed to separate ground-roll from reflections using convolutional neural network (CNN) model based method to learn to extract the features of ground-roll and reflections automatically based on training data. In the proposed method, low-pass filtered seismic data which is contaminated by ground-roll wave is used as input of CNN, and then outputs both ground-roll component and low-frequency part of reflection component simultaneously. Discriminative loss is applied together with similarity loss in the training process to enhance the similarity to their train labels as well as the difference between the two outputs. Experiments are conducted on both synthetic and real data, showing that CNN based method can separate ground roll from reflections effectively, and has generalization ability to a certain extent.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# マルチカメラ産業用オープンセット人物の認識と追跡

Multi-Camera Industrial Open-Set Person Re-Identification and Tracking ( http://arxiv.org/abs/2409.03879v1 )

ライセンス: Link先を確認
Federico Cunico, Marco Cristani, (参考訳) 近年, 個人再識別作業のためのディープラーニング手法の開発が目覚ましい結果をもたらした。 しかし、これは産業的および実践的な現実世界の応用に制限が伴う。 まず、既存の作品のほとんどはクローズドワールドのシナリオで動作し、そのシナリオでは、再識別(プローブ)をクローズドセット(ギャリー)と比較します。 現実のシナリオはしばしば、ギャラリーが先駆的でないようなオープンセットの問題であるが、文献におけるオープンセットのアプローチの数は著しく少ない。 第二に、マルチカメラセットアップ、オクルージョン、リアルタイム要件などの課題により、オフザシェルフメソッドの適用性はさらに制限される。 この研究は、Modular Industrial Multi-Camera Re_identification and Open-set Tracking SystemであるMICRO-TRACKを提示する。 さらに,8台の監視カメラで捉えた18分間のビデオで構成された,ファシリティ・リIDと呼ばれる工業生産施設で取得した新しいRe-IDおよび追跡データセットをリリースする。

In recent years, the development of deep learning approaches for the task of person re-identification led to impressive results. However, this comes with a limitation for industrial and practical real-world applications. Firstly, most of the existing works operate on closed-world scenarios, in which the people to re-identify (probes) are compared to a closed-set (gallery). Real-world scenarios often are open-set problems in which the gallery is not known a priori, but the number of open-set approaches in the literature is significantly lower. Secondly, challenges such as multi-camera setups, occlusions, real-time requirements, etc., further constrain the applicability of off-the-shelf methods. This work presents MICRO-TRACK, a Modular Industrial multi-Camera Re_identification and Open-set Tracking system that is real-time, scalable, and easy to integrate into existing industrial surveillance scenarios. Furthermore, we release a novel Re-ID and tracking dataset acquired in an industrial manufacturing facility, dubbed Facility-ReID, consisting of 18-minute videos captured by 8 surveillance cameras.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 混合自律神経交通コーディネートのためのマルチエージェントパス探索

Multi-agent Path Finding for Mixed Autonomy Traffic Coordination ( http://arxiv.org/abs/2409.03881v1 )

ライセンス: Link先を確認
Han Zheng, Zhongxia Yan, Cathy Wu, (参考訳) 都市移動の進化する状況において、コネクテッド・アンド・オートマチック・ビークルズ(CAV)とヒューマン駆動自動車(HDV)の統合は、自律運転システムにおける複雑な課題と機会を提示している。 近年, ロボット工学の進歩により, エージェント協調作業に適したマルチエージェントパス探索 (MAPF) アルゴリズムが得られたが, 制御不能なHDVがCAVと共存・相互作用しなければならない混合交通環境において, これらの解は適用不可能である。 このギャップに対処するため, オフラインで訓練した条件付き予測モデルを用いて, CAV操作に対するHDV応答を予測し, これらの知見を, A*探索が運動プリミティブを越えて運動制約に適応するPBSに組み込む行動予測キネマティック優先探索(BK-PBS)を提案する。 我々は,BK-PBSとルールベースカーフォローモデルによるCAV計画アルゴリズム,強化学習を比較した。 CAVの浸透速度と交通密度の様々なシナリオにまたがるハイウェイマージシナリオの総合シミュレーションを通じて、BK-PBSは衝突速度の低減とシステムレベルの走行遅延の増大にこれらのベースラインを上回っている。 我々の研究は、マルチヒューマン・マルチロボット協調の多くのシナリオに直接当てはまる。

In the evolving landscape of urban mobility, the prospective integration of Connected and Automated Vehicles (CAVs) with Human-Driven Vehicles (HDVs) presents a complex array of challenges and opportunities for autonomous driving systems. While recent advancements in robotics have yielded Multi-Agent Path Finding (MAPF) algorithms tailored for agent coordination task characterized by simplified kinematics and complete control over agent behaviors, these solutions are inapplicable in mixed-traffic environments where uncontrollable HDVs must coexist and interact with CAVs. Addressing this gap, we propose the Behavior Prediction Kinematic Priority Based Search (BK-PBS), which leverages an offline-trained conditional prediction model to forecast HDV responses to CAV maneuvers, integrating these insights into a Priority Based Search (PBS) where the A* search proceeds over motion primitives to accommodate kinematic constraints. We compare BK-PBS with CAV planning algorithms derived by rule-based car-following models, and reinforcement learning. Through comprehensive simulation on a highway merging scenario across diverse scenarios of CAV penetration rate and traffic density, BK-PBS outperforms these baselines in reducing collision rates and enhancing system-level travel delay. Our work is directly applicable to many scenarios of multi-human multi-robot coordination.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# データセットにおける欠陥ラベルが人文推定に及ぼす影響

The Influence of Faulty Labels in Data Sets on Human Pose Estimation ( http://arxiv.org/abs/2409.03887v1 )

ライセンス: Link先を確認
Arnold Schwarz, Levente Hernadi, Felix Bießmann, Kristian Hildebrand, (参考訳) 本研究では,トレーニングデータの質がHPE(Human Pose Estimation)のモデル性能に影響を及ぼすことを示す実証的証拠を提供する。 マイナーエラーから厳密なラベル付けまで、広く使用されているデータセットにおける不正確なラベルは、学習やパフォーマンスメトリクスの歪曲に悪影響を及ぼす可能性がある。 我々は、ラベル不正確さの程度と性質を示すために、人気のあるHPEデータセットの詳細な分析を行う。 この結果から, 種々の実世界のアプリケーションに対して, より堅牢で正確なHPEモデルの開発が促進されることが示唆された。 クリーン化データによる性能向上を示す。

In this study we provide empirical evidence demonstrating that the quality of training data impacts model performance in Human Pose Estimation (HPE). Inaccurate labels in widely used data sets, ranging from minor errors to severe mislabeling, can negatively influence learning and distort performance metrics. We perform an in-depth analysis of popular HPE data sets to show the extent and nature of label inaccuracies. Our findings suggest that accounting for the impact of faulty labels will facilitate the development of more robust and accurate HPE models for a variety of real-world applications. We show improved performance with cleansed data.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# Recon-all-clinical: Cortical Surface Restruction and Analysis of heterogeneous Clinical Brain MRI

Recon-all-clinical: Cortical surface reconstruction and analysis of heterogeneous clinical brain MRI ( http://arxiv.org/abs/2409.03889v1 )

ライセンス: Link先を確認
Karthik Gopinath, Douglas N. Greve, Colin Magdamo, Steve Arnold, Sudeshna Das, Oula Puonti, Juan Eugenio Iglesias, (参考訳) 大脳皮質の表面解析は、MRIを用いたヒト神経画像においてユビキタスである。 皮質登録、パーセレーション、厚さ推定には重要である。 伝統的に、これらの分析には高分解能の等方性スキャンが必要であり、グレー・ホワイトのコントラストは良好で、通常は1mmのT1重みスキャンを必要とする。 これは、ほとんどの臨床MRIスキャンを除外し、しばしば異方性であり、必要なT1コントラストを欠いている。 大規模な臨床データを用いた大規模な神経画像研究を可能にするために,脳MRIスキャンにおける大脳皮質再建,登録,パーセレーション,厚さ推定の新しい手法であるrecon-all-clinicalを導入する。 提案手法では,領域ランダム化を訓練した畳み込みニューラルネットワーク(CNN)を用いて,符号付き距離関数(SDF)の予測と,位相的および幾何的制約を維持しつつ,正確な表面配置のための古典的幾何処理を併用する。 この方法は、異なる取得のための再トレーニングを必要としないため、異種臨床データセットの分析が簡単になる。 19,000件以上の臨床検査を含む,複数のデータセットを対象に,再構成全臨床検査を行った。 この方法では、MRIのコントラストと解像度の異なる精度で、常に正確な皮質再建と高いパーセレーション精度が得られた。 皮質の厚さ推定はMRIのコントラストとは無関係に老化効果を捉えるのに十分正確であるが、精度はスライス厚さによって異なる。 我々の方法はhttps://surfer.nmr.mgh.harvard.edu/fswiki/recon-all-clinicalで公開されている。 この進歩は、研究グレードのMRIデータが不足している稀な疾患や人口不足の研究に特に有用である。

Surface-based analysis of the cerebral cortex is ubiquitous in human neuroimaging with MRI. It is crucial for cortical registration, parcellation, and thickness estimation. Traditionally, these analyses require high-resolution, isotropic scans with good gray-white matter contrast, typically a 1mm T1-weighted scan. This excludes most clinical MRI scans, which are often anisotropic and lack the necessary T1 contrast. To enable large-scale neuroimaging studies using vast clinical data, we introduce recon-all-clinical, a novel method for cortical reconstruction, registration, parcellation, and thickness estimation in brain MRI scans of any resolution and contrast. Our approach employs a hybrid analysis method that combines a convolutional neural network (CNN) trained with domain randomization to predict signed distance functions (SDFs) and classical geometry processing for accurate surface placement while maintaining topological and geometric constraints. The method does not require retraining for different acquisitions, thus simplifying the analysis of heterogeneous clinical datasets. We tested recon-all-clinical on multiple datasets, including over 19,000 clinical scans. The method consistently produced precise cortical reconstructions and high parcellation accuracy across varied MRI contrasts and resolutions. Cortical thickness estimates are precise enough to capture aging effects independently of MRI contrast, although accuracy varies with slice thickness. Our method is publicly available at https://surfer.nmr.mgh.harvard.edu/fswiki/recon-all-clinical, enabling researchers to perform detailed cortical analysis on the huge amounts of already existing clinical MRI scans. This advancement may be particularly valuable for studying rare diseases and underrepresented populations where research-grade MRI data is scarce.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# MVTN ハンドジェスチャ認識のためのマルチスケールビデオトランスネットワーク

MVTN: A Multiscale Video Transformer Network for Hand Gesture Recognition ( http://arxiv.org/abs/2409.03890v1 )

ライセンス: Link先を確認
Mallika Garg, Debashis Ghosh, Pyari Mohan Pradhan, (参考訳) 本稿では,手動ジェスチャー認識における課題である,手動ジェスチャー認識において,手動ジェスチャー認識の課題となる,手動動作の大きさ,ポーズ,形状の異なる特徴を抽出できる,動的手動ジェスチャー認識のための新しいMultiscale Video Transformer Network(MVTN)を提案する。 提案モデルでは,多段階の特徴階層が組み込まれ,手動作における細部や文脈の多様さを把握し,モデルの能力を高める。 このマルチスケール階層は、低解像度特徴をモデル化するための初期ステージと、低解像度特徴をモデル化するための後期ステージとで、異なる変圧器段階の異なる注意次元を抽出することによって得られる。 また,NVGesture や Briareo のデータセットからの RGB 画像とともに,深度マップ,赤外データ,表面正規化を利用したマルチモーダルデータも活用する。 実験の結果,提案したMVTNは計算量やパラメータを少なくして最先端の計算結果が得られることがわかった。 ソースコードはhttps://github.com/mallikagarg/MVTNで入手できる。

In this paper, we introduce a novel Multiscale Video Transformer Network (MVTN) for dynamic hand gesture recognition, since multiscale features can extract features with variable size, pose, and shape of hand which is a challenge in hand gesture recognition. The proposed model incorporates a multiscale feature hierarchy to capture diverse levels of detail and context within hand gestures which enhances the model's ability. This multiscale hierarchy is obtained by extracting different dimensions of attention in different transformer stages with initial stages to model high-resolution features and later stages to model low-resolution features. Our approach also leverages multimodal data, utilizing depth maps, infrared data, and surface normals along with RGB images from NVGesture and Briareo datasets. Experiments show that the proposed MVTN achieves state-of-the-art results with less computational complexity and parameters. The source code is available at https://github.com/mallikagarg/MVTN.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# Gassian Kernel Ridgeless Regressionの過度に適合する挙動:バンド幅または次元の変化

Overfitting Behaviour of Gaussian Kernel Ridgeless Regression: Varying Bandwidth or Dimensionality ( http://arxiv.org/abs/2409.03891v1 )

ライセンス: Link先を確認
Marko Medvedev, Gal Vardi, Nathan Srebro, (参考訳) サンプルサイズによって帯域幅や入力寸法が変化する場合、最小ノルム補間解のガウス核リッジ回帰(カーネルリッジレス回帰)のオーバーフィッティング挙動を考察する。 固定次元の場合、帯域幅が変化したり調整されたりしても、リッジレス解は整合性がなく、少なくとも十分なノイズがあれば、常にヌル予測器よりも悪いことが示される。 次元を拡大するために、標本サイズを持つ任意の次元のスケーリングに対する過度に適合する挙動の一般的な特徴を与える。 これを用いて、ガウスカーネルとサブポリノミカルスケーリング次元を用いた良性オーバーフィッティングの最初の例を提供する。 すべての結果は、ガウス普遍性アンサッツと、核固有構造の観点からの(厳密でない)リスク予測の下にある。

We consider the overfitting behavior of minimum norm interpolating solutions of Gaussian kernel ridge regression (i.e. kernel ridgeless regression), when the bandwidth or input dimension varies with the sample size. For fixed dimensions, we show that even with varying or tuned bandwidth, the ridgeless solution is never consistent and, at least with large enough noise, always worse than the null predictor. For increasing dimension, we give a generic characterization of the overfitting behavior for any scaling of the dimension with sample size. We use this to provide the first example of benign overfitting using the Gaussian kernel with sub-polynomial scaling dimension. All our results are under the Gaussian universality ansatz and the (non-rigorous) risk predictions in terms of the kernel eigenstructure.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# モデル縮小のための支配部分空間の同定のための補間点のアクティブサンプリング

Active Sampling of Interpolation Points to Identify Dominant Subspaces for Model Reduction ( http://arxiv.org/abs/2409.03892v1 )

ライセンス: Link先を確認
Celine Reddig, Pawan Goyal, Igor Pontes Duff, Peter Benner, (参考訳) モデル縮小は、工学設計サイクルを加速するために、高忠実度の低次元サロゲートモデルを構築するための活発な研究分野である。 本研究では,支配的到達可能部分空間と観測可能部分空間を用いた線形構造系のモデル還元について検討する。 可能な補間点を全て含むトレーニングセット $-$ が大きければ、これらの部分空間は多くの大規模線形系を解くことで決定できる。 しかし、高忠実度モデルでは、これは容易に計算的に難解になる。 この問題を回避するため,本研究では,与えられたトレーニングセットから数点のみをサンプリングし,それらの部分空間を正確に推定できるアクティブサンプリング戦略を提案する。 この目的のために、一般化されたシルヴェスター方程式の解として部分空間の同定を定式化し、目標を達成するためにトレーニングセットから最も関連性の高いサンプルを選択するように指示する。 その結果、サブスペース情報をエンコードする低ランク形式の行列方程式の解を構築した。 縮小次数モデルを得る過程における低ランク因子の計算的側面と効率的な利用について論じる。 提案手法は, 有界かつ観測可能な部分空間を経由した低次モデルの探索と, トレーニングセットから得られるすべての点を考慮に入れた手法との比較を行う。 アクティブなサンプル戦略は、顕著な精度を犠牲にすることなく、17ドル(約1,300円)のスピードアップを提供できる。

Model reduction is an active research field to construct low-dimensional surrogate models of high fidelity to accelerate engineering design cycles. In this work, we investigate model reduction for linear structured systems using dominant reachable and observable subspaces. When the training set $-$ containing all possible interpolation points $-$ is large, then these subspaces can be determined by solving many large-scale linear systems. However, for high-fidelity models, this easily becomes computationally intractable. To circumvent this issue, in this work, we propose an active sampling strategy to sample only a few points from the given training set, which can allow us to estimate those subspaces accurately. To this end, we formulate the identification of the subspaces as the solution of the generalized Sylvester equations, guiding us to select the most relevant samples from the training set to achieve our goals. Consequently, we construct solutions of the matrix equations in low-rank forms, which encode subspace information. We extensively discuss computational aspects and efficient usage of the low-rank factors in the process of obtaining reduced-order models. We illustrate the proposed active sampling scheme to obtain reduced-order models via dominant reachable and observable subspaces and present its comparison with the method where all the points from the training set are taken into account. It is shown that the active sample strategy can provide us $17$x speed-up without sacrificing any noticeable accuracy.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# Recommender Systemsにおけるフェアネスメトリクスの理解:ヘルスケアの視点から

Understanding Fairness Metrics in Recommender Systems: A Healthcare Perspective ( http://arxiv.org/abs/2409.03893v1 )

ライセンス: Link先を確認
Veronica Kecki, Alan Said, (参考訳) AIによる意思決定システムの公平性は、特にこれらのシステムが直接人間の生活に影響を与える場合、重要な関心事となっている。 本稿では,医療レコメンデーションにおける公正に対する一般の理解について考察する。 調査では、参加者が4つのフェアネス指標(デモグラフィックパリティ、平等度、平等度、ポジティブ予測値)から選択して、これらの概念に対する理解を評価するために、さまざまな医療シナリオを調査しました。 その結果,フェアネスは複雑で,しばしば誤解される概念であり,推奨システムにおけるフェアネス指標に関する一般の理解度は低いことが明らかとなった。 本研究は,これらのシステムを用いた情報意思決定を支援するために,アルゴリズムフェアネスの強化と教育の必要性を強調した。 さらに、公平性に対する一大のアプローチは不十分であり、公平なAIシステムを開発する上で、文脈に敏感な設計の重要性が指摘されている。

Fairness in AI-driven decision-making systems has become a critical concern, especially when these systems directly affect human lives. This paper explores the public's comprehension of fairness in healthcare recommendations. We conducted a survey where participants selected from four fairness metrics -- Demographic Parity, Equal Accuracy, Equalized Odds, and Positive Predictive Value -- across different healthcare scenarios to assess their understanding of these concepts. Our findings reveal that fairness is a complex and often misunderstood concept, with a generally low level of public understanding regarding fairness metrics in recommender systems. This study highlights the need for enhanced information and education on algorithmic fairness to support informed decision-making in using these systems. Furthermore, the results suggest that a one-size-fits-all approach to fairness may be insufficient, pointing to the importance of context-sensitive designs in developing equitable AI systems.
翻訳日:2024-09-09 17:30:22 公開日:2024-09-05
# 不均一環境におけるフェデレーションQ学習の収束率について

On the Convergence Rates of Federated Q-Learning across Heterogeneous Environments ( http://arxiv.org/abs/2409.03897v1 )

ライセンス: Link先を確認
Muxing Wang, Pengkun Yang, Lili Su, (参考訳) 大規模マルチエージェントシステムは、エージェントが異種環境と相互作用する広い地域にわたって展開されることが多い。 古典的強化学習アルゴリズムのフェデレーション版の性能における異種性の役割を理解することへの関心が高まっている。 本稿では,K$エージェントをローカルQ推定平均で$E$イテレーションあたりの平均値にすることで,最適なQ関数を学習することを目的とした同期型Q-ラーニングについて検討する。 収束速度に関する興味深い現象を、$K$と$E$という観点から観察する。 均質な環境設定と同様に、サンプリングランダム性から生じるエラーを減らすために$K$に関する線形スピードアップがある。 しかし、均質な設定とは対照的に、$E>1$は性能を著しく低下させる。 具体的には、環境不均一性の存在下でのエラー進化を詳細に評価し、反復数$T$が増加するにつれて0に減衰する。 E>1$を持つことの緩やかな収束は、我々の分析の成果物というよりは根本的なものであることが判明した。 我々は、幅広い段階において、エラーの$\ell_{\infty}$ノルムが$\Theta (E/T)$よりも早く崩壊できないことを証明している。 さらに,本実験では,この収束現象が興味深い2相現象を示すことを示した。 任意のステップサイズに対して、収束の急激な位相遷移があり、エラーは初めから急速に崩壊するが、後に跳ね上がり、安定化する。 相転移時間を推定でき、2つの相の異なる段階を選択すれば、全体の収束が早くなる。

Large-scale multi-agent systems are often deployed across wide geographic areas, where agents interact with heterogeneous environments. There is an emerging interest in understanding the role of heterogeneity in the performance of the federated versions of classic reinforcement learning algorithms. In this paper, we study synchronous federated Q-learning, which aims to learn an optimal Q-function by having $K$ agents average their local Q-estimates per $E$ iterations. We observe an interesting phenomenon on the convergence speeds in terms of $K$ and $E$. Similar to the homogeneous environment settings, there is a linear speed-up concerning $K$ in reducing the errors that arise from sampling randomness. Yet, in sharp contrast to the homogeneous settings, $E>1$ leads to significant performance degradation. Specifically, we provide a fine-grained characterization of the error evolution in the presence of environmental heterogeneity, which decay to zero as the number of iterations $T$ increases. The slow convergence of having $E>1$ turns out to be fundamental rather than an artifact of our analysis. We prove that, for a wide range of stepsizes, the $\ell_{\infty}$ norm of the error cannot decay faster than $\Theta (E/T)$. In addition, our experiments demonstrate that the convergence exhibits an interesting two-phase phenomenon. For any given stepsize, there is a sharp phase-transition of the convergence: the error decays rapidly in the beginning yet later bounces up and stabilizes. Provided that the phase-transition time can be estimated, choosing different stepsizes for the two phases leads to faster overall convergence.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# エンド・ツー・エンドAVパイプラインの安全性と安全性

Achieving the Safety and Security of the End-to-End AV Pipeline ( http://arxiv.org/abs/2409.03899v1 )

ライセンス: Link先を確認
Noah T. Curran, Minkyoung Cho, Ryan Feng, Liangkai Liu, Brian Jay Tang, Pedram MohajerAnsari, Alkim Domeke, Mert D. Pesé, Kang G. Shin, (参考訳) 自律走行車(AV)の安全性とセキュリティ研究の現在の状況では、コミュニティ全体では、複数の独立した問題が取り組まれている。 共通の評価基準が欠如しているため、いくつかの重要な研究課題が互いに相反している。 例えば、AV知覚システムに影響を及ぼす物理的攻撃について多くの研究がなされているが、労働防衛や安全な車両制御の下流への影響について、しばしば不十分な調査が行われている。 本稿では,AVの安全性とセキュリティ研究の現状について概説する。 我々は,AV監視,センサシステムの信頼性,AVスタックのセキュリティ,アルゴリズム的堅牢性,安全な環境相互作用など,この研究領域に関する主要な研究課題について,個別のセクションを提供する。 本稿は、これらの異なる問題の相互作用に関する問題に関する議論をまとめてまとめる。 それぞれの節の結論として,結論が付かない今後の研究課題を提案する。 本稿は、この研究領域への参加を目指す初心者およびベテラン研究者のエントリーポイントとして機能する。

In the current landscape of autonomous vehicle (AV) safety and security research, there are multiple isolated problems being tackled by the community at large. Due to the lack of common evaluation criteria, several important research questions are at odds with one another. For instance, while much research has been conducted on physical attacks deceiving AV perception systems, there is often inadequate investigations on working defenses and on the downstream effects of safe vehicle control. This paper provides a thorough description of the current state of AV safety and security research. We provide individual sections for the primary research questions that concern this research area, including AV surveillance, sensor system reliability, security of the AV stack, algorithmic robustness, and safe environment interaction. We wrap up the paper with a discussion of the issues that concern the interactions of these separate problems. At the conclusion of each section, we propose future research questions that still lack conclusive answers. This position article will serve as an entry point to novice and veteran researchers seeking to partake in this research domain.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 曲線調和振動子のデムコフ-フラドキンテンソル

Demkov--Fradkin tensor for curved harmonic oscillators ( http://arxiv.org/abs/2409.03900v1 )

ライセンス: Link先を確認
Şengül Kuru, Javier Negro, Sergio Salamanca, (参考訳) 本研究では、パラメータ $\kappa$ の定数曲率を持つ空間における量子曲線調和振動子に対する対称性のデムコフ・フラドキンテンソルを得る。 このテンソルを構築するために、まず次の条件を満たす基本作用素の集合を発見した。 i) それらの製品は,問題の対称性を与える。実際,ハミルトニアンは,そのような製品の組み合わせである。 二 固有関数の空間及び固有値を代数的に生成すること。 三 曲率ゼロの極限において、平坦振動子のよく知られた生成/消滅演算子に入ること。 そのような基本作用素の適切な積は、曲線化されたデムコフ・フラドキンテンソルを生成する。 しかし、これらの基本作用素はハイゼンベルク可換作用素を満足せず、別のリー代数を閉じる。 副生成物として、古典的曲線調和振動子に対する古典的デムコフ・フラドキンテンソルが同じ方法で得られた。 作用素は$so_\kappa(4)$ Lie環を閉じ、スペクトルと固有函数は代数的方法で明示的に解かれ、古典的な場合、軌道は計算された。

In this work, we obtain the Demkov-Fradkin tensor of symmetries for the quantum curved harmonic oscillator in a space with constant curvature given by a parameter $\kappa$. In order to construct this tensor we have firstly found a set of basic operators which satisfy the following conditions: i) their products give symmetries of the problem; in fact the Hamiltonian is a combination of such products; ii) they generate the space of eigenfunctions as well as the eigenvalues in an algebraic way; iii) in the limit of zero curvature, they come into the well known creation/annihilation operators of the flat oscillator. The appropriate products of such basic operators will produce the curved Demkov-Fradkin tensor. However, these basic operators do not satisfy Heisenberg commutators but close another Lie algebra. As a by-product, the classical Demkov-Fradkin tensor for the classical curved harmonic oscillator has been obtained by the same method. The case of two dimensions has been worked out in detail: the operators close a $so_\kappa(4)$ Lie algebra; the spectrum and eigenfunctions are explicitly solved in an algebraic way and in the classical case the trajectories have been computed.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 地上観測のための衛星画像のオンボード分類:事前学習型視覚変換器モデルの比較検討

On-board Satellite Image Classification for Earth Observation: A Comparative Study of Pre-Trained Vision Transformer Models ( http://arxiv.org/abs/2409.03901v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Vu Nguyen Ha, Ti Ti Nguyen, Geoffrey Eappen, Prabhu Thiruvasagam, Luis M. Garces-Socarras, Hong-fu Chou, Jorge L. Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas, (参考訳) リモートセンシング画像分類は、伝統的に畳み込みニューラルネットワーク(CNN)やその他のディープラーニング技術によって支配される地球観測(EO)システムの重要な構成要素である。 しかし、Transformerベースのアーキテクチャと大規模事前訓練モデルの出現により、性能と効率が大幅に向上した。 本研究は、衛星データ処理における土地利用分類における最も効果的な事前学習モデルを特定することに焦点を当て、衛星ベースの推論でよく見られるノイズの多いデータ条件に対して高い精度、計算効率、ロバスト性を実現することを強調する。 広範にわたる実験を通じて,従来のCNNモデル,ResNetモデル,および様々な事前学習された視覚変換モデルを比較した。 特にMobileViTV2とEfficientViT-M2は,スクラッチからトレーニングしたモデルよりも精度と効率が優れていた。 これらのモデルは計算要求を減らして高い性能を達成し、雑音条件下での推論においてより高いレジリエンスを示す。 MobileViTV2は清潔な検証データに優れていたが、EfficientViT-M2はノイズを扱う際により堅牢であることが判明し、衛星地球観測に最も適したモデルとなった。 結論として、EfficientViT-M2は衛星操作における信頼性と効率的なリモートセンシング画像分類の最適選択であり、98.76\%の精度、精度、リコールを実現している。 具体的には、EfficientViT-M2は、トレーニング効率(1,000秒)と推論時間(10秒)に優れ、高い堅牢性(全ロバスト性スコア0.79)を示した。

Remote sensing image classification is a critical component of Earth observation (EO) systems, traditionally dominated by convolutional neural networks (CNNs) and other deep learning techniques. However, the advent of Transformer-based architectures and large-scale pre-trained models has significantly shifted, offering enhanced performance and efficiency. This study focuses on identifying the most effective pre-trained model for land use classification in onboard satellite processing, emphasizing achieving high accuracy, computational efficiency, and robustness against noisy data conditions commonly encountered during satellite-based inference. Through extensive experimentation, we compared traditional CNN-based models, ResNet-based models, and various pre-trained vision Transformer models. Our findings demonstrate that pre-trained Transformer models, particularly MobileViTV2 and EfficientViT-M2, outperform models trained from scratch in accuracy and efficiency. These models achieve high performance with reduced computational requirements and exhibit greater resilience during inference under noisy conditions. While MobileViTV2 excelled on clean validation data, EfficientViT-M2 proved more robust when handling noise, making it the most suitable model for onboard satellite Earth observation tasks. In conclusion, EfficientViT-M2 is the optimal choice for reliable and efficient remote sensing image classification in satellite operations, achieving 98.76\% accuracy, precision, and recall. Specifically, EfficientViT-M2 delivered the highest performance across all metrics, excelled in training efficiency (1,000s) and inference time (10s), and demonstrated greater robustness (overall robustness score at 0.79).
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# WaterMAS: ニューラルネットワークによるウォーターマーキングのためのシャープネス認識の最大化

WaterMAS: Sharpness-Aware Maximization for Neural Network Watermarking ( http://arxiv.org/abs/2409.03902v1 )

ライセンス: Link先を確認
Carl De Sousa Trias, Mihai Mitrea, Attilio Fiandrotti, Marco Cagnazzo, Sumanta Chaudhuri, Enzo Tartaglione, (参考訳) 今日では、ディープニューラルネットワークは、いくつかの重要なアプリケーションにおける複雑なタスクの解決や、その完全性と知的財産権(IPR)の保護に利用されています。 この目的のために我々は、データペイロードとセキュリティの強化を図りながら、ロバスト性、不受容性、計算複雑性のトレードオフを改善する置換型ホワイトボックスニューラルネットワーク透かし法であるWaterMASを推進した。 WasterMASの挿入は、下層の勾配空間を研ぎながら、透かしの重みを変え続ける。 したがって、ロバスト性は攻撃の強さを制限することで確保され、水面にマークされた重量の小さな変更でもモデルの性能に影響を及ぼす。 トレーニングプロセス中に透かしを挿入することで、認識不能を確保できる。 本稿では,WaterMASデータペイロード間の関係,非受容性,ロバスト性について論じる。 秘密鍵は、透かしを伝達する重みの位置で表され、モデルの複数の層を通してランダムに選択される。 セキュリティは、攻撃者が鍵を傍受するケースを調査して評価される。 実験的な検証では、5つのモデルと2つのタスク(VGG16、ResNet18、MobileNetV3、CIFAR10イメージ分類のためのSwinT、CityscapesイメージセグメンテーションのためのDeepLabV3)と4種類の攻撃(ガウスノイズの追加、プルーニング、微調整、量子化)が検討されている。 コードは、記事の受理後、オープンソースとして公開される。

Nowadays, deep neural networks are used for solving complex tasks in several critical applications and protecting both their integrity and intellectual property rights (IPR) has become of utmost importance. To this end, we advance WaterMAS, a substitutive, white-box neural network watermarking method that improves the trade-off among robustness, imperceptibility, and computational complexity, while making provisions for increased data payload and security. WasterMAS insertion keeps unchanged the watermarked weights while sharpening their underlying gradient space. The robustness is thus ensured by limiting the attack's strength: even small alterations of the watermarked weights would impact the model's performance. The imperceptibility is ensured by inserting the watermark during the training process. The relationship among the WaterMAS data payload, imperceptibility, and robustness properties is discussed. The secret key is represented by the positions of the weights conveying the watermark, randomly chosen through multiple layers of the model. The security is evaluated by investigating the case in which an attacker would intercept the key. The experimental validations consider 5 models and 2 tasks (VGG16, ResNet18, MobileNetV3, SwinT for CIFAR10 image classification, and DeepLabV3 for Cityscapes image segmentation) as well as 4 types of attacks (Gaussian noise addition, pruning, fine-tuning, and quantization). The code will be released open-source upon acceptance of the article.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# CACER:がんイベントと関連性のための臨床的概念アノテーション

CACER: Clinical Concept Annotations for Cancer Events and Relations ( http://arxiv.org/abs/2409.03905v1 )

ライセンス: Link先を確認
Yujuan Fu, Giridhar Kaushik Ramachandran, Ahmad Halwani, Bridget T. McInnes, Fei Xia, Kevin Lybarger, Meliha Yetisgen, Özlem Uzuner, (参考訳) 臨床ノートには、医療問題と処方薬の関連を含む、患者の履歴の非構造的表現が含まれている。 がん薬剤と症状の重荷との関連性を検討するため,腫瘍学ノートの臨床的記述から,医療問題の構造的,意味的表現,薬物情報の抽出を行った。 CACERは,48,000件以上の医学的問題や薬物イベント,1万件の薬物・プロブレム・問題・プロブレム関係を詳細に記述した新しいコーパスである。 CACERを活用することで,微細チューニングとテキスト内学習(ICL)を用いて,BERT,Flan-T5,Llama3,GPT-4などのトランスフォーマベース情報抽出(IE)モデルの開発と評価を行う。 イベント抽出において、細調整されたBERTとLlama3は88.2-88.0 F1で最高性能を達成した。 関連抽出では、細調整されたBERT、Flan-T5、Llama3が61.8-65.3 F1で最高性能を達成した。 GPT-4とICLは、両方のタスクで最悪の性能を達成した。 微調整されたモデルはICLでGPT-4よりも優れており、注釈付きトレーニングデータとモデル最適化の重要性を強調した。 さらに、BERTモデルはLlama3と同様に動作した。 我々のタスクでは、LLMは小さなBERTモデルに対して性能上の優位性を提供していません。 その結果、モデルを最適化するための注釈付きトレーニングデータの必要性が強調された。 複数の微調整トランスモデルは、複数の抽出タスクにおいてIAAに匹敵する性能を達成した。

Clinical notes contain unstructured representations of patient histories, including the relationships between medical problems and prescription drugs. To investigate the relationship between cancer drugs and their associated symptom burden, we extract structured, semantic representations of medical problem and drug information from the clinical narratives of oncology notes. We present Clinical Concept Annotations for Cancer Events and Relations (CACER), a novel corpus with fine-grained annotations for over 48,000 medical problems and drug events and 10,000 drug-problem and problem-problem relations. Leveraging CACER, we develop and evaluate transformer-based information extraction (IE) models such as BERT, Flan-T5, Llama3, and GPT-4 using fine-tuning and in-context learning (ICL). In event extraction, the fine-tuned BERT and Llama3 models achieved the highest performance at 88.2-88.0 F1, which is comparable to the inter-annotator agreement (IAA) of 88.4 F1. In relation extraction, the fine-tuned BERT, Flan-T5, and Llama3 achieved the highest performance at 61.8-65.3 F1. GPT-4 with ICL achieved the worst performance across both tasks. The fine-tuned models significantly outperformed GPT-4 in ICL, highlighting the importance of annotated training data and model optimization. Furthermore, the BERT models performed similarly to Llama3. For our task, LLMs offer no performance advantage over the smaller BERT models. The results emphasize the need for annotated training data to optimize models. Multiple fine-tuned transformer models achieved performance comparable to IAA for several extraction tasks.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 歴史的写真管理における生成システムの役割 : カタルーニャのアーカイブを事例として

The Role of Generative Systems in Historical Photography Management: A Case Study on Catalan Archives ( http://arxiv.org/abs/2409.03911v1 )

ライセンス: Link先を確認
Èric Śanchez, Adrià Molina, Oriol Ramos Terrades, (参考訳) 写真の自動管理における画像分析の利用は、遺産機関の傾向が増している。 このようなツールは、新しいデータソースのマニュアルと高価なアノテーションに関連する人的コストを軽減すると同時に、オンラインインデックスや検索エンジンを通じて市民権への迅速なアクセスを容易にする。 しかし、利用可能なタグ付けや記述ツールは通常、英語の近代的な写真を中心に設計され、マイノリティ化された言語における歴史的コーパスを無視し、それぞれ固有の特殊性を示す。 本研究の主な目的は,史料の記述における生成系の量的寄与を研究することである。 これは、カタルーニャのアーカイブから歴史的写真をキャプションするタスクをケーススタディとしてコンテキスト化することでなされる。 本研究は,視覚的適応と言語的近接に基づくキャプションモデルの伝達学習のツールと方向性を提供する。

The use of image analysis in automated photography management is an increasing trend in heritage institutions. Such tools alleviate the human cost associated with the manual and expensive annotation of new data sources while facilitating fast access to the citizenship through online indexes and search engines. However, available tagging and description tools are usually designed around modern photographs in English, neglecting historical corpora in minoritized languages, each of which exhibits intrinsic particularities. The primary objective of this research is to study the quantitative contribution of generative systems in the description of historical sources. This is done by contextualizing the task of captioning historical photographs from the Catalan archives as a case study. Our findings provide practitioners with tools and directions on transfer learning for captioning models based on visual adaptation and linguistic proximity.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 画素分布学習に基づくガーベッジ分類のための画像認識

Image Recognition for Garbage Classification Based on Pixel Distribution Learning ( http://arxiv.org/abs/2409.03913v1 )

ライセンス: Link先を確認
Jenil Kanani, (参考訳) 急速な経済・産業開発による廃棄物生産の指数的な成長は、環境汚染と資源の枯渇を緩和するために効率的な廃棄物管理戦略を必要とする。 本研究は, コンピュータビジョンの進歩を生かして, 自動ゴミ分類を強化するために, 画素分布学習技術に触発された新しいアプローチを提案する。 この方法は、従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチの限界に対処することを目的としている。 我々はKaggle Garbage分類データセットを用いて実験を行い、我々のアプローチを既存のモデルと比較し、自動ゴミ分類技術における画素分布学習の強さと効率性を実証する。

The exponential growth in waste production due to rapid economic and industrial development necessitates efficient waste management strategies to mitigate environmental pollution and resource depletion. Leveraging advancements in computer vision, this study proposes a novel approach inspired by pixel distribution learning techniques to enhance automated garbage classification. The method aims to address limitations of conventional convolutional neural network (CNN)-based approaches, including computational complexity and vulnerability to image variations. We will conduct experiments using the Kaggle Garbage Classification dataset, comparing our approach with existing models to demonstrate the strength and efficiency of pixel distribution learning in automated garbage classification technologies.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 非同期確率近似と平均回帰強化学習

Asynchronous Stochastic Approximation and Average-Reward Reinforcement Learning ( http://arxiv.org/abs/2409.03915v1 )

ライセンス: Link先を確認
Huizhen Yu, Yi Wan, Richard S. Sutton, (参考訳) 本稿では,非同期確率近似(SA)アルゴリズムとその半マルコフ決定過程(SMDP)における強化学習への応用について述べる。 まず,Borkar と Meyn の安定性証明法を拡張し,より一般的な雑音条件に適応し,非同期SA アルゴリズムの収束性を保証する。 これらの結果を活用することで、有限空間に対するシュヴァイツァーの古典的相対値反復アルゴリズム RVI Q-learning の非同期SAアナログの収束を確立し、SMDPを弱通信する。 さらに、この応用においてSAを十分に活用するために、RVI Q-learningにおける最適報酬率を推定するための新しい単調性条件を導入する。 これらの条件は、従来検討されていたアルゴリズムの枠組みを大幅に拡張し、RVI Q-learningの安定性と収束解析における新しい証明論で対処する。

This paper studies asynchronous stochastic approximation (SA) algorithms and their application to reinforcement learning in semi-Markov decision processes (SMDPs) with an average-reward criterion. We first extend Borkar and Meyn's stability proof method to accommodate more general noise conditions, leading to broader convergence guarantees for asynchronous SA algorithms. Leveraging these results, we establish the convergence of an asynchronous SA analogue of Schweitzer's classical relative value iteration algorithm, RVI Q-learning, for finite-space, weakly communicating SMDPs. Furthermore, to fully utilize the SA results in this application, we introduce new monotonicity conditions for estimating the optimal reward rate in RVI Q-learning. These conditions substantially expand the previously considered algorithmic framework, and we address them with novel proof arguments in the stability and convergence analysis of RVI Q-learning.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# サイン付きグラフ埋め込みに関する調査:方法と応用

A Survey on Signed Graph Embedding: Methods and Applications ( http://arxiv.org/abs/2409.03916v1 )

ライセンス: Link先を確認
Shrabani Ghosh, (参考訳) サイングラフ(サイングラフ、英: signed graph、SG)は、エッジがそれに取り付けられたサイン情報を運ぶグラフである。 ネットワークの符号は、正、負、中性である。 署名されたネットワークは、ソーシャルネットワーク、引用ネットワーク、および様々な技術ネットワークのような現実世界のネットワークでユビキタスである。 等質型と異質型の両方の符号付きネットワークに対して,多くのネットワーク埋め込みモデルが提案され,開発されている。 SG埋め込みはネットワークノードの低次元ベクトル表現を学習し、リンク予測やノード分類、コミュニティ検出といった多くのネットワーク分析タスクを支援する。 本研究では,SGの埋め込み手法と応用に関する総合的研究を行う。 本稿では、SGの基本理論と方法を紹介し、署名付きグラフ埋め込み法の現状を調査する。 さらに,実世界のシナリオにおける様々な種類のSG埋め込み手法の適用について検討する。 アプリケーションとして,著者ネットワークを解析するための引用ネットワークを探索した。 将来的な方向性を示すために、ソースコードやデータセットも提供しています。 最後に,SG 埋め込みの課題について検討し,今後の研究の方向性を予測した。

A signed graph (SG) is a graph where edges carry sign information attached to it. The sign of a network can be positive, negative, or neutral. A signed network is ubiquitous in a real-world network like social networks, citation networks, and various technical networks. There are many network embedding models have been proposed and developed for signed networks for both homogeneous and heterogeneous types. SG embedding learns low-dimensional vector representations for nodes of a network, which helps to do many network analysis tasks such as link prediction, node classification, and community detection. In this survey, we perform a comprehensive study of SG embedding methods and applications. We introduce here the basic theories and methods of SGs and survey the current state of the art of signed graph embedding methods. In addition, we explore the applications of different types of SG embedding methods in real-world scenarios. As an application, we have explored the citation network to analyze authorship networks. We also provide source code and datasets to give future direction. Lastly, we explore the challenges of SG embedding and forecast various future research directions in this field.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# qSAT:ハードウェア等価チェックのための効率的な量子満足度解法の設計

qSAT: Design of an Efficient Quantum Satisfiability Solver for Hardware Equivalence Checking ( http://arxiv.org/abs/2409.03917v1 )

ライセンス: Link先を確認
Abhoy Kole, Mohammed E. Djeridane, Lennart Weingarten, Kamalika Datta, Rolf Drechsler, (参考訳) ハードウェア検証にSAT(Boolean Satisfiability)ソルバを使用すると、いくつかのインスタンスで指数的な実行時間が発生する。 本研究では,Groverのアルゴリズムを用いたブール回路の等価性チェックのための効率的な量子SAT(qSAT)ソルバを提案する。 共役正規形式等価節の排他的帰結に基づく生成は、量子回路解釈のゲートと深さを最小化し、より少ない量子ビットを要求する。 また、Groverの反復と量子資源に影響を与える検証のための基準回路の検討もケーススタディとして紹介する。 実験結果は、オープンソースのQiskitプラットフォームとIBM量子コンピュータを用いた検証手法の利点を評価するものである。

The use of Boolean Satisfiability (SAT) solver for hardware verification incurs exponential run-time in several instances. In this work we have proposed an efficient quantum SAT (qSAT) solver for equivalence checking of Boolean circuits employing Grover's algorithm. The Exclusive-Sum-of-Product based generation of the Conjunctive Normal Form equivalent clauses demand less qubits and minimizes the gates and depth of quantum circuit interpretation. The consideration of reference circuits for verification affecting Grover's iterations and quantum resources are also presented as a case study. Experimental results are presented assessing the benefits of the proposed verification approach using open-source Qiskit platform and IBM quantum computer.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# PoTo: Python用のハイブリッドAndersenのポイントツー分析

PoTo: A Hybrid Andersen's Points-to Analysis for Python ( http://arxiv.org/abs/2409.03918v1 )

ライセンス: Link先を確認
Ingkarat Rak-amnouykit, Ana Milanova, Guillaume Baudart, Martin Hirzel, Julian Dolby, (参考訳) Pythonは大規模で複雑なプログラムにますます採用されているため、Pythonの静的解析(型推論など)の重要性が高まっている。 残念ながら、Pythonの静的解析は、動的言語機能と豊富な外部ライブラリのために、依然として難しい課題である。 このギャップを埋めるために,本稿では,Python 用 Andersen スタイルのコンテキスト非感性およびフロー非感性ポイントツー分析である PoTo を提案する。 PoToはPython固有の課題に対処し、新しいハイブリッド評価を通じて大規模プログラムで動作し、外部ライブラリ呼び出しのためのPythonインタプリタで、従来の静的ポイントツー分析と具体的な評価を統合する。 次に、ポイントツー分析に基づいて構築されたPythonの静的型推論であるPoTo+を提案する。 我々は PoTo+ を評価し,静的ルールベースの Pytype とディープラーニングベースの DLInfer の2種類のPython 型推論手法と比較した。 以上の結果から,PoTo+は既存のPythonパッケージにおいてPytypeとDLInferの両方より優れていることがわかった。

As Python is increasingly being adopted for large and complex programs, the importance of static analysis for Python (such as type inference) grows. Unfortunately, static analysis for Python remains a challenging task due to its dynamic language features and its abundant external libraries. To help fill this gap, this paper presents PoTo, an Andersen-style context-insensitive and flow-insensitive points-to analysis for Python. PoTo addresses Python-specific challenges and works for large programs via a novel hybrid evaluation, integrating traditional static points-to analysis with concrete evaluation in the Python interpreter for external library calls. Next, this paper presents PoTo+, a static type inference for Python built on the points-to analysis. We evaluate PoTo+ and compare it to two state-of-the-art Python type inference techniques: (1) the static rule-based Pytype and (2) the deep-learning based DLInfer. Our results show that PoTo+ outperforms both Pytype and DLInfer on existing Python packages.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 拡散モデルを用いた高次元ユーザ特化無線チャネルの生成

Generating High Dimensional User-Specific Wireless Channels using Diffusion Models ( http://arxiv.org/abs/2409.03924v1 )

ライセンス: Link先を確認
Taekyun Lee, Juseong Park, Hyeji Kim, Jeffrey G. Andrews, (参考訳) ディープニューラルネットワーク(DNN)ベースのアルゴリズムは、将来の無線通信システムにおいて、大規模なマルチアンテナチャネルを含む多くの物理的およびMAC層機能にとって重要なツールとして登場している。 しかし、そのようなモデルのトレーニングは通常、高次元チャネル測定の大規模なデータセットを必要とする。 本稿では,拡散モデルを用いて合成無線チャネルデータを生成し,現実の無線環境を正確に反映したユーザ固有のチャネルを生成する手法を提案する。 提案手法では,条件付き拡散暗黙的モデル (cDDIM) を用いて,ユーザ位置とマルチアンテナチャネル特性の関係を効果的に把握する。 我々は、ユーザ位置を条件入力として合成された高忠実度チャネルサンプルを生成し、測定不足を克服するために、より大きな拡張データセットを作成する。 本手法の有効性は,流路圧縮やビームアライメントなどの下流作業の訓練において有効であることを示す。 提案手法はノイズの追加やGAN(Generative Adversarial Network)の使用など,従来手法よりも大幅に改善されている。

Deep neural network (DNN)-based algorithms are emerging as an important tool for many physical and MAC layer functions in future wireless communication systems, including for large multi-antenna channels. However, training such models typically requires a large dataset of high-dimensional channel measurements, which are very difficult and expensive to obtain. This paper introduces a novel method for generating synthetic wireless channel data using diffusion-based models to produce user-specific channels that accurately reflect real-world wireless environments. Our approach employs a conditional denoising diffusion implicit models (cDDIM) framework, effectively capturing the relationship between user location and multi-antenna channel characteristics. We generate synthetic high fidelity channel samples using user positions as conditional inputs, creating larger augmented datasets to overcome measurement scarcity. The utility of this method is demonstrated through its efficacy in training various downstream tasks such as channel compression and beam alignment. Our approach significantly improves over prior methods, such as adding noise or using generative adversarial networks (GANs), especially in scenarios with limited initial measurements.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 単純非分解性量子チャネルにおける量子容量の付加性

Additivity of quantum capacities in simple non-degradable quantum channels ( http://arxiv.org/abs/2409.03927v1 )

ライセンス: Link先を確認
Graeme Smith, Peixue Wu, (参考訳) 量子チャネル容量は、通信チャネル上の情報フローの基本的な性能限界を与える。 しかし、重付加能の出現は、量的にも概念的にも、キャパシティを理解する上で大きな障害となる。 添加性の例は稀であるが、非添加性の起源に関する重要な洞察を与え、容量の最高の上限を可能にする。 付加的なコヒーレント情報を持つ分解可能なチャネルは、量子容量を計算できる唯一のチャネルである。 本稿では, 付加的コヒーレントな情報を持ちながら容易に計算可能な量子チャネルを構築する。 第一級の例は、Leditzkyらによって導入されたPlatypusチャネルを一般化することによって構成される 第二級の例は、予想される安定性特性から加法的に従うもので、分解性および非分解性チャネルの確率的混合に基づいている。

Quantum channel capacities give the fundamental performance limits for information flow over a communication channel. However, the prevalence of superadditivity is a major obstacle to understanding capacities, both quantitatively and conceptually. Examples of additivity, while rare, provide key insight into the origins of nonadditivity and enable our best upper bounds on capacities. Degradable channels, which have additive coherent information, are some of the only channels for which we can calculate the quantum capacity. In this paper we construct non-degradable quantum channels that nevertheless have additive coherent information and therefore easily calculated quantum capacity. The first class of examples is constructed by generalizing the Platypus channel introduced by Leditzky et al. The second class of examples, whose additivity follows from a conjectured stability property, is based on probabilistic mixture of degradable and anti-degradable channels.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# データセット蒸留のためのデータ効率の良い生成法

Data-Efficient Generation for Dataset Distillation ( http://arxiv.org/abs/2409.03929v1 )

ライセンス: Link先を確認
Zhe Li, Weitong Zhang, Sarah Cechnicka, Bernhard Kainz, (参考訳) ディープラーニング技術は画像関連タスクで成功したが、指数関数的に増加するデータストレージと計算コストは大きな課題となっている。 データセット蒸留はこれらの課題に対処し、すべての必須情報をカプセル化しているクラスごとにほんの数枚の画像だけを合成する。 現在の手法はマッチングに重点を置いている。 問題は、合成画像が可読性がなく、データセットのパフォーマンスが下流の学習タスクには不十分であることだ。 さらに、クラスごとの合成画像の数がさらに増加すると、蒸留時間はすぐに限界から抜け出すことができる。 そこで我々は,ラベル付きリアルな合成画像を生成することができるクラス条件付き潜時拡散モデルを訓練する。 サンプリング時間は秒間数十の画像に短縮できる。 我々は,少数の合成画像のみを用いてモデルを効果的に訓練し,大規模な実検体で評価できることを実証した。 CIFAR100およびTinyImageNetデータセット上で,ECCV 2024における第1回データセット蒸留チャレンジにおいて,そのランクを(1\)とした。

While deep learning techniques have proven successful in image-related tasks, the exponentially increased data storage and computation costs become a significant challenge. Dataset distillation addresses these challenges by synthesizing only a few images for each class that encapsulate all essential information. Most current methods focus on matching. The problems lie in the synthetic images not being human-readable and the dataset performance being insufficient for downstream learning tasks. Moreover, the distillation time can quickly get out of bounds when the number of synthetic images per class increases even slightly. To address this, we train a class conditional latent diffusion model capable of generating realistic synthetic images with labels. The sampling time can be reduced to several tens of images per seconds. We demonstrate that models can be effectively trained using only a small set of synthetic images and evaluated on a large real test set. Our approach achieved rank \(1\) in The First Dataset Distillation Challenge at ECCV 2024 on the CIFAR100 and TinyImageNet datasets.
翻訳日:2024-09-09 17:20:24 公開日:2024-09-05
# 壁面応力定量化のための深層学習手法:数値訓練からゼロショット実験への応用

A deep learning approach to wall-shear stress quantification: From numerical training to zero-shot experimental application ( http://arxiv.org/abs/2409.03933v1 )

ライセンス: Link先を確認
Esther Lagemann, Julia Roeb, Steven L. Brunton, Christian Lagemann, (参考訳) 壁面の応力力学の正確な定量化は、人間の健康から航空機の設計、最適化に至るまで、基礎的および応用的な研究における様々な応用において極めて重要である。 実験手法や後処理アルゴリズムの進歩にもかかわらず、適切な空間分解能と適切な空間領域内での時間分解壁せん断応力のダイナミクスは解明された目標のままである。 このギャップに対処するために,乱流境界流の対数層から壁並列速度場を取り込み,同じ空間分解能と領域サイズで対応する2次元壁せん断応力場を出力する深層学習アーキテクチャを提案する。 物理面から見ると,我々のフレームワークは,高エネルギーの外層構造が支配壁の応力力学に影響を及ぼす様々なメカニズムをカプセル化した代理モデルとして機能する。 ネットワークは,統計的に1次元乱流チャネルの直接数値シミュレーションと390から1500の摩擦レイノルズ数で空間的に発生する乱流境界層の流れを含む統一データセット上で,教師付き方式で訓練される。 The zero-shot applied to experimental velocity field obtained from Particle-Image Velocimetry measured and verify the physical accuracy of the wall-shear stress estimates with synchronized wall-shear stress Measurement using the Micro-Pillar Shear-Stress Sensor for Reynolds number to 2,000。 要約して, 提案フレームワークは, 容易に利用可能な速度測定から, 到達不能な壁面せん断応力情報を抽出し, 様々な実験応用の進展を促進する基盤となる。

The accurate quantification of wall-shear stress dynamics is of substantial importance for various applications in fundamental and applied research, spanning areas from human health to aircraft design and optimization. Despite significant progress in experimental measurement techniques and post-processing algorithms, temporally resolved wall-shear stress dynamics with adequate spatial resolution and within a suitable spatial domain remain an elusive goal. To address this gap, we introduce a deep learning architecture that ingests wall-parallel velocity fields from the logarithmic layer of turbulent wall-bounded flows and outputs the corresponding 2D wall-shear stress fields with identical spatial resolution and domain size. From a physical perspective, our framework acts as a surrogate model encapsulating the various mechanisms through which highly energetic outer-layer flow structures influence the governing wall-shear stress dynamics. The network is trained in a supervised fashion on a unified dataset comprising direct numerical simulations of statistically 1D turbulent channel and spatially developing turbulent boundary layer flows at friction Reynolds numbers ranging from 390 to 1,500. We demonstrate a zero-shot applicability to experimental velocity fields obtained from Particle-Image Velocimetry measurements and verify the physical accuracy of the wall-shear stress estimates with synchronized wall-shear stress measurements using the Micro-Pillar Shear-Stress Sensor for Reynolds numbers up to 2,000. In summary, the presented framework lays the groundwork for extracting inaccessible experimental wall-shear stress information from readily available velocity measurements and thus, facilitates advancements in a variety of experimental applications.
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# 都市間OD流予測のための高調波LEM

Harnessing LLMs for Cross-City OD Flow Prediction ( http://arxiv.org/abs/2409.03937v1 )

ライセンス: Link先を確認
Chenyang Yu, Xinpeng Xie, Yan Huang, Chenxi Qiu, (参考訳) 都市計画や交通管理において,Origin-Destination(OD)フローの理解と予測が重要である。 従来のOD予測モデルは、1つの都市で有効であるが、交通状況、都市配置、社会経済的要因によって異なる都市で適用される場合、しばしば制限に直面している。 本稿では,Large Language Models (LLMs) を用いて,都市間ODフロー予測の新しい手法を提案する。 提案手法は,LLMの高度な意味理解と文脈学習機能を活用して,異なる特徴を持つ都市間ギャップをブリッジし,ある都市から別の都市へ移動可能な,正確なODフロー予測のための堅牢で適応可能なソリューションを提供する。 我々の新しいフレームワークは、ソース都市からODトレーニングデータセットを収集し、LSMを指導し、ターゲット都市における宛先POIを予測し、予測された宛先POIに最も合う場所を特定する4つの主要なコンポーネントから構成される。 トレーニング中にPOIのセマンティクスと旅行距離を統合する新たなロス関数を導入する。 人間のモビリティとPOIデータから高品質な意味的特徴を抽出することにより、都市空間内の空間的・機能的関係を理解し、個人と様々なPOI間の相互作用を捉える。 大規模実験により,都市間ODフロー予測における最先端の学習手法に対するアプローチの優位性を示した。

Understanding and predicting Origin-Destination (OD) flows is crucial for urban planning and transportation management. Traditional OD prediction models, while effective within single cities, often face limitations when applied across different cities due to varied traffic conditions, urban layouts, and socio-economic factors. In this paper, by employing Large Language Models (LLMs), we introduce a new method for cross-city OD flow prediction. Our approach leverages the advanced semantic understanding and contextual learning capabilities of LLMs to bridge the gap between cities with different characteristics, providing a robust and adaptable solution for accurate OD flow prediction that can be transferred from one city to another. Our novel framework involves four major components: collecting OD training datasets from a source city, instruction-tuning the LLMs, predicting destination POIs in a target city, and identifying the locations that best match the predicted destination POIs. We introduce a new loss function that integrates POI semantics and trip distance during training. By extracting high-quality semantic features from human mobility and POI data, the model understands spatial and functional relationships within urban spaces and captures interactions between individuals and various POIs. Extensive experimental results demonstrate the superiority of our approach over the state-of-the-art learning-based methods in cross-city OD flow prediction.
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# 不均一移動学習によるリモートセンシングシーンの深部クラスタリング

Deep Clustering of Remote Sensing Scenes through Heterogeneous Transfer Learning ( http://arxiv.org/abs/2409.03938v1 )

ライセンス: Link先を確認
Isaac Ray, Alexei Skurikhin, (参考訳) 本稿では,ラベルのないリモートセンシングシーンのターゲットデータセットの教師なし全画像クラスタリング手法を提案する。 本手法は,(1)ラベル付きソースリモートセンシング画像データセット上で事前学習したディープニューラルネットワーク(DINOv2)を微調整し,対象データセットの各画像から特徴ベクトルを抽出すること,(2)多様体投影によるこれらのディープ特徴の次元を低次元ユークリッド空間に縮小すること,(3)ベイズ非パラメトリック技術を用いて組込み特徴をクラスタリングすることにより,クラスタの数とメンバシップを同時に推定すること,の3つのステップからなる。 この手法は異種移動学習を利用して、異なる特徴とラベル分布を持つ未知のデータをクラスタリングする。 いくつかのリモートセンシングシーン分類データセットにおいて、最先端のゼロショット分類手法よりも優れた性能を示す。

This paper proposes a method for unsupervised whole-image clustering of a target dataset of remote sensing scenes with no labels. The method consists of three main steps: (1) finetuning a pretrained deep neural network (DINOv2) on a labelled source remote sensing imagery dataset and using it to extract a feature vector from each image in the target dataset, (2) reducing the dimension of these deep features via manifold projection into a low-dimensional Euclidean space, and (3) clustering the embedded features using a Bayesian nonparametric technique to infer the number and membership of clusters simultaneously. The method takes advantage of heterogeneous transfer learning to cluster unseen data with different feature and label distributions. We demonstrate the performance of this approach outperforming state-of-the-art zero-shot classification methods on several remote sensing scene classification datasets.
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# RWKVを用いたコンテンツモデレーション実験

Experimentation in Content Moderation using RWKV ( http://arxiv.org/abs/2409.03939v1 )

ライセンス: Link先を確認
Umut Yildirim, Rohan Dutta, Burak Yildirim, Atharva Vaidya, (参考訳) 本稿では,RWKVモデルによるターゲット実験によるコンテンツモデレーションの有効性について検討する。 より小さなモデルに蒸留するための新しいデータセットを導入し、コンテンツモデレーションの実践を強化する。 この包括的なデータセットは、社会的課題を示す画像、ビデオ、音声、テキストデータを含む。 LLM(Advanced Large Language Models)を活用して、コンテンツモデレーションシステムのトレーニングと洗練のために、広範なレスポンスセット(テキストは58,958、画像は83,625)を生成しました。 我々のコア実験はRWKVモデルを微調整することであり、大規模なコンテンツモデレーションタスクに対処するためにCPU効率のよいアーキテクチャを生かした。 本研究は, 知識蒸留におけるデータセットの可能性を強調することによって, コンテンツモデレーションシステムの精度と効率を向上させるRWKVの能力を実証するだけでなく, よりコンパクトで資源効率の良いモデルをこの領域で開発するための道を開いた。 HuggingFace:https://huggingface.co/modrwkv

This paper investigates the RWKV model's efficacy in content moderation through targeted experimentation. We introduce a novel dataset specifically designed for distillation into smaller models, enhancing content moderation practices. This comprehensive dataset encompasses images, videos, sounds, and text data that present societal challenges. Leveraging advanced Large Language Models (LLMs), we generated an extensive set of responses -- 558,958 for text and 83,625 for images -- to train and refine content moderation systems. Our core experimentation involved fine-tuning the RWKV model, capitalizing on its CPU-efficient architecture to address large-scale content moderation tasks. By highlighting the dataset's potential for knowledge distillation, this study not only demonstrates RWKV's capability in improving the accuracy and efficiency of content moderation systems but also paves the way for developing more compact, resource-efficient models in this domain. Datasets and models can be found in HuggingFace: https://huggingface.co/modrwkv
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# HUMOS:人体形状を考慮した人体運動モデル

HUMOS: Human Motion Model Conditioned on Body Shape ( http://arxiv.org/abs/2409.03944v1 )

ライセンス: Link先を確認
Shashank Tripathi, Omid Taheri, Christoph Lassner, Michael J. Black, Daniel Holden, Carsten Stoll, (参考訳) リアルな人間の動きを生成することは、多くのコンピュータビジョンやグラフィックスアプリケーションにとって不可欠である。 人間の体の形や大きさの多様性は、人々の動きに大きな影響を与えます。 しかし、既存の運動モデルの多くはこれらの違いを無視し、標準化された平均体に依存している。 運動は身体の特徴と一致せず、多様性を制限している。 そこで本研究では,身体形状に基づく生成運動モデルを構築するための新しいアプローチを提案する。 サイクル整合性,直感的な物理,安定性の制約を適用し,同一性と動きの関係を捉えることによって,このモデルをトレーニングすることが可能であることを示す。 得られたモデルは、現在の最先端技術よりも定量的にも質的にも、多様で、物理的に可塑性で、動的に安定した人間の動きを生成する。 詳細はプロジェクトのページ https://CarstenEpic.github.io/humos/ で確認できます。

Generating realistic human motion is essential for many computer vision and graphics applications. The wide variety of human body shapes and sizes greatly impacts how people move. However, most existing motion models ignore these differences, relying on a standardized, average body. This leads to uniform motion across different body types, where movements don't match their physical characteristics, limiting diversity. To solve this, we introduce a new approach to develop a generative motion model based on body shape. We show that it's possible to train this model using unpaired data by applying cycle consistency, intuitive physics, and stability constraints, which capture the relationship between identity and movement. The resulting model generates diverse, physically plausible, and dynamically stable human motions that are both quantitatively and qualitatively more realistic than current state-of-the-art methods. More details are available on our project page https://CarstenEpic.github.io/humos/.
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# TropNNC: 熱帯幾何学を用いた構造化ニューラルネットワーク圧縮

TropNNC: Structured Neural Network Compression Using Tropical Geometry ( http://arxiv.org/abs/2409.03945v1 )

ライセンス: Link先を確認
Konstantinos Fotopoulos, Petros Maragos, Panagiotis Misiakos, (参考訳) ニューラルネットワークを線形および畳み込み層で圧縮し、ReLUを活性化するための構造化プルーニングフレームワークであるTropNNCを提案する。 我々の近似は、熱帯の幾何学を使い、Misiakos et al (2022)の著作を拡張し、機械/深層学習への幾何学的アプローチに基づいている。 我々は、ゾノトペのハウスドルフ距離を標準連続形式で使用し、Misiakos et al (2022) と比較して熱帯多項式に対してより厳密な近似を達成する。 この拡張により、ニューラルネットワークの優れた機能近似が可能となり、より効率的な圧縮アルゴリズムが実現される。 提案手法は,他のフレームワークと比較して実装が極めて容易であり,トレーニングデータサンプルの利用可能性に依存しない。 我々は、MNIST、CIFAR、ImageNetデータセットに対する広範な実験的な評価を通じて、我々のフレームワークを検証する。 以上の結果から,TropNNCは最先端手法であるThiNetに匹敵する性能を達成し,線形層を圧縮することさえ可能であった。

We present TropNNC, a structured pruning framework for compressing neural networks with linear and convolutional layers and ReLU activations. Our approximation is based on a geometrical approach to machine/deep learning, using tropical geometry and extending the work of Misiakos et al. (2022). We use the Hausdorff distance of zonotopes in its standard continuous form to achieve a tighter approximation bound for tropical polynomials compared to Misiakos et al. (2022). This enhancement allows for superior functional approximations of neural networks, leading to a more effective compression algorithm. Our method is significantly easier to implement compared to other frameworks, and does not depend on the availability of training data samples. We validate our framework through extensive empirical evaluations on the MNIST, CIFAR, and ImageNet datasets. Our results demonstrate that TropNNC achieves performance on par with the state-of-the-art method ThiNet, even surpassing it in compressing linear layers, and to the best of our knowledge, it is the first method that achieves this using tropical geometry.
翻訳日:2024-09-09 17:10:40 公開日:2024-09-05
# OpenVLA: オープンソースのビジョンランゲージ・アクションモデル

OpenVLA: An Open-Source Vision-Language-Action Model ( http://arxiv.org/abs/2406.09246v3 )

ライセンス: Link先を確認
Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn, (参考訳) インターネット規模の視覚言語データと多様なロボットデモの組み合わせで事前訓練された大規模なポリシーは、ロボットに新しいスキルを教える方法を変える可能性がある。 しかし、ロボット工学にVLAを広く採用することは困難である。 1)既存のVLAは、ほとんど閉鎖されており、一般にはアクセスできない。 2) 以前の作業では、新しいタスクのVLAを効率的に微調整する方法を探索することができない。 これらの課題に対処するため、我々はOpenVLAを紹介した。OpenVLAは7BパラメータのオープンソースVLAで、現実世界の970kのロボットデモの多様なコレクションをトレーニングしている。 OpenVLAは、DINOv2とSigLIPの事前学習機能を融合したビジュアルエンコーダを備えたLlama 2言語モデルの上に構築されている。 追加のデータ多様性と新しいモデルコンポーネントの産物として、OpenVLAは一般的な操作の強力な結果を示し、RT-2-X(55B)のようなクローズドモデルよりも16.5%向上し、29のタスクで絶対的なタスク成功率と複数のロボットの実施率、パラメータが7倍少ない。 さらに、複数のオブジェクトと強力な言語接地能力を含むマルチタスク環境において、特に強力な一般化結果が得られ、拡散政策のような非スクラッチな模倣学習方法よりも20.4%向上することを示す。 また、計算効率についても検討し、別のコントリビューションとして、OpenVLAは最新の低ランク適応手法により、コンシューマGPU上で微調整が可能であり、ダウンストリームの成功率を損なうことなく、量子化によって効率的に機能することを示す。 最後に、モデルチェックポイント、微調整ノートブック、およびOpen X-Embodimentデータセットで大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchコードベースをリリースします。

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.
翻訳日:2024-09-09 11:10:06 公開日:2024-09-05
# 実世界の画像超解像のためのカーネル逆学習

Kernel Adversarial Learning for Real-world Image Super-resolution ( http://arxiv.org/abs/2104.09008v3 )

ライセンス: Link先を確認
Hu Wang, Congbo Ma, Jianpeng Zhang, Wei Emma Zhang, Gustavo Carneiro, (参考訳) 現在のディープ・イメージ・スーパーレゾリューション(SR)アプローチは、ダウンサンプル画像から高解像度イメージを復元することや、単純なガウス核からの劣化と付加雑音を仮定することを目的としている。 しかし、これらの手法は、単純な仮定でモデル化が難しい複雑なカーネルやノイズパターンを含む実世界の画像劣化過程の粗い近似のみを仮定する。 本稿では,Kernel Adversarial Learning Super- resolution (KASR) フレームワークを導入することで,現実のイメージSRのための低解像度画像をよりリアルに合成するプロセスを提案する。 提案フレームワークでは、劣化カーネルとノイズを明示的に指定するのではなく適応的にモデル化する。 また、モデルSR再構成精度をさらに高めるために、高周波選択的目的と反復的監視プロセスを提案する。 大規模な実験により、提案したフレームワークが実世界のデータセットに与える影響が検証された。

Current deep image super-resolution (SR) approaches aim to restore high-resolution images from down-sampled images or by assuming degradation from simple Gaussian kernels and additive noises. However, these techniques only assume crude approximations of the real-world image degradation process, which should involve complex kernels and noise patterns that are difficult to model using simple assumptions. In this paper, we propose a more realistic process to synthesise low-resolution images for real-world image SR by introducing a new Kernel Adversarial Learning Super-resolution (KASR) framework. In the proposed framework, degradation kernels and noises are adaptively modelled rather than explicitly specified. Moreover, we also propose a high-frequency selective objective and an iterative supervision process to further boost the model SR reconstruction accuracy. Extensive experiments validate the effectiveness of the proposed framework on real-world datasets.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-05
# 測定フリップと反射操作に基づく多人数半量子秘密共有プロトコル

Multi-party Semi-quantum Secret Sharing Protocol based on Measure-flip and Reflect Operations ( http://arxiv.org/abs/2109.01380v4 )

ライセンス: Link先を確認
Li Jian, Chong-Qiang Ye, (参考訳) 半量子秘密共有(SQSS)プロトコルは、量子セキュアなマルチパーティ計算の基本的なフレームワークとして機能し、すべてのユーザが複雑な量子デバイスを所有する必要はないという利点を提供する。 しかし、SQSSプロトコルの現在の状況は、主にシナリオを二分し、事実上の複数パーティの秘密共有要件には不十分である。 本稿では,多粒子GHZ状態に基づく新しいSQSSプロトコルを提案する。 このプロトコルでは、量子ユーザは、所定の秘密情報を制限された量子能力を持つ複数の古典的ユーザへ配布し、正しい秘密情報を再構築するために、すべての古典的ユーザ間の協調作業を必要とする。 測定フリップと反射操作を利用することで、送信された多粒子GHZ状態はすべてキーに寄与し、送信された粒子の利用を改善することができる。 セキュリティ分析は、プロトコルが一般的な外部および内部の脅威に対するレジリエンスを示していることを示している。 さらに、IBM Qiskitを用いて、プロトコルの精度と実現可能性を検証するために量子回路シミュレーションを行う。 同様の研究と比較すると、提案プロトコルはプロトコルのスケーラビリティ、量子ビット効率、共有メッセージタイプにおいて利点がある。

Semi-quantum secret sharing (SQSS) protocols serve as fundamental frameworks in quantum secure multi-party computations, offering the advantage of not requiring all users to possess intricate quantum devices. However, the current landscape of SQSS protocols predominantly caters to bipartite scenarios, rendering them inadequate for practical multi-party secret sharing requirements. Addressing this gap, this paper proposes a novel SQSS protocol based on multi-particle GHZ states. In this protocol, the quantum user distributes predetermined secret information to multiple classical users with limited quantum capabilities, necessitating collaborative efforts among all classical users to reconstruct the correct secret information. By utilizing measure-flip and reflect operations, the transmitted multi-particle GHZ states can all contribute keys, thereby improving the utilization of transmitted particles. Security analysis shows that the protocol's resilience against prevalent external and internal threats. Additionally, employing IBM Qiskit, we conduct quantum circuit simulations to validate the protocol's accuracy and feasibility. Compared with similar studies, the proposed protocol has advantages in terms of protocol scalability, qubit efficiency, and shared message types.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-05
# TransKD: 効率的なセマンティックセグメンテーションのためのトランスフォーマー知識蒸留

TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation ( http://arxiv.org/abs/2202.13393v4 )

ライセンス: Link先を確認
Ruiping Liu, Kailun Yang, Alina Roitberg, Jiaming Zhang, Kunyu Peng, Huayao Liu, Yaonan Wang, Rainer Stiefelhagen, (参考訳) 自律運転の領域におけるセマンティックセグメンテーションのベンチマークは、大きな事前訓練されたトランスフォーマーによって支配されているが、その普及は、かなりの計算コストと長い訓練期間によって妨げられている。 この制約を緩和するために、包括的知識蒸留の観点から効率的なセマンティックセグメンテーションを検討し、マルチソース知識抽出とトランスフォーマー固有のパッチ埋め込みのギャップを埋めることを目的としている。 そこで我々は,Transformer-based Knowledge Distillation (TransKD) フレームワークを提案する。このフレームワークは,大規模教師トランスフォーマーの特徴マップとパッチ埋め込みを蒸留し,長期間の事前学習プロセスを回避し,FLOPを85.0%削減することで,コンパクトな学生トランスフォーマーを学習する。 具体的には,(1)CSF(Cross Selective Fusion)は,チャネルアテンションと階層トランスフォーマー内の特徴マップ蒸留によるクロスステージ特徴間の知識伝達を可能にし,(2)Patch Embedding Alignment(PEA)はパッチ埋め込み蒸留を容易にするために,パッチ分割プロセス内で次元変換を行う。 さらに,(1)グローバルローカルコンテキストミキサー(GL-Mixer)は,代表埋め込みのグローバル情報とローカル情報の両方を抽出し,(2)埋め込みアシスタント(EA)は,教師のチャネル数で教師と生徒のモデルをシームレスにブリッジする埋め込み方法として機能する。 Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。 ソースコードはhttps://github.com/RuipingL/TransKDで公開されている。

Semantic segmentation benchmarks in the realm of autonomous driving are dominated by large pre-trained transformers, yet their widespread adoption is impeded by substantial computational costs and prolonged training durations. To lift this constraint, we look at efficient semantic segmentation from a perspective of comprehensive knowledge distillation and aim to bridge the gap between multi-source knowledge extractions and transformer-specific patch embeddings. We put forward the Transformer-based Knowledge Distillation (TransKD) framework which learns compact student transformers by distilling both feature maps and patch embeddings of large teacher transformers, bypassing the long pre-training process and reducing the FLOPs by >85.0%. Specifically, we propose two fundamental modules to realize feature map distillation and patch embedding distillation, respectively: (1) Cross Selective Fusion (CSF) enables knowledge transfer between cross-stage features via channel attention and feature map distillation within hierarchical transformers; (2) Patch Embedding Alignment (PEA) performs dimensional transformation within the patchifying process to facilitate the patch embedding distillation. Furthermore, we introduce two optimization modules to enhance the patch embedding distillation from different perspectives: (1) Global-Local Context Mixer (GL-Mixer) extracts both global and local information of a representative embedding; (2) Embedding Assistant (EA) acts as an embedding method to seamlessly bridge teacher and student models with the teacher's number of channels. Experiments on Cityscapes, ACDC, NYUv2, and Pascal VOC2012 datasets show that TransKD outperforms state-of-the-art distillation frameworks and rivals the time-consuming pre-training method. The source code is publicly available at https://github.com/RuipingL/TransKD.
翻訳日:2024-09-07 07:30:16 公開日:2024-09-05
# ペインフルインテリジェンス:AIが人間の苦しみについて教えてくれるもの

Painful intelligence: What AI can tell us about human suffering ( http://arxiv.org/abs/2205.15409v2 )

ライセンス: Link先を確認
Aapo Hyvärinen, (参考訳) この本は、人間の苦しみや精神的苦痛を理解するために、現代の人工知能理論(AI)を使用している。 人間と高度なAIエージェントは、目標を達成するために世界に関する情報を処理し、報酬を得る。 この本は、この理論を比較的一般の読者に利用できるようにすることを目的としており、関連する科学的背景だけを必要とする。 この本は、苦痛は主にフラストレーションによって引き起こされるという仮定から始まる。 フラストレーション(フラストレーション)とは、エージェント(AIであれ人間であれ)が目標や期待した報酬を達成するのに失敗したことを指す。 世界の圧倒的な複雑さ、限られた計算資源、良いデータの不足のためにフラストレーションは避けられない。 特に、そのような制限は、現実世界で行動するエージェントが制御不能、予測不能、不確実性に対処しなければならないことを意味する。 このようなモデリングの基本は、学習や環境への適応という考え方である。 AIは機械学習を使用しているが、人間と動物は進化のメカニズムと通常の学習の組み合わせで適応する。 フラストレーションさえも、システムが学習に使用するエラー信号である。 本書は,学習アルゴリズムの様々な側面と限界と,その苦しみに関する意味について考察する。 本書の最後には、計算理論は、人間の苦痛を軽減する様々な介入や訓練方法の導出に使われる。 フラストレーションの量は、どのように減らすことができるかを示す単純な方程式で表される。 その後の介入は、仏教やストア哲学によって提案されたものと非常に似ており、マインドフルネスの想起を含んでいる。 したがって、この本は、なぜそのような哲学や想いが人間の苦しみを和らげるのかを正当化する計算理論の解説と解釈できる。

This book uses the modern theory of artificial intelligence (AI) to understand human suffering or mental pain. Both humans and sophisticated AI agents process information about the world in order to achieve goals and obtain rewards, which is why AI can be used as a model of the human brain and mind. This book intends to make the theory accessible to a relatively general audience, requiring only some relevant scientific background. The book starts with the assumption that suffering is mainly caused by frustration. Frustration means the failure of an agent (whether AI or human) to achieve a goal or a reward it wanted or expected. Frustration is inevitable because of the overwhelming complexity of the world, limited computational resources, and scarcity of good data. In particular, such limitations imply that an agent acting in the real world must cope with uncontrollability, unpredictability, and uncertainty, which all lead to frustration. Fundamental in such modelling is the idea of learning, or adaptation to the environment. While AI uses machine learning, humans and animals adapt by a combination of evolutionary mechanisms and ordinary learning. Even frustration is fundamentally an error signal that the system uses for learning. This book explores various aspects and limitations of learning algorithms and their implications regarding suffering. At the end of the book, the computational theory is used to derive various interventions or training methods that will reduce suffering in humans. The amount of frustration is expressed by a simple equation which indicates how it can be reduced. The ensuing interventions are very similar to those proposed by Buddhist and Stoic philosophy, and include mindfulness meditation. Therefore, this book can be interpreted as an exposition of a computational theory justifying why such philosophies and meditation reduce human suffering.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# 何も知らないことの必然性

Inevitability of knowing less than nothing ( http://arxiv.org/abs/2208.14424v2 )

ライセンス: Link先を確認
Gilad Gour, Mark M. Wilde, Sarah Brandsen, Isabelle Jianing Geng, (参考訳) エントロピーの口語的解釈は、ランダムな実験の結果を学ぶ際に得られる知識である。 条件付きエントロピーは、あるランダム実験の結果を学習した後に得られる知識として解釈される。 古典の世界では、エントロピーと条件付きエントロピーは、上記の解釈に関する直観と一致する非負の値のみを取る。 しかし、ある絡み合った状態に対して、量子条件エントロピーの一般に受け入れられ、情報理論的に正当化された公式を評価する際に負の値を得るため、量子世界において何の知識も得られないという確固たる結論が導かれる。 ここでは、熱力学の第2法則(エントロピーの非減少)とエントロピーの拡張性から着想を得た2つの単純な仮定に基づいて、量子条件エントロピーを定義するための物理的動機付けの枠組みを導入する。 そして、すべての可算量子条件エントロピーが特定の絡み合った状態に対して負の値を取ることを証明する。 我々の議論はすべて、第1の仮定を尊重する物理過程の構築に基づいている。

A colloquial interpretation of entropy is that it is the knowledge gained upon learning the outcome of a random experiment. Conditional entropy is then interpreted as the knowledge gained upon learning the outcome of one random experiment after learning the outcome of another, possibly statistically dependent, random experiment. In the classical world, entropy and conditional entropy take only non-negative values, consistent with the intuition that one has regarding the aforementioned interpretations. However, for certain entangled states, one obtains negative values when evaluating commonly accepted and information-theoretically justified formulas for the quantum conditional entropy, leading to the confounding conclusion that one can know less than nothing in the quantum world. Here, we introduce a physically motivated framework for defining quantum conditional entropy, based on two simple postulates inspired by the second law of thermodynamics (non-decrease of entropy) and extensivity of entropy, and we argue that all plausible definitions of quantum conditional entropy should respect these two postulates. We then prove that all plausible quantum conditional entropies take on negative values for certain entangled states, so that it is inevitable that one can know less than nothing in the quantum world. All of our arguments are based on constructions of physical processes that respect the first postulate, the one inspired by the second law of thermodynamics.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# TSFool:多目的アタックによる非知覚の逆数時系列作成

TSFool: Crafting Highly-Imperceptible Adversarial Time Series through Multi-Objective Attack ( http://arxiv.org/abs/2209.06388v4 )

ライセンス: Link先を確認
Yanyun Wang, Dehui Du, Haibo Hu, Zi Liang, Yuanhao Liu, (参考訳) 近年、時系列分類(TSC)におけるリカレントニューラルネットワーク(RNN)モデルの成功を目撃している。 しかし、ニューラルネットワーク(NN)は敵のサンプルに弱いため、現実の敵攻撃を引き起こし、AIモデルの堅牢性を損なう。 現在までに、ほとんどの攻撃はフィードフォワードNNや画像認識タスクをターゲットとしているが、RNNベースのTSCではうまく機能しない。 これはRNNのサイクル計算によるものであり、直接モデルの微分を妨げている。 さらに、摂動に対する時系列の高視覚感度は、対向サンプルの局所的な客観的最適化にも課題をもたらす。 本稿では,TSFool と呼ばれる効率的な手法を提案する。 中心となる考え方は、「カモフラージュ係数」(Camouflage Coefficient)と呼ばれる新しい大域的な最適化目標であり、クラス分布から反対サンプルの非受容性を捉えるものである。 そこで本研究では, 対向攻撃問題を多目的最適化問題に還元し, 摂動品質を向上する。 さらに, 最適化過程を高速化するために, RNNの表現モデルを用いて, 潜在多様体から特徴が逸脱した, 深く埋め込まれた脆弱なサンプルを捕捉する。 11のUCRデータセットとUEAデータセットの実験では、TSFoolは6つのホワイトボックスと3つのブラックボックスベンチマークを、標準測度、人間の研究、現実世界の防衛など、さまざまな観点から、有効性、効率、認識不能性の観点から大きく上回っている。

Recent years have witnessed the success of recurrent neural network (RNN) models in time series classification (TSC). However, neural networks (NNs) are vulnerable to adversarial samples, which cause real-life adversarial attacks that undermine the robustness of AI models. To date, most existing attacks target at feed-forward NNs and image recognition tasks, but they cannot perform well on RNN-based TSC. This is due to the cyclical computation of RNN, which prevents direct model differentiation. In addition, the high visual sensitivity of time series to perturbations also poses challenges to local objective optimization of adversarial samples. In this paper, we propose an efficient method called TSFool to craft highly-imperceptible adversarial time series for RNN-based TSC. The core idea is a new global optimization objective known as "Camouflage Coefficient" that captures the imperceptibility of adversarial samples from the class distribution. Based on this, we reduce the adversarial attack problem to a multi-objective optimization problem that enhances the perturbation quality. Furthermore, to speed up the optimization process, we propose to use a representation model for RNN to capture deeply embedded vulnerable samples whose features deviate from the latent manifold. Experiments on 11 UCR and UEA datasets showcase that TSFool significantly outperforms six white-box and three black-box benchmark attacks in terms of effectiveness, efficiency and imperceptibility from various perspectives including standard measure, human study and real-world defense.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# 非複製性系の繰り返し測定とそのUnruh-DeWitt検出器への応用

Repeated measurements on non-replicable systems and their consequences for Unruh-DeWitt detectors ( http://arxiv.org/abs/2210.13347v3 )

ライセンス: Link先を確認
Nicola Pranzini, Guillermo García-Pérez, Esko Keski-Vakkuri, Sabrina Maniscalco, (参考訳) ボルン規則は、量子系の観測可能量を測定する際に結果を得る確率を記述している。 検討中のシステムの多くのコピーを計測することでのみテストできるため、複製不能なシステムには当てはまらない。 これらのシステムに対して、繰り返し測定(RM)による測定結果の今後の統計を予測するための手順を提案する。 これは、レプリカを含まないシステムに量子力学の妥当性を拡張することで実現し、そのようなシステム上でRMを実行することによって得られる結果の統計値が、ボルン則によって得られた結果と十分に類似しているなら、後者を効果的に利用することができることを証明した。 本研究では,RM が必要とされる制御不能な環境 (フィールド) と相互作用するシステム (検出器) の例として,無質量スカラー量子場と相互作用するUnruh-DeWitt 検出器の繰り返し測定に適用する。 観察者がRMの結果から何を学ぶかを分析すると、歴史に依存したRM確率がボルンの確率に近い状態が見つかる。 したがって、後者はすべての実用目的に使用できる。 最後に、慣性検出器と加速検出器を数値的に研究し、観測者がRMを介してウンルー効果を見ることができることを示した。

The Born rule describes the probability of obtaining an outcome when measuring an observable of a quantum system. As it can only be tested by measuring many copies of the system under consideration, it does not hold for non-replicable systems. For these systems, we give a procedure to predict the future statistics of measurement outcomes through Repeated Measurements (RM). This is done by extending the validity of quantum mechanics to those systems admitting no replicas; we prove that if the statistics of the results acquired by performing RM on such systems is sufficiently similar to that obtained by the Born rule, the latter can be used effectively. We apply our framework to a repeatedly measured Unruh-DeWitt detector interacting with a massless scalar quantum field, which is an example of a system (detector) interacting with an uncontrollable environment (field) for which using RM is necessary. Analysing what an observer learns from the RM outcomes, we find a regime where history-dependent RM probabilities are close to the Born ones. Consequently, the latter can be used for all practical purposes. Finally, we numerically study inertial and accelerated detectors, showing that an observer can see the Unruh effect via RM.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# SmartIntentNN: スマートコントラクトインテント検出を目指す

SmartIntentNN: Towards Smart Contract Intent Detection ( http://arxiv.org/abs/2211.13670v3 )

ライセンス: Link先を確認
Youwei Huang, Sen Fang, Jianwen Li, Bin Hu, Tao Zhang, (参考訳) ブロックチェーン上のスマートコントラクトは、分散金融サービスを提供するが、堅牢なセキュリティ対策を欠いていることが多いため、大きな経済的損失をもたらす。 重大な研究は脆弱性の特定に重点を置いているが、その開発の背後にある悪意のある意図を評価する上で、注目すべきギャップが残っている。 これを解決するために,スマートコントラクトにおける開発者の意図の検出を自動化するために設計されたディープラーニングベースのツールである‘textsc{SmartIntentNN}(Smart Contract Intent Neural Network)を紹介した。 提案手法は,スマートコントラクトコードのコンテキスト表現のためのユニバーサル文エンコーダを統合し,K平均クラスタリングアルゴリズムを用いてインテント関連コードの特徴を強調し,双方向LSTMに基づく多ラベル分類ネットワークを用いて10種類のハイリスクインテントを推定する。 1万のスマートコントラクトのデータセットに対する評価は、 \textsc{SmartIntentNN}がすべてのベースラインを超え、最大0.8633のF1スコアを達成することを示している。 デモビデオは \url{https://youtu.be/otT0fDYjwK8} で公開されている。

Smart contracts on the blockchain offer decentralized financial services but often lack robust security measures, resulting in significant economic losses. Although substantial research has focused on identifying vulnerabilities, a notable gap remains in evaluating the malicious intent behind their development. To address this, we introduce \textsc{SmartIntentNN} (Smart Contract Intent Neural Network), a deep learning-based tool designed to automate the detection of developers' intent in smart contracts. Our approach integrates a Universal Sentence Encoder for contextual representation of smart contract code, employs a K-means clustering algorithm to highlight intent-related code features, and utilizes a bidirectional LSTM-based multi-label classification network to predict ten distinct types of high-risk intent. Evaluations on a dataset of 10,000 smart contracts demonstrate that \textsc{SmartIntentNN} surpasses all baselines, achieving an F1-score of up to 0.8633. A demo video is available at \url{https://youtu.be/otT0fDYjwK8}.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# CodeScore: コード実行の学習によるコード生成の評価

CodeScore: Evaluating Code Generation by Learning Code Execution ( http://arxiv.org/abs/2301.09043v4 )

ライセンス: Link先を確認
Yihong Dong, Jiazheng Ding, Xue Jiang, Ge Li, Zhuo Li, Zhi Jin, (参考訳) 適切なコード評価基準(CEM)は、NLPとソフトウェア工学において重要な研究分野であるコード生成の進化に大きな影響を与えます。 マッチベースのCEM(例えば、BLEU、精度、コードBLEU)は、2つの重大な欠点を負う。 1. 機能的等価性を考慮せずに、コード間の表面的差異を主に測定する。 しかし、異なる符号が同一の操作を行うことができるため、関数同値性はコード生成の有効性を評価する上で重要である。 2. 主にRefのみの入力フォーマット用に設計されている。 しかし、コード評価は入力形式における汎用性を必要とする。 Ref-only以外にも、既存のマッチベースのCEMが効果的に対応できないNL-onlyとRef\&NLフォーマットがある。 本稿では,大規模言語モデル(LLM)に基づくCEMであるCodeScoreを提案する。 CodeScoreを取得するために,LLMがコード実行(PassRatioとExecutability of generated code)を統一的な入力で学習するための統一コード生成学習フレームワークUniCEを提案する。 複数のコード評価データセットの大規模な実験結果は、CodeScoreが他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱うことを示した。

A proper code evaluation metric (CEM) profoundly impacts the evolution of code generation, which is an important research field in NLP and software engineering. Prevailing match-based CEMs (e.g., BLEU, Accuracy, and CodeBLEU) suffer from two significant drawbacks. 1. They primarily measure the surface differences between codes without considering their functional equivalence. However, functional equivalence is pivotal in evaluating the effectiveness of code generation, as different codes can perform identical operations. 2. They are predominantly designed for the Ref-only input format. However, code evaluation necessitates versatility in input formats. Aside from Ref-only, there are NL-only and Ref\&NL formats, which existing match-based CEMs cannot effectively accommodate. In this paper, we propose CodeScore, a large language model (LLM)-based CEM, which estimates the functional correctness of generated code on three input types. To acquire CodeScore, we present UniCE, a unified code generation learning framework, for LLMs to learn code execution (i.e., learning PassRatio and Executability of generated code) with unified input. Extensive experimental results on multiple code evaluation datasets demonstrate that CodeScore absolutely improves up to 58.87% correlation with functional correctness compared to other CEMs, achieves state-of-the-art performance, and effectively handles three input formats.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# CyclicFL: 効果的なフェデレーション学習のためのサイクルモデル事前学習アプローチ

CyclicFL: A Cyclic Model Pre-Training Approach to Efficient Federated Learning ( http://arxiv.org/abs/2301.12193v2 )

ライセンス: Link先を確認
Pengyu Zhang, Yingbo Zhou, Ming Hu, Xian Wei, Mingsong Chen, (参考訳) フェデレートラーニング(FL)は、高レベルのデータプライバシを保証するために、AI Internet of Things(AIoT)デバイス上で分散学習を可能にするために提案されている。 FLにおけるランダム初期モデルは、不規則な確率勾配 Descent (SGD) プロセスに容易に生じるので、既存のFL法は、特に非IIDシナリオにおいて、収束が遅く、精度が悪くなる。 そこで本研究では,SGDプロセスの導出に有効な初期モデルを高速に導出し,FLトレーニング性能を向上するCyclicFLという手法を提案する。 我々は,CyclicFLの事前学習と訓練段階間のデータ一貫性の重要性を正式に分析し,事前学習モデルの損失のリプシッツ性に制限があることを示した。 さらに,この手法が様々な凸性仮定の下でより高速な収束速度を達成できることを系統的に証明する。 パブリックプロキシデータを必要とする従来の集中型事前トレーニング方法とは異なり、CyclicFLは、ローカルデータを公開せずに、選択されたAIoTデバイス上で初期モデルを循環的にトレーニングする。 したがって、セキュリティクリティカルなFLメソッドに簡単に統合できる。 総合的な実験結果から、CyclicFLは最大分類精度を最大14.11 %$まで向上できるだけでなく、全体のFLトレーニングプロセスを著しく加速できることが示された。

Federated learning (FL) has been proposed to enable distributed learning on Artificial Intelligence Internet of Things (AIoT) devices with guarantees of high-level data privacy. Since random initial models in FL can easily result in unregulated Stochastic Gradient Descent (SGD) processes, existing FL methods greatly suffer from both slow convergence and poor accuracy, especially in non-IID scenarios. To address this problem, we propose a novel method named CyclicFL, which can quickly derive effective initial models to guide the SGD processes, thus improving the overall FL training performance. We formally analyze the significance of data consistency between the pre-training and training stages of CyclicFL, showing the limited Lipschitzness of loss for the pre-trained models by CyclicFL. Moreover, we systematically prove that our method can achieve faster convergence speed under various convexity assumptions. Unlike traditional centralized pre-training methods that require public proxy data, CyclicFL pre-trains initial models on selected AIoT devices cyclically without exposing their local data. Therefore, they can be easily integrated into any security-critical FL methods. Comprehensive experimental results show that CyclicFL can not only improve the maximum classification accuracy by up to $14.11\%$ but also significantly accelerate the overall FL training process.
翻訳日:2024-09-07 07:20:22 公開日:2024-09-05
# 都市環境における自律運転のための中レベル入力生成による階層型逆数模倣学習

Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2302.04823v5 )

ライセンス: Link先を確認
Gustavo Claudio Karl Couto, Eric Aislan Antonelo, (参考訳) 現実的な都市ナビゲーションシナリオに対する堅牢な制御ポリシの導出は、簡単な作業ではない。 エンドツーエンドのアプローチでは、これらのポリシーは車両のカメラからの高次元画像をステアリングやスロットルのような低レベルのアクションにマッピングする必要がある。 純粋な強化学習(RL)アプローチはエンジニアリングされた報酬のみに基づいているが、GAILエージェントは、自律運転のような報酬信号の導出が困難なタスクにおいて、環境と対話しながら専門家のデモンストレーションから学ぶ。 しかし、RLタスク上の生画像から直接ディープ・ネットワークをトレーニングすることは不安定であり、厄介であることが知られている。 そこで本研究では,車両の自律走行問題を解決するために,運転タスクから表現学習を分離する階層型GAILアーキテクチャ(hGAIL)を提案する。 提案アーキテクチャは2つのモジュールから構成される。GAN(Generative Adversarial Net)は、車両の周囲からバードアイビュー(Bird's-Eye View, BEV)と呼ばれる抽象的な中間レベル入力表現を生成する。 hGAILは、エージェントが環境と対話するときに、ポリシーと中間レベルの表現の両方を同時に学習することができる。 CARLAシミュレーション環境で行った実験によると、GAILはカメラのみでは(BEVなしで)タスクを学べず、hGAILは1つの都市でのみ訓練した後、新しい都市の交差点の98%で自律走行に成功した。 https://sites.google.com/view/hgail

Deriving robust control policies for realistic urban navigation scenarios is not a trivial task. In an end-to-end approach, these policies must map high-dimensional images from the vehicle's cameras to low-level actions such as steering and throttle. While pure Reinforcement Learning (RL) approaches are based exclusively on engineered rewards, Generative Adversarial Imitation Learning (GAIL) agents learn from expert demonstrations while interacting with the environment, which favors GAIL on tasks for which a reward signal is difficult to derive, such as autonomous driving. However, training deep networks directly from raw images on RL tasks is known to be unstable and troublesome. To deal with that, this work proposes a hierarchical GAIL-based architecture (hGAIL) which decouples representation learning from the driving task to solve the autonomous navigation of a vehicle. The proposed architecture consists of two modules: a GAN (Generative Adversarial Net) which generates an abstract mid-level input representation, which is the Bird's-Eye View (BEV) from the surroundings of the vehicle; and the GAIL which learns to control the vehicle based on the BEV predictions from the GAN as input. hGAIL is able to learn both the policy and the mid-level representation simultaneously as the agent interacts with the environment. Our experiments made in the CARLA simulation environment have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training exclusively on one city, was able to autonomously navigate successfully in 98% of the intersections of a new city not used in training phase. Videos and code available at: https://sites.google.com/view/hgail
翻訳日:2024-09-07 07:10:38 公開日:2024-09-05
# カーネル2サンプルテストのパワーアップ

Boosting the Power of Kernel Two-Sample Tests ( http://arxiv.org/abs/2302.10687v2 )

ライセンス: Link先を確認
Anirban Chatterjee, Bhaswar B. Bhattacharya, (参考訳) 最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。 本稿では,マルチカーネル上でのMDD推定をマハラノビス距離を用いて組み合わせ,カーネルテストのパワー向上手法を提案する。 提案した試験統計量の漸近零分布を導出し, 乗算器ブートストラップ法を用いて拒絶領域を効率的に計算する。 結果として得られるテストは普遍的に一貫したものであり、カーネル/バンド幅の集まりに集約することで得られるので、有限サンプルにおいて幅広い代替品を検出するのにより強力である。 また, 定型および局所的連続した代替品の試験統計量の分布も導出する。 特に後者は、提案された試験が統計的に効率的であり、非自明な漸近性(ピットマン)効率を持つことを意味する。 マハラノビスや他の自然凝集法の整合性も、サンプルサイズで核の数が増加することを許すときにも検討される。 提案手法の有効性を示すために, 合成および実世界の両方のデータセットに対して, 大規模な数値実験を行った。 提案手法の計算複雑性も理論的にもシミュレーションにおいても研究されている。 我々の漸近的結果は、複数の確率積分の枠組みを用いてMDD推定の合同分布を導出することに依存しており、これはより広範に有用であり、特に、最近提案されたカーネル集約に基づく適応MDDテストの効率特性の理解や、複数のカーネルを組み合わせたより計算効率の良い(線形時間)テストの開発にも有効である。 本稿では,スケーリングパラメータのばらつきを考慮したカーネルに対するMahalanobisアグリゲーション手法の適用を結論とする。

The kernel two-sample test based on the maximum mean discrepancy (MMD) is one of the most popular methods for detecting differences between two distributions over general metric spaces. In this paper we propose a method to boost the power of the kernel test by combining MMD estimates over multiple kernels using their Mahalanobis distance. We derive the asymptotic null distribution of the proposed test statistic and use a multiplier bootstrap approach to efficiently compute the rejection region. The resulting test is universally consistent and, since it is obtained by aggregating over a collection of kernels/bandwidths, is more powerful in detecting a wide range of alternatives in finite samples. We also derive the distribution of the test statistic for both fixed and local contiguous alternatives. The latter, in particular, implies that the proposed test is statistically efficient, that is, it has non-trivial asymptotic (Pitman) efficiency. The consistency properties of the Mahalanobis and other natural aggregation methods are also explored when the number of kernels is allowed to grow with the sample size. Extensive numerical experiments are performed on both synthetic and real-world datasets to illustrate the efficacy of the proposed method over single kernel tests. The computational complexity of the proposed method is also studied, both theoretically and in simulations. Our asymptotic results rely on deriving the joint distribution of MMD estimates using the framework of multiple stochastic integrals, which is more broadly useful, specifically, in understanding the efficiency properties of recently proposed adaptive MMD tests based on kernel aggregation and also in developing more computationally efficient (linear time) tests that combine multiple kernels. We conclude with an application of the Mahalanobis aggregation method for kernels with diverging scaling parameters.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-05
# 確率および分散誘導立方体ニュートン法の統一収束理論

Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods ( http://arxiv.org/abs/2302.11962v4 )

ライセンス: Link先を確認
El Mahdi Chayti, Nikita Doikov, Martin Jaggi, (参考訳) 一般の非凸最小化問題を解くための確率的立方ニュートン法について検討する。 我々は,大域的な複雑性保証を備えた確率的・分散還元2次アルゴリズムの統一的なビューを提供するヘルパフレームワークを,ヘルパフレームワークと呼ぶ新しいフレームワークを提案する。 補助情報による学習にも応用できる。 我々のヘルパーフレームワークは、確率的キュービックニュートン法の構築と解析に高い柔軟性を提供し、任意の大きさのバッチを可能にし、勾配とヘッセンの雑音や偏りのある推定値を使用することで、分散の低減と遅延ヘッセンの更新の両方を取り入れている。 我々は雑音の弱い仮定の下で確率的および分散還元されたキュービックニュートンの最もよく知られた複雑さを回復する。 我々の理論の直接の結果は、大きな次元問題に対する算術的複雑性を大幅に改善する新しい遅延確率的二階法である。 また、凸問題や強凸問題を含む勾配支配対象のクラスに対する複雑性境界も確立する。 Auxiliary Learningでは、与えられた類似度が小さい場合、ヘルパー(補助関数)を使用することで、単独でのトレーニングより優れることを示す。

We study stochastic Cubic Newton methods for solving general possibly non-convex minimization problems. We propose a new framework, which we call the helper framework, that provides a unified view of the stochastic and variance-reduced second-order algorithms equipped with global complexity guarantees. It can also be applied to learning with auxiliary information. Our helper framework offers the algorithm designer high flexibility for constructing and analyzing the stochastic Cubic Newton methods, allowing arbitrary size batches, and the use of noisy and possibly biased estimates of the gradients and Hessians, incorporating both the variance reduction and the lazy Hessian updates. We recover the best-known complexities for the stochastic and variance-reduced Cubic Newton, under weak assumptions on the noise. A direct consequence of our theory is the new lazy stochastic second-order method, which significantly improves the arithmetic complexity for large dimension problems. We also establish complexity bounds for the classes of gradient-dominated objectives, that include convex and strongly convex problems. For Auxiliary Learning, we show that using a helper (auxiliary function) can outperform training alone if a given similarity measure is small.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-05
# 電気ネットワークの幾何学的記述とFaddeev-Jackiw量子化

Geometrical description and Faddeev-Jackiw quantization of electrical networks ( http://arxiv.org/abs/2304.12252v4 )

ライセンス: Link先を確認
A. Parra-Rodriguez, I. L. Egusquiza, (参考訳) ラム要素電気回路理論では、メディアの存在下でマクスウェルの方程式を解く問題は、2つの方程式に還元される: 局所幾何学と閉じ込められたエネルギー密度の力学を包含する構成方程式と、より大きく、位相的なスケールでの電荷とエネルギーの保存を強制するキルヒホフ方程式である。 我々は、ラグランジアンおよびレイリー散逸関数から導出される1次微分方程式として、一般ランプ素子電気回路の力学の幾何学的、体系的な新しい記述を開発する。 Faddeev-Jackiw 法により、一般ネットワークのハミルトン的記述を探索する際に生じる特異点を特定し、分類する。 我々の解の核は、回路状態が表現可能である還元多様体の正しい同定、例えば、コンパクトな多様体の存在を含むフラックスと電荷の混合に依存する。 純ノード束あるいはループ電荷変数が始点構成空間として使われた場合、不規則かつ特異な非線形および非相互回路のハミルトン的記述を得るために、我々の完全プログラマブルな方法を適用する。 また、エネルギー要素の分岐変数に対するトポロジーの特定の割り当てを提案し、手順への入力として使用すると、古典的な記述やより関連する量子回路のスペクトルと一致した結果が得られる。 この研究は、電気ネットワーク理論の様々な幾何学的イメージを統一し、例えば超伝導量子チップの正確なハミルトン記述の計算を自動化するのに有用であることが証明される。

In lumped-element electrical circuit theory, the problem of solving Maxwell's equations in the presence of media is reduced to two sets of equations, the constitutive equations encapsulating local geometry and dynamics of a confined energy density, and the Kirchhoff equations enforcing conservation of charge and energy in a larger, topological, scale. We develop a new geometric and systematic description of the dynamics of general lumped-element electrical circuits as first order differential equations, derivable from a Lagrangian and a Rayleigh dissipation function. Through the Faddeev-Jackiw method we identify and classify the singularities that arise in the search for Hamiltonian descriptions of general networks. The core of our solution relies on the correct identification of the reduced manifold in which the circuit state is expressible, e.g., a mix of flux and charge degrees of freedom, including the presence of compact ones. We apply our fully programmable method to obtain (canonically quantizable) Hamiltonian descriptions of nonlinear and nonreciprocal circuits which would be cumbersome/singular if pure node-flux or loop-charge variables were used as a starting configuration space. We also propose a specific assignment of topology for the branch variables of energetic elements, that when used as input to the procedure gives results consistent with classical descriptions as well as with spectra of more involved quantum circuits. This work unifies diverse existent geometrical pictures of electrical network theory, and will prove useful, for instance, to automatize the computation of exact Hamiltonian descriptions of superconducting quantum chips.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-05
# 電気ネットワークの幾何学的記述とFaddeev-Jackiw量子化

Geometrical description and Faddeev-Jackiw quantization of electrical networks ( http://arxiv.org/abs/2304.12252v5 )

ライセンス: Link先を確認
A. Parra-Rodriguez, I. L. Egusquiza, (参考訳) ラム要素電気回路理論では、メディアの存在下でマクスウェルの方程式を解く問題は、2つの方程式に還元される: 局所幾何学と閉じ込められたエネルギー密度の力学を包含する構成方程式と、より大きく、位相的なスケールでの電荷とエネルギーの保存を強制するキルヒホフ方程式である。 我々は、ラグランジアンおよびレイリー散逸関数から導出される1次微分方程式として、一般ランプ素子電気回路の力学の幾何学的、体系的な新しい記述を開発する。 Faddeev-Jackiw 法により、一般ネットワークのハミルトン的記述を探索する際に生じる特異点を特定し、分類する。 我々の解の核は、回路状態が表現可能である還元多様体の正しい同定、例えば、コンパクトな多様体の存在を含むフラックスと電荷の混合に依存する。 純ノード束あるいはループ電荷変数が始点構成空間として使われた場合、不規則かつ特異な非線形および非相互回路のハミルトン的記述を得るために、我々の完全プログラマブルな方法を適用する。 また、エネルギー要素の分岐変数に対するトポロジーの特定の割り当てを提案し、手順への入力として使用すると、古典的な記述やより関連する量子回路のスペクトルと一致した結果が得られる。 この研究は、電気ネットワーク理論の様々な幾何学的イメージを統一し、例えば超伝導量子チップの正確なハミルトン記述の計算を自動化するのに有用であることが証明される。

In lumped-element electrical circuit theory, the problem of solving Maxwell's equations in the presence of media is reduced to two sets of equations, the constitutive equations encapsulating local geometry and dynamics of a confined energy density, and the Kirchhoff equations enforcing conservation of charge and energy in a larger, topological, scale. We develop a new geometric and systematic description of the dynamics of general lumped-element electrical circuits as first order differential equations, derivable from a Lagrangian and a Rayleigh dissipation function. Through the Faddeev-Jackiw method we identify and classify the singularities that arise in the search for Hamiltonian descriptions of general networks. The core of our solution relies on the correct identification of the reduced manifold in which the circuit state is expressible, e.g., a mix of flux and charge degrees of freedom, including the presence of compact ones. We apply our fully programmable method to obtain (canonically quantizable) Hamiltonian descriptions of nonlinear and nonreciprocal circuits which would be cumbersome/singular if pure node-flux or loop-charge variables were used as a starting configuration space. We also propose a specific assignment of topology for the branch variables of energetic elements, that when used as input to the procedure gives results consistent with classical descriptions as well as with spectra of more involved quantum circuits. This work unifies diverse existent geometrical pictures of electrical network theory, and will prove useful, for instance, to automatize the computation of exact Hamiltonian descriptions of superconducting quantum chips.
翻訳日:2024-09-07 07:10:38 公開日:2024-09-05
# PESTS: セマンティックテキスト類似性のためのペルシャ英語クロスリンガルコーパス

PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity ( http://arxiv.org/abs/2305.07893v3 )

ライセンス: Link先を確認
Mohammad Abdous, Poorya Piroozfar, Behrouz Minaei Bidgoli, (参考訳) 最近多くの調査を受けてきた自然言語処理の構成要素の1つは、意味的なテキストの類似性である。 計算言語学や自然言語処理では、単語、フレーズ、段落、テキストの意味的類似性を評価することが重要である。 単言語版と多言語版の両方で提供される2つのテキスト、段落、句間の意味的類似度を計算することは意味的類似性(semantic similarity)として知られている。 言語間のセマンティックな類似性には、ソース言語とターゲット言語の両方に文対があり、それらの間にセマンティックな類似性があるコーパスが必要である。 多くの既存の言語間セマンティック類似モデルでは、機械翻訳誤差の伝搬がモデルの精度を低下させるクロス言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。 一方、機械翻訳に意味的類似性を使いたい場合、同じ機械翻訳を意味的類似性のために使用するべきではない。 ペルシャ語は低資源言語の1つであり、この点において努力は行われておらず、2つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられてきた。 本稿では,ペルシア語と英語の文間の意味的テキスト類似性のコーパスを,言語専門家を用いて初めて作成した。 このデータセットをPESTS (Persian English Semantic Textual similarity) と名付けた。 このコーパスは5375の文対を含む。 また、このデータセットを使用して、トランスフォーマーに基づく異なるモデルが微調整されている。 その結果、PESTSデータセットを用いて、XLM ROBERTaモデルのピアソン相関は85.87%から95.62%に増加した。

One of the components of natural language processing that has received a lot of investigation recently is semantic textual similarity. In computational linguistics and natural language processing, assessing the semantic similarity of words, phrases, paragraphs, and texts is crucial. Calculating the degree of semantic resemblance between two textual pieces, paragraphs, or phrases provided in both monolingual and cross-lingual versions is known as semantic similarity. Cross lingual semantic similarity requires corpora in which there are sentence pairs in both the source and target languages with a degree of semantic similarity between them. Many existing cross lingual semantic similarity models use a machine translation due to the unavailability of cross lingual semantic similarity dataset, which the propagation of the machine translation error reduces the accuracy of the model. On the other hand, when we want to use semantic similarity features for machine translation the same machine translations should not be used for semantic similarity. For Persian, which is one of the low resource languages, no effort has been made in this regard and the need for a model that can understand the context of two languages is felt more than ever. In this article, the corpus of semantic textual similarity between sentences in Persian and English languages has been produced for the first time by using linguistic experts. We named this dataset PESTS (Persian English Semantic Textual Similarity). This corpus contains 5375 sentence pairs. Also, different models based on transformers have been fine-tuned using this dataset. The results show that using the PESTS dataset, the Pearson correlation of the XLM ROBERTa model increases from 85.87% to 95.62%.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-05
# 大バッチ反復効率ニューラルベイズ設計最適化

Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization ( http://arxiv.org/abs/2306.01095v4 )

ライセンス: Link先を確認
Navid Ansari, Alireza Javanmardi, Eyke Hüllermeier, Hans-Peter Seidel, Vahid Babaei, (参考訳) ベイズ最適化(BO)はブラックボックスと高価な評価関数を最適化するための強力なフレームワークを提供する。 したがって、これはエンジニアリング設計問題にとって魅力的なツールであり、典型的には複数の目的を含む。 製造・測定手法の急速な進歩と並列コンピューティングのインフラのおかげで、多くの設計問題への問い合わせが並列化されている。 この種の問題は、非常に大規模なバッチに対処し、サンプル効率からイテレーション効率に焦点を移すという、前例のないセットアップでBOに挑戦します。 本稿では,これらの制約に対処するための新しいベイズ最適化フレームワークを提案する。 我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、目的だけでなく、関連する不確実性についても非支配的なソートを行う。 我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。 提案手法を最先端の多目的最適化と比較することにより,提案手法の優位性を実証する。 実世界の2つの問題 - 翼設計と3Dプリンティング -- について評価を行い, アプローチの適用性と効率性を示す。 私たちのコードは、https://github.com/an-on-ym-ous/lbn_moboで利用可能です。

Bayesian optimization (BO) provides a powerful framework for optimizing black-box, expensive-to-evaluate functions. It is therefore an attractive tool for engineering design problems, typically involving multiple objectives. Thanks to the rapid advances in fabrication and measurement methods as well as parallel computing infrastructure, querying many design problems can be heavily parallelized. This class of problems challenges BO with an unprecedented setup where it has to deal with very large batches, shifting its focus from sample efficiency to iteration efficiency. We present a novel Bayesian optimization framework specifically tailored to address these limitations. Our key contribution is a highly scalable, sample-based acquisition function that performs a non-dominated sorting of not only the objectives but also their associated uncertainty. We show that our acquisition function in combination with different Bayesian neural network surrogates is effective in data-intensive environments with a minimal number of iterations. We demonstrate the superiority of our method by comparing it with state-of-the-art multi-objective optimizations. We perform our evaluation on two real-world problems -- airfoil design and 3D printing -- showcasing the applicability and efficiency of our approach. Our code is available at: https://github.com/an-on-ym-ous/lbn_mobo
翻訳日:2024-09-07 05:11:54 公開日:2024-09-05
# STCSNN:時空間変換を用いた高エネルギー効率スパイクトレインレベルスパイキングニューラルネットワーク

STCSNN: High energy efficiency spike-train level spiking neural networks with spatio-temporal conversion ( http://arxiv.org/abs/2307.07136v2 )

ライセンス: Link先を確認
Changqing Xu, Yi Liu, Yintang Yang, (参考訳) 脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、低電力特性、高い生物学的可視性、強い時空間情報処理能力により、広く研究の関心を集めている。 代理勾配(SG)を採用することで、SNNの非微分性は訓練可能であるが、ANNと同等の精度を達成し、低消費電力機能を同時に維持することは依然として難しい。 本稿では,時空間変換によるエネルギー効率の高いスパイクトレインレベルのスパイクニューラルネットワークを提案する。 STCSNNでは、SNNの低消費電力特性を維持し、精度を向上させるために時空間変換ブロック(STCB)が提案されている。 しかし、STCSNNはスパイク列車の非微分性の性質のため、バックプロパゲーションアルゴリズムを直接採用することはできない。 我々は,STCBの等価勾配を推定し,STCSNNに適した学習規則を提案する。 提案したSTCSNNを,Fashion-Mnist,Cifar10,Cifar100,TinyImageNet,DVS-Cifar10などの静的およびニューロモルフィックなデータセット上で評価した。 実験の結果,提案したSTCSNNは,時間ステップの削減とエネルギー効率の向上により,ほぼすべてのデータセットにおいて最先端の精度よりも優れていた。

Brain-inspired spiking neuron networks (SNNs) have attracted widespread research interest due to their low power features, high biological plausibility, and strong spatiotemporal information processing capability. Although adopting a surrogate gradient (SG) makes the non-differentiability SNN trainable, achieving comparable accuracy for ANNs and keeping low-power features simultaneously is still tricky. In this paper, we proposed an energy-efficient spike-train level spiking neural network with spatio-temporal conversion, which has low computational cost and high accuracy. In the STCSNN, spatio-temporal conversion blocks (STCBs) are proposed to keep the low power features of SNNs and improve accuracy. However, STCSNN cannot adopt backpropagation algorithms directly due to the non-differentiability nature of spike trains. We proposed a suitable learning rule for STCSNNs by deducing the equivalent gradient of STCB. We evaluate the proposed STCSNN on static and neuromorphic datasets, including Fashion-Mnist, Cifar10, Cifar100, TinyImageNet, and DVS-Cifar10. The experiment results show that our proposed STCSNN outperforms the state-of-the-art accuracy on nearly all datasets, using fewer time steps and being highly energy-efficient.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-05
# エコー法によるコヒーレント非断熱遷移の仮想緩和

Virtual mitigation of coherent non-adiabatic transitions by echo verification ( http://arxiv.org/abs/2307.10358v4 )

ライセンス: Link先を確認
Benjamin F. Schiffer, Dyon van Vreumingen, Jordi Tura, Stefano Polla, (参考訳) 地上空間からの遷移は量子断熱アルゴリズムの性能を制限するが、ハードウェアの不完全性は回路深さに厳しい制限を課す。 非断熱遷移とハードウェアノイズから生じるコヒーレントエラーと不整脈エラーの両方を緩和する断熱エコー検証プロトコルを提案する。 準アディバティカルに前方と後方に進化することで、観測可能なものについてエコーで検証された測定が可能となる。 ハードウェアノイズの軽減に加えて,本手法では正時ダイナミクスのみを用いる。 重要なことは、標準的な断熱製剤と比較して観測可能量の推定器バイアスが小さくなり、二次的な改善が達成される。

Transitions out of the ground space limit the performance of quantum adiabatic algorithms, while hardware imperfections impose stringent limitations on the circuit depth. We propose an adiabatic echo verification protocol which mitigates both coherent and incoherent errors, arising from non-adiabatic transitions and hardware noise, respectively. Quasi-adiabatically evolving forward and backwards allows for an echo-verified measurement of any observable. In addition to mitigating hardware noise, our method uses positive-time dynamics only. Crucially, the estimator bias of the observable is reduced when compared to standard adiabatic preparation, achieving up to a quadratic improvement.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-05
# 対称正定値行列の多様体上の回帰による多値共分散推定

Multifidelity Covariance Estimation via Regression on the Manifold of Symmetric Positive Definite Matrices ( http://arxiv.org/abs/2307.12438v3 )

ライセンス: Link先を確認
Aimee Maurais, Terrence Alsup, Benjamin Peherstorfer, Youssef Marzouk, (参考訳) 対称正定値行列多様体上の回帰問題の解として定式化された共分散行列の多値性推定器を導入する。 推定器は構成によって正定値であり、マハラノビス距離は最小限に抑えられ、実用的な計算を可能にする性質を持つ。 我々の多様体回帰多相性(MRMF)共分散推定器は、多様体接空間上の特定の誤差モデルの下での最大可能性推定器であることを示す。 より広範に、我々のリーマン回帰フレームワークは、制御変数から構築された既存の多値共分散推定器を含むことを示す。 我々は、MRMF推定器が、単一忠実度および他の多忠実度共分散推定器と比較して、最大1桁の最大2乗推定誤差を著しく減少させることができることを数値例で示す。 さらに, 正定性保持は, この特性が不可欠であるデータ同化やメートル法学習といった下流タスクとの整合性を保証する。

We introduce a multifidelity estimator of covariance matrices formulated as the solution to a regression problem on the manifold of symmetric positive definite matrices. The estimator is positive definite by construction, and the Mahalanobis distance minimized to obtain it possesses properties enabling practical computation. We show that our manifold regression multifidelity (MRMF) covariance estimator is a maximum likelihood estimator under a certain error model on manifold tangent space. More broadly, we show that our Riemannian regression framework encompasses existing multifidelity covariance estimators constructed from control variates. We demonstrate via numerical examples that the MRMF estimator can provide significant decreases, up to one order of magnitude, in squared estimation error relative to both single-fidelity and other multifidelity covariance estimators. Furthermore, preservation of positive definiteness ensures that our estimator is compatible with downstream tasks, such as data assimilation and metric learning, in which this property is essential.
翻訳日:2024-09-07 05:11:54 公開日:2024-09-05
# 創薬の未来:量子ベース機械学習シミュレーション(QMLS)

Implementation of The Future of Drug Discovery: QuantumBased Machine Learning Simulation (QMLS) ( http://arxiv.org/abs/2308.08561v3 )

ライセンス: Link先を確認
Yifan Zhou, Yan Shing Liang, Yew Kee Wong, Haichuan Qiu, Yu Xi Wu, Bin He, (参考訳) 医薬品開発における研究開発(Research & Development, R&D)の段階は、長くてコストのかかるプロセスである。 このプロセスに革命をもたらすため、我々は新たなコンセプトQMLSを導入し、R&Dフェーズ全体を3~6ヶ月に短縮し、コストを5~8万USDに短縮する。 ヒット生成のために、機械学習分子生成(MLMG)は標的タンパク質の分子構造に応じてヒットを生成し、量子シミュレーション(QS)は標的タンパク質との反応と結合効果に基づいて主エッセイから分子をフィルタリングする。 次に、リード最適化のために、MLMGとQSから生成・フィルタリングされた結果の分子を比較し、両方のプロセスの結果として現れる分子は機械学習分子変動(MLMV)を介して数十の分子に分解される。 最後に、全ての最適化された分子は、反応効率と安全性の基準の高いQSフィルターを複数回実施し、数十個の前臨床薬を合成する。 本論文は、量子シミュレーションと組み合わせた機械学習の概念を売り込んだ最初の論文に基づいている。 本稿では、MLMG、MLMV、QSを含むQMLSの詳細な設計とフレームワークについて述べる。

The Research & Development (R&D) phase of drug development is a lengthy and costly process. To revolutionize this process, we introduce our new concept QMLS to shorten the whole R&D phase to three to six months and decrease the cost to merely fifty to eighty thousand USD. For Hit Generation, Machine Learning Molecule Generation (MLMG) generates possible hits according to the molecular structure of the target protein while the Quantum Simulation (QS) filters molecules from the primary essay based on the reaction and binding effectiveness with the target protein. Then, For Lead Optimization, the resultant molecules generated and filtered from MLMG and QS are compared, and molecules that appear as a result of both processes will be made into dozens of molecular variations through Machine Learning Molecule Variation (MLMV), while others will only be made into a few variations. Lastly, all optimized molecules would undergo multiple rounds of QS filtering with a high standard for reaction effectiveness and safety, creating a few dozen pre-clinical-trail-ready drugs. This paper is based on our first paper, where we pitched the concept of machine learning combined with quantum simulations. In this paper we will go over the detailed design and framework of QMLS, including MLMG, MLMV, and QS.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-05
# ライドバーグ原子配列の制限ヒルベルト空間における量子モンテカルロシミュレーション

Quantum Monte Carlo simulations in the restricted Hilbert space of Rydberg atom arrays ( http://arxiv.org/abs/2309.00482v3 )

ライセンス: Link先を確認
Pranay Patil, (参考訳) ライドバーグ原子配列は、多くのエキゾチックな量子基底状態と相転移をシミュレートする強力なプラットフォームとして登場した。 これらの能力を数値的に検証するために、リドベルク封鎖の制約を強制することによって生成されるヒルベルト空間を縮小する多目的量子モンテカルロサンプリング手法を開発した。 確率級数展開の枠組みを用いて、制限空間において、作用素弦の構成空間が$d+1$次元のハードロッドガスとして理解可能であることを示す。 このマッピングを用いて、ロッドの様々な非局所的な動きとして可視化できるクラスタアルゴリズムを開発する。 それぞれの更新の効率を個々に、そしてまとめて調査する。 アルゴリズムの有用性を解明するために、カゴム'eリンク格子上で、Rydbergアトムアレイの位相図を、関連するすべてのエネルギースケールよりもはるかに小さい温度まで効率的に生成できることを示す。 これはZ_2$スピン液体の存在が最近仮説化されているため、幅広い関心を集めている。

Rydberg atom arrays have emerged as a powerful platform to simulate a number of exotic quantum ground states and phase transitions. To verify these capabilities numerically, we develop a versatile quantum Monte Carlo sampling technique which operates in the reduced Hilbert space generated by enforcing the constraint of a Rydberg blockade. We use the framework of stochastic series expansion and show that in the restricted space, the configuration space of operator strings can be understood as a hard rod gas in $d+1$ dimensions. We use this mapping to develop cluster algorithms which can be visualized as various non-local movements of rods. We study the efficiency of each of our updates individually and collectively. To elucidate the utility of the algorithm, we show that it can efficiently generate the phase diagram of a Rydberg atom array, to temperatures much smaller than all energy scales involved, on a Kagom\'e link lattice. This is of broad interest as the presence of a $Z_2$ spin liquid has been hypothesized recently.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-05
# ライドバーグ原子配列の制限ヒルベルト空間における量子モンテカルロシミュレーション

Quantum Monte Carlo simulations in the restricted Hilbert space of Rydberg atom arrays ( http://arxiv.org/abs/2309.00482v4 )

ライセンス: Link先を確認
Pranay Patil, (参考訳) ライドバーグ原子配列は、多くのエキゾチックな量子基底状態と相転移をシミュレートする強力なプラットフォームとして登場した。 これらの能力を数値的に検証するために、リドベルク封鎖の制約を強制することによって生成されるヒルベルト空間を縮小する多目的量子モンテカルロサンプリング手法を開発した。 確率級数展開の枠組みを用いて、制限空間において、作用素弦の構成空間が$d+1$次元のハードロッドガスとして理解可能であることを示す。 このマッピングを用いて、ロッドの様々な非局所的な動きとして可視化できるクラスタアルゴリズムを開発する。 それぞれの更新の効率を個々に、そしてまとめて調査する。 アルゴリズムの有用性を解明するために、カゴム'eリンク格子上で、Rydbergアトムアレイの位相図を、関連するすべてのエネルギースケールよりもはるかに小さい温度まで効率的に生成できることを示す。 これはZ_2$スピン液体の存在が最近仮説化されているため、幅広い関心を集めている。

Rydberg atom arrays have emerged as a powerful platform to simulate a number of exotic quantum ground states and phase transitions. To verify these capabilities numerically, we develop a versatile quantum Monte Carlo sampling technique which operates in the reduced Hilbert space generated by enforcing the constraint of a Rydberg blockade. We use the framework of stochastic series expansion and show that in the restricted space, the configuration space of operator strings can be understood as a hard rod gas in $d+1$ dimensions. We use this mapping to develop cluster algorithms which can be visualized as various non-local movements of rods. We study the efficiency of each of our updates individually and collectively. To elucidate the utility of the algorithm, we show that it can efficiently generate the phase diagram of a Rydberg atom array, to temperatures much smaller than all energy scales involved, on a Kagom\'e link lattice. This is of broad interest as the presence of a $Z_2$ spin liquid has been hypothesized recently.
翻訳日:2024-09-07 04:56:30 公開日:2024-09-05
# UVL2: ビデオタンパローカライゼーションのための統一フレームワーク

UVL2: A Unified Framework for Video Tampering Localization ( http://arxiv.org/abs/2309.16126v2 )

ライセンス: Link先を確認
Pengfei Pei, (参考訳) ディープラーニング駆動のビデオ編集技術の進歩により、セキュリティリスクが浮上した。 悪意のあるビデオの改ざんは、世間の誤解、財産の喪失、法的な論争につながる可能性がある。 現在、検出方法は、主に特定のデータセットに限られており、未知のフォージェリーに対する検出性能に制限があり、処理データに対する堅牢性の欠如がある。 本稿では,フォージェリトレースのより一般化された特徴を抽出することにより,映像の塗布およびスプライシングの検出性能を大幅に向上する効果的なビデオ改ざんネットワークを提案する。 改ざんされたビデオと、エッジアーティファクト、画素分布、テクスチャ特徴、圧縮情報などのオリジナルビデオとの違いを考慮し、これらの特徴を独立して抽出する4つのモジュールを特別に設計した。 さらに、これらの特徴をシームレスに統合するために、畳み込みニューラルネットワークとビジョントランスフォーマーの両方を利用した2段階のアプローチを採用し、これらの特徴を局所的・言語的に学習することを可能にする。 実験結果から,本手法は既存の最先端手法よりも優れ,ロバスト性を示すことが示された。

With the advancement of deep learning-driven video editing technology, security risks have emerged. Malicious video tampering can lead to public misunderstanding, property losses, and legal disputes. Currently, detection methods are mostly limited to specific datasets, with limited detection performance for unknown forgeries, and lack of robustness for processed data. This paper proposes an effective video tampering localization network that significantly improves the detection performance of video inpainting and splicing by extracting more generalized features of forgery traces. Considering the inherent differences between tampered videos and original videos, such as edge artifacts, pixel distribution, texture features, and compress information, we have specifically designed four modules to independently extract these features. Furthermore, to seamlessly integrate these features, we employ a two-stage approach utilizing both a Convolutional Neural Network and a Vision Transformer, enabling us to learn these features in a local-to-global manner. Experimental results demonstrate that the method significantly outperforms the existing state-of-the-art methods and exhibits robustness.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-05
# 大規模言語モデルにおける知識紛争の解決

Resolving Knowledge Conflicts in Large Language Models ( http://arxiv.org/abs/2310.00935v2 )

ライセンス: Link先を確認
Yike Wang, Shangbin Feng, Heng Wang, Weijia Shi, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov, (参考訳) 大規模言語モデル(LLM)は、LLMの内部パラメトリック知識とプロンプトコンテキストで提供される非パラメトリック情報との相違が生じるような知識の衝突にしばしば遭遇する。 この研究では、知識衝突が発生したときのLLMのデシラタとは何か、既存のLLMがそれを満たすのかを問う。 LLMはすべきである、と仮定する。 1)知識紛争の特定。 2 情報セグメントの対立点、及び 3) 矛盾するシナリオにおいて、明確な回答や視点を提供する。 そこで我々は,文脈的知識の対立をシミュレートし,LLMがこれらの目標を達成する程度を定量的に評価するための評価フレームワークであるKNOWLEDGE CONFLICTを紹介する。 KNOWLEDGE CONFLICTには、知識紛争の多様かつ複雑な状況、多様な実体や領域からの知識、2つの合成紛争発生方法、そして現実的な知識紛争を反映することの難しさを徐々に増す設定が含まれる。 KNOWLEDGE CONFLICTフレームワークによる大規模な実験により、LLMは知識衝突の存在を識別する上でうまく機能する一方で、特定の矛盾する知識を識別し、矛盾する情報の中で異なる回答で応答を生成するのに苦労していることが明らかとなった。 これらの課題に対処するため,LLMを改良して3つの目標を達成できる新しい命令ベースアプローチを提案する。 さらに分析したところ、知識紛争に対処する能力は、知識領域やテキストのプロンプトといった要因に大きく影響されている一方で、知識紛争シナリオに対する堅牢な応答を生成することは、オープンな研究課題であることがわかった。

Large language models (LLMs) often encounter knowledge conflicts, scenarios where discrepancy arises between the internal parametric knowledge of LLMs and non-parametric information provided in the prompt context. In this work we ask what are the desiderata for LLMs when a knowledge conflict arises and whether existing LLMs fulfill them. We posit that LLMs should 1) identify knowledge conflicts, 2) pinpoint conflicting information segments, and 3) provide distinct answers or viewpoints in conflicting scenarios. To this end, we introduce KNOWLEDGE CONFLICT, an evaluation framework for simulating contextual knowledge conflicts and quantitatively evaluating to what extent LLMs achieve these goals. KNOWLEDGE CONFLICT includes diverse and complex situations of knowledge conflict, knowledge from diverse entities and domains, two synthetic conflict creation methods, and settings with progressively increasing difficulty to reflect realistic knowledge conflicts. Extensive experiments with the KNOWLEDGE CONFLICT framework reveal that while LLMs perform well in identifying the existence of knowledge conflicts, they struggle to determine the specific conflicting knowledge and produce a response with distinct answers amidst conflicting information. To address these challenges, we propose new instruction-based approaches that augment LLMs to better achieve the three goals. Further analysis shows that abilities to tackle knowledge conflicts are greatly impacted by factors such as knowledge domain and prompt text, while generating robust responses to knowledge conflict scenarios remains an open research question.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-05
# 散逸型量子分類器に向けて

Towards a dissipative quantum classifier ( http://arxiv.org/abs/2310.10254v2 )

ライセンス: Link先を確認
He Wang, Chuanbo Liu, Jin Wang, (参考訳) 本稿では,散逸工学を利用した新しい量子分類器を提案する。 標準量子回路モデルとは異なり、分類器は中心スピン量子ビットモデルで構成されている。 補助量子ビットに強い散逸を慎重に調整することにより、古典的データと散逸モードの1対1のマッピングを確立する。 この写像は、中心量子ビットが進化するデコヒーレンス自由部分空間内の古典データの符号化を可能にする。 中心量子ビットのダイナミクスは、効果的なリンドブラッドマスター方程式によって支配され、定常状態への緩和をもたらす。 まず,システムの相互結合と外部の散逸を訓練することにより,任意の単一量子状態を作成するモデルの有効性を実証する。 基礎となる分類則を解明することにより、量子分類器を導出する。 ラベル付きデータを用いたトレーニングセットを利用することで、従来のニューラルネットワークに似た特定の分類タスクを実行するために、散逸的な中心スピンキュービットシステムを訓練する。 本研究は, 量子機械学習の領域において, 効率よく効果的な分類作業を行うために, 散逸系の未解決ポテンシャルを照らすものである。

In this paper, we propose a novel quantum classifier utilizing dissipative engineering. Unlike standard quantum circuit models, the classifier consists of a central spin-qubit model. By subjecting the auxiliary qubits to carefully tailored strong dissipations, we establish a one-to-one mapping between classical data and dissipative modes. This mapping enables the encoding of classical data within a decoherence-free subspace, where the central qubit undergoes evolution. The dynamics of the central qubit are governed by an effective Lindblad master equation, resulting in relaxation towards a steady state. We first demonstrate the capability of our model to prepare arbitrary single-qubit states by training the inter-coupling of the system and the external dissipations. By elucidating the underlying classification rule, we subsequently derive a quantum classifier. Leveraging a training set with labeled data, we train the dissipative central spin-qubit system to perform specific classification tasks akin to classical neural networks. Our study illuminates the untapped potential of the dissipative system for efficient and effective classification tasks in the realm of quantum machine learning.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-05
# 大規模言語モデルにおける素早いエンジニアリングの可能性:包括的レビュー

Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review ( http://arxiv.org/abs/2310.14735v5 )

ライセンス: Link先を確認
Banghao Chen, Zhaofeng Zhang, Nicolas Langrené, Shengxin Zhu, (参考訳) この包括的なレビューは、LLM(Large Language Models)の能力を開放する上で、迅速なエンジニアリングの重要な役割を掘り下げている。 1950年代から先進的なニューラルネットワークやディープラーニングアーキテクチャの出現に至るまで、人工知能(AI)の開発は、GPT-4oやClaude-3といったモデルや、CLIPやALIGNといったモデルを使ったビジョンランゲージモデル(VLM)など、LCMにおいて画期的な成果を上げてきた。 プロンプトエンジニアリング(英: Prompt Engineering)は、入力を構造化するプロセスであり、これらのモデルの有用性と精度を最大化する重要な技術として登場した。 本稿では, 自己整合性, チェーン・オブ・思想, 生成した知識など, モデル性能を著しく向上させる技術を含む, 迅速な工学の基礎的手法と先進的手法について検討する。 さらに、コンテキスト最適化(CoOp)、条件コンテキスト最適化(CoCoOp)、マルチモーダル・プロンプト学習(MaPLe)といった革新的な手法を用いて、VLMのプロンプト手法を検討する。 この議論に批判的なのは、AIセキュリティの側面、特に迅速なエンジニアリングの脆弱性を悪用する敵攻撃である。 これらのリスクを軽減し、モデルの堅牢性を高めるための戦略が、徹底的にレビューされている。 提案手法の評価は主観的指標と客観的指標の両方を通して行われ,その有効性について頑健な分析を確実にする。 このレビューはまた、AI能力の進歩におけるエンジニアリングの急進的な役割を反映し、将来の研究と応用のための構造化されたフレームワークを提供する。

This comprehensive review delves into the pivotal role of prompt engineering in unleashing the capabilities of Large Language Models (LLMs). The development of Artificial Intelligence (AI), from its inception in the 1950s to the emergence of advanced neural networks and deep learning architectures, has made a breakthrough in LLMs, with models such as GPT-4o and Claude-3, and in Vision-Language Models (VLMs), with models such as CLIP and ALIGN. Prompt engineering is the process of structuring inputs, which has emerged as a crucial technique to maximize the utility and accuracy of these models. This paper explores both foundational and advanced methodologies of prompt engineering, including techniques such as self-consistency, chain-of-thought, and generated knowledge, which significantly enhance model performance. Additionally, it examines the prompt method of VLMs through innovative approaches such as Context Optimization (CoOp), Conditional Context Optimization (CoCoOp), and Multimodal Prompt Learning (MaPLe). Critical to this discussion is the aspect of AI security, particularly adversarial attacks that exploit vulnerabilities in prompt engineering. Strategies to mitigate these risks and enhance model robustness are thoroughly reviewed. The evaluation of prompt methods is also addressed, through both subjective and objective metrics, ensuring a robust analysis of their efficacy. This review also reflects the essential role of prompt engineering in advancing AI capabilities, providing a structured framework for future research and application.
翻訳日:2024-09-07 04:41:34 公開日:2024-09-05
# MimicTouch: コンタクトリッチマニピュレーションのためのマルチモーダルなヒューマン触覚デモの活用

MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation ( http://arxiv.org/abs/2310.16917v3 )

ライセンス: Link先を確認
Kelin Yu, Yunhai Han, Qixian Wang, Vaibhav Saxena, Danfei Xu, Ye Zhao, (参考訳) 触覚は、挿入や組立といった、きめ細かな、接触に富んだ操作タスクに不可欠である。 従来の研究では、遠隔操作による実証データから触覚誘導ポリシーを学習する可能性が示されている。 しかし、デモを行うために、人間のユーザーはロボットを制御するために視覚的フィードバックに頼ることが多い。 これにより、ロボット(視覚)を制御するために使用される知覚モダリティと興味のモダリティ(触覚)の間にギャップが生じる。 このギャップを埋めるために,人手によるデモンストレーションから直接ポリシーを学習する新しいフレームワークである"MimicTouch"を紹介した。 重要なイノベーションは 一 人間の触覚誘導制御戦略を学ぶための多モード触覚データセットを収集する人間の触覚データ収集システム 二 このようなデータを通じて人間の触覚誘導制御戦略を学習するための模倣学習に基づく枠組み 三 人間の手とロボットグリップのエンボディメントギャップを橋渡しするオンライン残留RLフレームワーク。 総合的な実験を通じて,人間の触覚誘導制御戦略を利用して,コンタクトリッチな操作課題を解決することの有効性を強調した。 プロジェクトのWebサイトはhttps://sites.google.com/view/MimicTouchにある。

Tactile sensing is critical to fine-grained, contact-rich manipulation tasks, such as insertion and assembly. Prior research has shown the possibility of learning tactile-guided policy from teleoperated demonstration data. However, to provide the demonstration, human users often rely on visual feedback to control the robot. This creates a gap between the sensing modality used for controlling the robot (visual) and the modality of interest (tactile). To bridge this gap, we introduce "MimicTouch", a novel framework for learning policies directly from demonstrations provided by human users with their hands. The key innovations are i) a human tactile data collection system which collects multi-modal tactile dataset for learning human's tactile-guided control strategy, ii) an imitation learning-based framework for learning human's tactile-guided control strategy through such data, and iii) an online residual RL framework to bridge the embodiment gap between the human hand and the robot gripper. Through comprehensive experiments, we highlight the efficacy of utilizing human's tactile-guided control strategy to resolve contact-rich manipulation tasks. The project website is at https://sites.google.com/view/MimicTouch.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-05
# Rust for Embedded Systems: 現状,課題,オープンな問題(拡張レポート)

Rust for Embedded Systems: Current State, Challenges and Open Problems (Extended Report) ( http://arxiv.org/abs/2311.05063v2 )

ライセンス: Link先を確認
Ayushi Sharma, Shashank Sharma, Santiago Torres-Arias, Aravind Machiry, (参考訳) 組込みソフトウェアは医療機器や自動運転車などの安全上重要なシステムで使われており、セキュリティ上の脆弱性を含むソフトウェアの欠陥は深刻な結果をもたらす。 ほとんどの組み込みコードベースは安全でない言語、特にC/C++で開発されており、メモリ安全性の脆弱性が取り除かれている。 このような脆弱性を避けるため、パフォーマンスの高いメモリセーフなシステム言語であるRUSTは組み込みソフトウェアを開発する上で最適な選択肢を提供する。 RUSTの相互運用性により、既存のCコードベース上でRUSTアプリケーションを開発できる。 それにもかかわらず、最もリソースの豊富な組織でさえ、C/C++で組み込みソフトウェアを開発し続けている。 本稿では,組み込みシステムにRUSTを使用する際の現状と課題を総合的に理解するための,最初の体系的研究を行う。 私たちの研究は3つの研究課題にまたがっている。 さまざまなカテゴリにまたがる2,836のRUST組込みソフトウェアと5つの静的アプリケーションセキュリティテスト(SAST)ツールのデータセットを収集しました。 我々は,225人の開発者を対象に,データセットとサーベイを体系的に分析し,調査を行った。 既存のRUSTソフトウェアサポートが不十分であること、SASTツールがRUST組み込みソフトウェアの特定の機能に対応できないこと、そして既存のRUSTソフトウェアにおける高度な型の導入が、相互運用可能なコードのエンジニアリングを困難にしていることを発見した。 さらに、組み込みシステム開発にRUSTを使用することで、開発者が直面している様々な課題も見出した。

Embedded software is used in safety-critical systems such as medical devices and autonomous vehicles, where software defects, including security vulnerabilities, have severe consequences. Most embedded codebases are developed in unsafe languages, specifically C/C++, and are riddled with memory safety vulnerabilities. To prevent such vulnerabilities, RUST, a performant memory-safe systems language, provides an optimal choice for developing embedded software. RUST interoperability enables developing RUST applications on top of existing C codebases. Despite this, even the most resourceful organizations continue to develop embedded software in C/C++. This paper performs the first systematic study to holistically understand the current state and challenges of using RUST for embedded systems. Our study is organized across three research questions. We collected a dataset of 2,836 RUST embedded software spanning various categories and 5 Static Application Security Testing ( SAST) tools. We performed a systematic analysis of our dataset and surveys with 225 developers to investigate our research questions. We found that existing RUST software support is inadequate, SAST tools cannot handle certain features of RUST embedded software, resulting in failures, and the prevalence of advanced types in existing RUST software makes it challenging to engineer interoperable code. In addition, we found various challenges faced by developers in using RUST for embedded systems development.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-05
# FDNet:歯のCBCT画像のための特徴分離セグメンテーションネットワーク

FDNet: Feature Decoupled Segmentation Network for Tooth CBCT Image ( http://arxiv.org/abs/2311.06551v2 )

ライセンス: Link先を確認
Xiang Feng, Chengkai Wang, Chengyu Wu, Yunxiang Li, Yongbo He, Shuai Wang, Yaiqi Wang, (参考訳) 精密歯列ビームCT(CBCT)画像分割は矯正治療計画に不可欠である。 本稿では, CBCTスキャンで遭遇する歯質変化状況, 複雑なアーチファクトや不明瞭な歯の境界などに対して, FDNet(Feature Decoupled Segmentation Network, FDNet)を提案する。 低周波ウェーブレット変換 (LF-Wavelet) は, 歯のグローバルな構造的整合性を強調することで, セマンティックな内容の充実を図り, SAMエンコーダを用いて境界線を改良し, 隣接する歯科構造とのコントラストを向上させる。 これらの2つの側面を統合することで、FDNetはセマンティックギャップに十分対処し、詳細で正確なセグメンテーションを提供する。 フレームワークの有効性は厳格なベンチマークによって検証され、それぞれ85.28%と75.23%のDiceとIoUのスコアを達成している。 この意味的特徴と境界的特徴の革新的な分離は、各要素のユニークな強みを生かし、セグメンテーション性能の質を高める。

Precise Tooth Cone Beam Computed Tomography (CBCT) image segmentation is crucial for orthodontic treatment planning. In this paper, we propose FDNet, a Feature Decoupled Segmentation Network, to excel in the face of the variable dental conditions encountered in CBCT scans, such as complex artifacts and indistinct tooth boundaries. The Low-Frequency Wavelet Transform (LF-Wavelet) is employed to enrich the semantic content by emphasizing the global structural integrity of the teeth, while the SAM encoder is leveraged to refine the boundary delineation, thus improving the contrast between adjacent dental structures. By integrating these dual aspects, FDNet adeptly addresses the semantic gap, providing a detailed and accurate segmentation. The framework's effectiveness is validated through rigorous benchmarks, achieving the top Dice and IoU scores of 85.28% and 75.23%, respectively. This innovative decoupling of semantic and boundary features capitalizes on the unique strengths of each element to elevate the quality of segmentation performance.
翻訳日:2024-09-07 04:31:08 公開日:2024-09-05
# Q-Seg:量子アニーリングに基づく教師なしイメージセグメンテーション

Q-Seg: Quantum Annealing-Based Unsupervised Image Segmentation ( http://arxiv.org/abs/2311.12912v3 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel, (参考訳) 本稿では,量子アニーリングに基づく新しい教師なし画像分割手法であるQ-Segについて述べる。 画像のスペクトル情報と空間情報を同化する画素分割問題をグラフカット最適化タスクとして定式化する。 提案手法はD-Waveアドバンテージ装置の相互接続した量子ビットトポロジを効率的に利用し,既存の量子アプローチよりも優れたスケーラビリティを実現し,テスト済みの古典的手法よりも優れた性能を発揮する。 合成データセットに関する実証的な評価では、Q-Segは最先端の古典最適化アルゴリズムであるGurobiよりも実行時性能が優れていることが示されている。 この手法は、ノイズと信頼できないアノテーションを持つ臨界領域である地球観測画像セグメンテーションでもテストされている。 ノイズの多い中間スケール量子の時代において、Q-SegはSegment Anythingのような高度な技術と比較して、現実世界のアプリケーションに対する信頼性の高い競合として現れる。 その結果、Q-Segは利用可能な量子ハードウェア、特に限られたラベル付きデータと効率的な計算ランタイムの必要性に制約された状況において、有望なソリューションを提供する。

We present Q-Seg, a novel unsupervised image segmentation method based on quantum annealing, tailored for existing quantum hardware. We formulate the pixel-wise segmentation problem, which assimilates spectral and spatial information of the image, as a graph-cut optimization task. Our method efficiently leverages the interconnected qubit topology of the D-Wave Advantage device, offering superior scalability over existing quantum approaches and outperforming several tested state-of-the-art classical methods. Empirical evaluations on synthetic datasets have shown that Q-Seg has better runtime performance than the state-of-the-art classical optimizer Gurobi. The method has also been tested on earth observation image segmentation, a critical area with noisy and unreliable annotations. In the era of noisy intermediate-scale quantum, Q-Seg emerges as a reliable contender for real-world applications in comparison to advanced techniques like Segment Anything. Consequently, Q-Seg offers a promising solution using available quantum hardware, especially in situations constrained by limited labeled data and the need for efficient computational runtime.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-05
# Q-Seg:量子アニーリングに基づく教師なしイメージセグメンテーション

Q-Seg: Quantum Annealing-Based Unsupervised Image Segmentation ( http://arxiv.org/abs/2311.12912v4 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel, (参考訳) 本稿では,量子アニーリングに基づく新しい教師なし画像分割手法であるQ-Segについて述べる。 画像のスペクトル情報と空間情報を同化する画素分割問題をグラフカット最適化タスクとして定式化する。 提案手法はD-Waveアドバンテージ装置の相互接続した量子ビットトポロジを効率的に利用し,既存の量子アプローチよりも優れたスケーラビリティを実現し,テスト済みの古典的手法よりも優れた性能を発揮する。 合成データセットに関する実証的な評価では、Q-Segは最先端の古典最適化アルゴリズムであるGurobiよりも実行時性能が優れていることが示されている。 この手法は、ノイズと信頼できないアノテーションを持つ臨界領域である地球観測画像セグメンテーションでもテストされている。 ノイズの多い中間スケール量子の時代において、Q-SegはSegment Anythingのような高度な技術と比較して、現実世界のアプリケーションに対する信頼性の高い競合として現れる。 その結果、Q-Segは利用可能な量子ハードウェア、特に限られたラベル付きデータと効率的な計算ランタイムの必要性に制約された状況において、有望なソリューションを提供する。

We present Q-Seg, a novel unsupervised image segmentation method based on quantum annealing, tailored for existing quantum hardware. We formulate the pixel-wise segmentation problem, which assimilates spectral and spatial information of the image, as a graph-cut optimization task. Our method efficiently leverages the interconnected qubit topology of the D-Wave Advantage device, offering superior scalability over existing quantum approaches and outperforming several tested state-of-the-art classical methods. Empirical evaluations on synthetic datasets have shown that Q-Seg has better runtime performance than the state-of-the-art classical optimizer Gurobi. The method has also been tested on earth observation image segmentation, a critical area with noisy and unreliable annotations. In the era of noisy intermediate-scale quantum, Q-Seg emerges as a reliable contender for real-world applications in comparison to advanced techniques like Segment Anything. Consequently, Q-Seg offers a promising solution using available quantum hardware, especially in situations constrained by limited labeled data and the need for efficient computational runtime.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-05
# D-SCo:単分子ハンドヘルド物体再構成のためのデュアルストリーム条件拡散

D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction ( http://arxiv.org/abs/2311.14189v4 )

ライセンス: Link先を確認
Bowen Fu, Gu Wang, Chenyangguang Zhang, Yan Di, Ziqin Huang, Zhiying Leng, Fabian Manhardt, Xiangyang Ji, Federico Tombari, (参考訳) 単一のRGB画像からハンドヘルドオブジェクトを再構築することは、コンピュータビジョンにおいて難しい課題である。 決定論的モデリングのパラダイムを利用する先行研究とは対照的に、この問題の確率論的性質を考慮に入れた点雲デノナイズ拡散モデルを用いる。 中核部では,単眼ハンドヘルドオブジェクト再構成(D-SCo)のための遠心固定型二重ストリーム条件拡散を導入し,二つの課題に対処した。 まず,物体の遠方偏差を回避するため,手拘束型遠方偏差固定パラダイムを用い,拡散・逆過程の安定性と特徴投影の精度を向上させる。 第2に,新しい手オブジェクトセマンティック埋め込みによる手オブジェクトのセマンティックな相互作用を意味的かつ幾何学的にモデル化し,手対象領域の再構築性能を向上させるために,デュアルストリームデノイザを導入する。 ObManデータセットと、HO3D、MOW、DexYCBの3つの実世界のデータセットの実験は、我々のアプローチが他の最先端の手法を全て超えることを示した。

Reconstructing hand-held objects from a single RGB image is a challenging task in computer vision. In contrast to prior works that utilize deterministic modeling paradigms, we employ a point cloud denoising diffusion model to account for the probabilistic nature of this problem. In the core, we introduce centroid-fixed dual-stream conditional diffusion for monocular hand-held object reconstruction (D-SCo), tackling two predominant challenges. First, to avoid the object centroid from deviating, we utilize a novel hand-constrained centroid fixing paradigm, enhancing the stability of diffusion and reverse processes and the precision of feature projection. Second, we introduce a dual-stream denoiser to semantically and geometrically model hand-object interactions with a novel unified hand-object semantic embedding, enhancing the reconstruction performance of the hand-occluded region of the object. Experiments on the synthetic ObMan dataset and three real-world datasets HO3D, MOW and DexYCB demonstrate that our approach can surpass all other state-of-the-art methods.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-05
# FRAC-Q-Learning:社会ロボットのためのボレドム回避プロセスによる強化学習

FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots ( http://arxiv.org/abs/2311.15327v4 )

ライセンス: Link先を確認
Akinari Onishi, (参考訳) 強化学習アルゴリズムはしばしば社会ロボットに適用されている。 しかし、ほとんどの強化学習アルゴリズムはソーシャルロボットの使用に最適化されておらず、従ってユーザを惹きつける可能性がある。 我々は,ソーシャルロボットであるFRAC-Q学習に特化した新しい強化学習手法を提案した。 提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 本研究は,従来のQ-ラーニングとの比較により,FRAC-Q-ラーニングの関心度と退屈度スコアを評価した。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。 そのため、FRAC-Q学習は、ユーザーを困らせない社会ロボットの開発に寄与することができる。 提案アルゴリズムは、Webベースのコミュニケーションと教育システムに適用できる可能性がある。 本稿では,FRAC-Q学習のプロセス全体,詳細な実装,詳細な評価方法について述べる。

The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not optimized for the use of social robots, and consequently they may bore users. We proposed a new reinforcement learning method specialized for the social robot, the FRAC-Q-learning, that can avoid user boredom. The proposed algorithm consists of a forgetting process in addition to randomizing and categorizing processes. This study evaluated interest and boredom hardness scores of the FRAC-Q-learning by a comparison with the traditional Q-learning. The FRAC-Q-learning showed significantly higher trend of interest score, and indicated significantly harder to bore users compared to the traditional Q-learning. Therefore, the FRAC-Q-learning can contribute to develop a social robot that will not bore users. The proposed algorithm has a potential to apply for Web-based communication and educational systems. This paper presents the entire process, detailed implementation and a detailed evaluation method of the of the FRAC-Q-learning for the first time.
翻訳日:2024-09-07 04:31:07 公開日:2024-09-05
# エイキングと平均化による大規模言語モデルによる政治的テキストの位置決め

Positioning Political Texts with Large Language Models by Asking and Averaging ( http://arxiv.org/abs/2311.16639v3 )

ライセンス: Link先を確認
Gaël Le Mens, Aina Gallego, (参考訳) 我々は GPT-4, Llama 3, MiXtral, Aya などの命令調整型大規模言語モデル (LLM) を用いて政策やイデオロギー空間内に政治的テキストを配置する。 政治文書のつぶやきや文が焦点線上にどこにあるのかを問うとともに、LLMの反応の平均を米国上院議員のような政治的アクターの位置づけ、あるいは10の異なる言語で与えられる英国の政党宣言やEU政策演説のようなより長いテキストに問う。 専門家、クラウドワーカー、ロールコール投票によるテキストコーディングに基づく最高のLCMとベンチマークで得られた位置推定値の相関は、.90を超えている。 このアプローチは、大量の研究データに基づいて訓練された教師付き分類器によって得られる位置よりも一般的に正確である。 方針空間やイデオロギー空間におけるテキストの配置は、たとえテキストが短く、異なる言語で書かれたとしても、高速で、費用効率が高く、信頼性が高く、再現可能である(オープンなLLMの場合)。 実証的検証の必要性について注意書きを締めくくる。

We use instruction-tuned Large Language Models (LLMs) like GPT-4, Llama 3, MiXtral, or Aya to position political texts within policy and ideological spaces. We ask an LLM where a tweet or a sentence of a political text stands on the focal dimension and take the average of the LLM responses to position political actors such as US Senators, or longer texts such as UK party manifestos or EU policy speeches given in 10 different languages. The correlations between the position estimates obtained with the best LLMs and benchmarks based on text coding by experts, crowdworkers, or roll call votes exceed .90. This approach is generally more accurate than the positions obtained with supervised classifiers trained on large amounts of research data. Using instruction-tuned LLMs to position texts in policy and ideological spaces is fast, cost-efficient, reliable, and reproducible (in the case of open LLMs) even if the texts are short and written in different languages. We conclude with cautionary notes about the need for empirical validation.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-05
# アダマール門は普遍量子計算における資源状態に置き換えられない

The Hadamard gate cannot be replaced by a resource state in universal quantum computation ( http://arxiv.org/abs/2312.03515v4 )

ライセンス: Link先を確認
Benjamin D. M. Jones, Noah Linden, Paul Skrzypczyk, (参考訳) 我々は、ある固定資源の量子状態で実行される演算を含む量子計算のモデルを考える。 このパラダイムに適合する例としては、マジックステートインジェクションと測定ベースのアプローチがある。 これらのケースを両方組み込んだフレームワークを導入し、アダマール門の例に示すように、この文脈におけるコヒーレンス(あるいは重ね合わせ)の役割に焦点をあてる。 不整合ユニタリ(計算基底状態、例えばCNOT、対角ゲートから重ね合わせを生成できないもの)、古典的制御、計算基底測定、および任意の資源的な補助状態(任意の次元の)へのアクセスが与えられた場合、非ゼロ確率で正確にコヒーレントユニタリ(例えばアダマール)を実装することはできない。 また、上記の操作と$n$アダマールゲートの間に誘導されたトレース距離の低い境界を与えることにより、近似ケースについても検討する。 この結果の安定性を示すために、$k$ Hadamard gatesを使用して$n>k$ Hadamard gatesを正確に実装する場合、同様のno-go結果に拡張する。

We consider models of quantum computation that involve operations performed on some fixed resourceful quantum state. Examples that fit this paradigm include magic state injection and measurement-based approaches. We introduce a framework that incorporates both of these cases and focus on the role of coherence (or superposition) in this context, as exemplified through the Hadamard gate. We prove that given access to incoherent unitaries (those that are unable to generate superposition from computational basis states, e.g. CNOT, diagonal gates), classical control, computational basis measurements, and any resourceful ancillary state (of arbitrary dimension), it is not possible to implement any coherent unitary (e.g. Hadamard) exactly with non-zero probability. We also consider the approximate case by providing lower bounds for the induced trace distance between the above operations and $n$ Hadamard gates. To demonstrate the stability of this result, this is then extended to a similar no-go result for the case of using $k$ Hadamard gates to exactly implement $n>k$ Hadamard gates.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-05
# 全スライド画像分類のためのシェープ値対応プログレッシブプログレッシブPseudo Bag Augmentation

Shapley Values-enabled Progressive Pseudo Bag Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2312.05490v4 )

ライセンス: Link先を確認
Renao Yan, Qiehe Sun, Cheng Jin, Yiqing Liu, Yonghong He, Tian Guan, Hao Chen, (参考訳) 計算病理学において、全スライディング画像(WSI)分類は、そのギガピクセル解像度と制限された細かいアノテーションのため、非常に難しい課題である。 MIL(Multiple-instance Learning)は、弱教師付きソリューションを提供するが、バッグレベルのラベルからインスタンスレベルの情報を精査することは依然として困難である。 従来のMIL手法の多くは、注目スコアを用いて、スライドラベルの予測に寄与するインスタンス重要度スコア(IIS)を推定するが、これらは、重要なインスタンスを特定する際に注意分布や不正確な結果をもたらすことが多い。 これらの問題に対処するため、我々は協調ゲーム理論に着想を得た新しいアプローチを提案し、各インスタンスの寄与度を評価するためにシェープリー値を用いることにより、IIS推定を改善する。 その後、Shapley値の計算を注意して高速化し、強化されたインスタンス識別と優先順位付けを維持した。 さらに、推定IISに基づく疑似バッグのプログレッシブ割り当てのためのフレームワークを導入し、MILモデルにおけるよりバランスのとれた注意分布を奨励する。 CAMELYON-16, BRACS, TCGA-LUNG, TCGA-BRCAデータセットに関する広範な実験により, 既存の最先端アプローチよりもメソッドの優位性を示し, 解釈可能性の向上とクラスワイドインサイトを提供する。 ソースコードはhttps://github.com/RenaoYan/PMIL.comで公開されています。

In computational pathology, whole-slide image (WSI) classification presents a formidable challenge due to its gigapixel resolution and limited fine-grained annotations. Multiple-instance learning (MIL) offers a weakly supervised solution, yet refining instance-level information from bag-level labels remains challenging. While most of the conventional MIL methods use attention scores to estimate instance importance scores (IIS) which contribute to the prediction of the slide labels, these often lead to skewed attention distributions and inaccuracies in identifying crucial instances. To address these issues, we propose a new approach inspired by cooperative game theory: employing Shapley values to assess each instance's contribution, thereby improving IIS estimation. The computation of the Shapley value is then accelerated using attention, meanwhile retaining the enhanced instance identification and prioritization. We further introduce a framework for the progressive assignment of pseudo bags based on estimated IIS, encouraging more balanced attention distributions in MIL models. Our extensive experiments on CAMELYON-16, BRACS, TCGA-LUNG, and TCGA-BRCA datasets show our method's superiority over existing state-of-the-art approaches, offering enhanced interpretability and class-wise insights. Our source code is available at https://github.com/RenaoYan/PMIL.
翻訳日:2024-09-07 04:21:22 公開日:2024-09-05
# 微調整拡散モデルに対するブラックボックスメンバーシップ推論攻撃

Black-box Membership Inference Attacks against Fine-tuned Diffusion Models ( http://arxiv.org/abs/2312.08207v5 )

ライセンス: Link先を確認
Yan Pang, Tianhao Wang, (参考訳) 拡散に基づく画像生成モデルの急速な進歩により、生成画像の品質はますますフォトリアリスティックになりつつある。 さらに、高品質なトレーニング済み画像生成モデルのリリースにより、多くのユーザーがこれらのトレーニング済みモデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整している。 しかし、下流タスクにそのような強力なトレーニング済みモデルを採用すると、重大なプライバシー漏洩のリスクが生じる。 本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークと,より厳密なブラックボックスアクセス設定を提案する。 4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにし、0.95ドルの印象的なAUCによって証明された高い精度を達成することができる。

With the rapid advancement of diffusion-based image-generative models, the quality of generated images has become increasingly photorealistic. Moreover, with the release of high-quality pre-trained image-generative models, a growing number of users are downloading these pre-trained models to fine-tune them with downstream datasets for various image-generation tasks. However, employing such powerful pre-trained models in downstream tasks presents significant privacy leakage risks. In this paper, we propose the first reconstruction-based membership inference attack framework, tailored for recent diffusion models, and in the more stringent black-box access setting. Considering four distinct attack scenarios and three types of attacks, this framework is capable of targeting any popular conditional generator model, achieving high precision, evidenced by an impressive AUC of $0.95$.
翻訳日:2024-09-07 04:21:21 公開日:2024-09-05
# 量子イジング鎖上の閉じ込めとキンク絡みの非対称性

Confinement and Kink Entanglement Asymmetry on a Quantum Ising Chain ( http://arxiv.org/abs/2312.08601v3 )

ライセンス: Link先を確認
Brian J. J. Khor, D. M. Kürkçüoglu, T. J. Hobbs, G. N. Perdue, Israel Klich, (参考訳) 本研究では, 1次元量子イジング鎖上の閉じ込め, 弦の破れ, 絡み合う非対称性の相互作用について検討する。 我々は、初期領域壁の進化を考察し、意外なことに、長手フィールドによる閉じ込めの導入は典型的には絡みを抑制するが、自由粒子の有界集合を超えて増大させるのに役立つことを示した。 我々のモデルは、ドメイン壁の数を保存するために調整することができ、リンク変数に関連する絡み合い非対称性を探索する機会を与える。 結合変数(キンク)をサイト変数(スピン)に写像するクラマース・ワニエ変換の直接あるいは後続のリンク変数の非局所性を扱うための2つのアプローチについて検討する。 テンソルネットワーク法を用いて非対称性を計算する数値計算法を開発し, 異なる種類の絡み合いと絡み合い非対称性を示す。

In this work, we explore the interplay of confinement, string breaking and entanglement asymmetry on a 1D quantum Ising chain. We consider the evolution of an initial domain wall and show that, surprisingly, while the introduction of confinement through a longitudinal field typically suppresses entanglement, it can also serve to increase it beyond a bound set for free particles. Our model can be tuned to conserve the number of domain walls, which gives an opportunity to explore entanglement asymmetry associated with link variables. We study two approaches to deal with the non-locality of the link variables, either directly or following a Kramers-Wannier transformation that maps bond variables (kinks) to site variables (spins). We develop a numerical procedure for computing the asymmetry using tensor network methods and use it to demonstrate the different types of entanglement and entanglement asymmetry.
翻訳日:2024-09-07 04:21:21 公開日:2024-09-05
# 視覚的セマンティックセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティック

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2312.08673v3 )

ライセンス: Link先を確認
Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen, (参考訳) Augmented Reality(AR)デバイスは、顕著なモバイルインタラクションプラットフォームとして登場し、特に近日中の車両に関して、ユーザ安全上の課題に直面している。 搭載カメラアレイを利用するソリューションもあるが、これらのカメラはしばしば前方または下向きの視野を持つ視野(FoV)に制限がある。 そこで本研究では,新しい音声・視覚的セマンティックセマンティックセマンティクス手法であるセマンティクス・セマンティクス・タスクとセマンティクス・セマンティクス・セマンティクス・タスク(SBV)を提案する。 SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う。 このモデルは、パノラマ情報を利用する視覚教師と、8チャンネルオーディオを持つ聴覚教師と、限られたFoVとバイノーラルオーディオを入力として、FoV外のオブジェクトのセマンティックセグメンテーションを生成するオーディオ視覚学生で構成されている。 SBVは既存のモデルを比較評価で上回り、様々なFoV範囲とモノラルオーディオ設定で一貫したパフォーマンスを示す。

Augmented Reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays, these cameras often have limited field-of-view (FoV) with front or downward perspectives. Addressing this, we propose a new out-of-view semantic segmentation task and Segment Beyond View (SBV), a novel audio-visual semantic segmentation method. SBV supplements the visual modality, which miss the information beyond FoV, with the auditory information using a teacher-student distillation model (Omni2Ego). The model consists of a vision teacher utilising panoramic information, an auditory teacher with 8-channel audio, and an audio-visual student that takes views with limited FoV and binaural audio as input and produce semantic segmentation for objects outside FoV. SBV outperforms existing models in comparative evaluations and shows a consistent performance across varying FoV ranges and in monaural audio settings.
翻訳日:2024-09-07 04:21:21 公開日:2024-09-05
# ケメニー定数を用いた最適マルコフ鎖分割のためのグラフニューラルネットワークの大規模学習

Large Scale Training of Graph Neural Networks for Optimal Markov-Chain Partitioning Using the Kemeny Constant ( http://arxiv.org/abs/2312.14847v3 )

ライセンス: Link先を確認
Sam Alexander Martino, João Morado, Chenghao Li, Zhenghao Lu, Edina Rosta, (参考訳) 従来のクラスタリングアルゴリズムは、グラフ内の複雑な関係を捉え、任意のクラスタリング基準に一般化するのに苦労することが多い。 グラフデータの表現を学習する強力なフレームワークとしてのグラフニューラルネットワーク(GNN)の出現は、その問題を解決するための新しいアプローチを提供する。 これまでの研究は、GNNが様々な基準を用いてパーティショニングを提案できることを示したが、これらのアプローチはまだマルコフ連鎖や運動ネットワークに拡張されていない。 これらは分子システムの研究で頻繁に発生し、特に生化学的モデリングのコミュニティに興味を持つ。 本研究では,マルコフ・チェインのグラフ分割問題に対処するGNNアーキテクチャを提案する。 このアプローチは、提案されたパーティショニングがケメニー定数をどの程度変更するかを最小化することを目的としている。 本稿では,エンコーダデコーダアーキテクチャを用いて,リニアレイヤを持つGraphSAGEベースのGNNが,このコンテキストにおいてより大きく,より表現力に富んだアテンションベースモデルよりも優れていることを示す。 概念実証として、まずランダムに連結されたグラフをクラスタリングする手法の能力を実証する。 また、運動ネットワークとして1次元自由エネルギープロファイルに対応する線形鎖構造を用いる。 その後,分子動力学から得られたデータセットを用いた実験により,本手法の有効性を実証した。 提案手法の性能をPCCA+などのパーティショニング手法と比較する。 本稿では,特徴量選択とハイパーパラメータ選択の重要性について検討し,グラフ分割探索のためのGNNの大規模並列学習手法を提案する。

Traditional clustering algorithms often struggle to capture the complex relationships within graphs and generalise to arbitrary clustering criteria. The emergence of graph neural networks (GNNs) as a powerful framework for learning representations of graph data provides new approaches to solving the problem. Previous work has shown GNNs to be capable of proposing partitionings using a variety of criteria, however, these approaches have not yet been extended to work on Markov chains or kinetic networks. These arise frequently in the study of molecular systems and are of particular interest to the biochemical modelling community. In this work, we propose several GNN-based architectures to tackle the graph partitioning problem for Markov Chains described as kinetic networks. This approach aims to minimize how much a proposed partitioning changes the Kemeny constant. We propose using an encoder-decoder architecture and show how simple GraphSAGE-based GNNs with linear layers can outperform much larger and more expressive attention-based models in this context. As a proof of concept, we first demonstrate the method's ability to cluster randomly connected graphs. We also use a linear chain architecture corresponding to a 1D free energy profile as our kinetic network. Subsequently, we demonstrate the effectiveness of our method through experiments on a data set derived from molecular dynamics. We compare the performance of our method to other partitioning techniques such as PCCA+. We explore the importance of feature and hyperparameter selection and propose a general strategy for large-scale parallel training of GNNs for discovering optimal graph partitionings.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# コヒーレント相互作用のないノイズ検出

Coherent interaction-free detection of noise ( http://arxiv.org/abs/2312.17190v2 )

ライセンス: Link先を確認
John J. McCord, Shruti Dogra, Gheorghe Sorin Paraoanu, (参考訳) ノイズの測定とキャラクタリゼーションは、メソスコピック物理学の研究の盛んな領域である。 本研究では,ノイズ検出手法としてのインタラクションフリー計測を提案し,コヒーレントと射影的実現という,概念的に異なる2つのスキームを探索する。 これらの検出器は、第2の遷移が振幅または位相のノイズを持つ振動場に共鳴的に結合されるクエットからなる。 比較のために、この文脈で以前に議論されたより標準的な検出器、すなわちノイズ源と同じような方法で結合されたキュービットを考える。 量子ビット方式は明確な利点があり、ノイズの正確な検出とキャラクタリゼーションが可能であるが、キュービットはそうではない。 最後に,検出器の信号における雑音相関のシグネチャについて検討する。

The measurement and characterization of noise is a flourishing area of research in mesoscopic physics. In this work, we propose interaction-free measurements as a noise-detection technique, exploring two conceptually different schemes: the coherent and the projective realizations. These detectors consist of a qutrit whose second transition is resonantly coupled to an oscillatory field that may have noise in amplitude or phase. For comparison, we consider a more standard detector previously discussed in this context: a qubit coupled in a similar way to the noise source. We find that the qutrit scheme offers clear advantages, allowing precise detection and characterization of the noise, while the qubit does not. Finally, we study the signature of noise correlations in the detector's signal.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# バイアス雑音に適応した曲面符号の有限サイズ補正に関する厳密な結果

Exact results on finite size corrections for surface codes tailored to biased noise ( http://arxiv.org/abs/2401.04008v2 )

ライセンス: Link先を確認
Yinzi Xiao, Basudha Srivastava, Mats Granath, (参考訳) スケーラブルな量子誤差補正安定化器符号の符号容量閾値は、対応するランダムボンドイジングモデルの熱力学的相転移として表すことができる。 ここでは、位相バイアス雑音(p_x=p_y=p_z/(2\eta)$,$\eta\geq 1/2$,および総誤差率$p=p_x+p_y+p_z$)の下で、XYおよびXZX曲面符号について検討する。 境界条件を適切に定式化することにより、回転符号幾何学において、任意の奇符号距離$d$に対して、特別な乱点の正確な解が $p=\frac{1+\eta^{-1}}{2+\eta^{-1}}\gtrsim 0.5$ となる。 総論理失敗率は$P_{f}=\frac{3}{4}-\frac{1}{4}e^{-2d_Z\,\text{artanh}(1/2\eta)}$で与えられる。 その結果、コード距離$d\ll \eta$としきい値付近のエラー率に対して、XZZX符号は事実上、$d$ qubits以上の位相フリップ補正符号と等価である。 d_Z<\eta$に対する大きな有限サイズ補正も、適度な符号距離での数値計算からしきい値抽出を行う。 我々は,論理的失敗率の総数だけでなく,位相とビットフリップの論理的失敗率の独立性に基づくしきい値を計算することにより,より確実な推定値が得られることを示した。 テンソルネットワークベースのデコーダと$d\approx 100$までのコード距離を持つXZX符号のこの方法を用いて、しきい値がハッシングバウンダリ以上のエラーレートで、適度なバイアス($\eta=30, 100$)で1つの値に収束することがわかった。

The code-capacity threshold of a scalable quantum error correcting stabilizer code can be expressed as a thermodynamic phase transition of a corresponding random-bond Ising model. Here we study the XY and XZZX surface codes under phase-biased noise, $p_x=p_y=p_z/(2\eta)$, with $\eta\geq 1/2$, and total error rate $p=p_x+p_y+p_z$. By appropriately formulating the boundary conditions, in the rotated code geometry, we find exact solutions at a special disordered point, $p=\frac{1+\eta^{-1}}{2+\eta^{-1}}\gtrsim 0.5$, for arbitrary odd code distance $d$, where the codes reduce to one-dimensional Ising models. The total logical failure rate is given by $P_{f}=\frac{3}{4}-\frac{1}{4}e^{-2d_Z\,\text{artanh}(1/2\eta)}$, where $d_{Z}=d^2$ and $d$ for the two codes respectively, is the effective code distance for pure phase-flip noise. As a consequence, for code distances $d\ll \eta$, and error rates near the threshold, the XZZX code is effectively equivalent to the phase-flip correcting repetition code over $d$ qubits. The large finite size corrections for $d_Z<\eta$ also make threshold extractions, from numerical calculations at moderate code distances, unreliable. We show that calculating thresholds based not only on the total logical failure rate, but also independently on the phase- and bit-flip logical failure rates, gives a more confident estimate. Using this method for the XZZX code with a tensor-network based decoder and code distances up to $d\approx 100$, we find that the thresholds converge to a single value at moderate bias ($\eta=30, 100$), at an error rate above the hashing bound.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# クン氏:中国における自己調整のバックトランスレーションの実施を問う

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation ( http://arxiv.org/abs/2401.06477v3 )

ライセンス: Link先を確認
Tianyu Zheng, Shuyue Guo, Xingwei Qu, Jiawei Guo, Xinrun Du, Qi Jia, Chenghua Lin, Wenhao Huang, Jie Fu, Ge Zhang, (参考訳) 本稿では,手動のアノテーションに頼ることなく,大規模言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチであるKunを紹介する。 命令のバックトランスレーションと回答の洗練に基づいて自己学習アルゴリズムを適用することで、KunはWudao、Wanjuan、SkyPileといったさまざまなソースから収集された、100万以上の中国語の命令データポイントの実質的なデータセットを生成する。 このアプローチは、自己計算プロセスを使用して、最も効果的な命令と出力のペアを洗練し、選択することで、従来の方法から著しく逸脱する。 様々なベンチマークを用いた6BパラメータYiモデルによる実験は、Kunの堅牢性とスケーラビリティを実証する。 提案手法の中核となる貢献は,データの保持と明快さを高めるアルゴリズムの進歩と,コストと時間のかかる手動アノテーションへの依存を著しく低減する革新的なデータ生成アプローチにある。 本手法は,LLMの命令追従能力を向上させるためのスケーラブルで効率的なソリューションを提供する。 コードとデータセットはhttps://github.com/Zheng0428/COIG-Kunで確認できる。

In this paper, we introduce Kun, a novel approach for creating high-quality instruction-tuning datasets for large language models (LLMs) without relying on manual annotations. Adapting a self-training algorithm based on instruction back-translation and answer polishment, Kun leverages unlabelled data from diverse sources such as Wudao, Wanjuan, and SkyPile to generate a substantial dataset of over a million Chinese instructional data points. This approach significantly deviates from traditional methods by using a self-curation process to refine and select the most effective instruction-output pairs. Our experiments with the 6B-parameter Yi model across various benchmarks demonstrate Kun's robustness and scalability. Our method's core contributions lie in its algorithmic advancement, which enhances data retention and clarity, and its innovative data generation approach that substantially reduces the reliance on costly and time-consuming manual annotations. This methodology presents a scalable and efficient solution for improving the instruction-following capabilities of LLMs, with significant implications for their application across diverse fields. The code and dataset can be found at https://github.com/Zheng0428/COIG-Kun
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# 一般化不確かさ原理による量子力学の超対称性

Supersymmetry in Quantum Mechanics by Generalized Uncertainty Principle ( http://arxiv.org/abs/2401.06819v2 )

ライセンス: Link先を確認
Meysam Hassandoust, (参考訳) 本稿では、一般化不確実性原理(GUP)を用いて量子力学における超対称性を研究する。 GUP から導かれる運動量作用素の一般化形式で超対称性を構築する。 生成と消滅作用素を一般化することにより、超対称性を一般化状態に変換することができる。 以下に示すように、一般化ハミルトニアンに対するシュリンガー方程式の解法について述べる。 この困難を克服するために、我々は摂動理論を用いて、生成演算子と消滅演算子の関係を確立する。 この方程式を解析的に解き、波動関数とエネルギー準位を利用することにより、新しいポテンシャルに対する波動関数とエネルギー準位の生成と消滅演算子を用いて新しいポテンシャルを生成できる。

In this paper, we study supersymmetry in quantum mechanics using the generalized uncertainty principle (GUP), or in other words, generalized supersymmetry in quantum mechanics. We construct supersymmetry in the generalized form of the momentum operator, which is derived from GUP. By generalizing the creation and annihilation operators, we can transform the supersymmetry into a generalized state. In the following, we address the challenge of solving the Schr\"odinger equation for the generalized Hamiltonian. To overcome this difficulty, we employ perturbation theory to establish a relationship between the creation and annihilation operators. By solving this equation analytically and utilizing wave functions and energy levels, we can generate new potentials using the creation and annihilation operators of the wave functions and energy levels for the newer potentials.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# 配向バウンディングボックス型セグメンテーションモデルを用いた効率的なインスタンス分割フレームワーク

An Efficient Instance Segmentation Framework Using Segmentation Foundation Models with Oriented Bounding Box Prompts ( http://arxiv.org/abs/2401.08174v5 )

ライセンス: Link先を確認
Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan, (参考訳) 無人航空機計測におけるケースセグメンテーションは長年の課題である。 水平バウンディングボックスは多くの干渉オブジェクトを導入しているため、通常、向き付けられたバウンディングボックス(OBB)がインスタンス識別に使用される。 しかし、''境界ボックス内でのセグメンテーション'のパラダイムに基づいて、OBBを使った現在のインスタンスセグメンテーションメソッドは、境界ボックス検出性能に過度に依存している。 そこで本研究では,OBBを用いた効率的なインスタンスセグメンテーションフレームワークOBSegを提案する。 OBSegはボックスプロンプトベースのセグメンテーション基盤モデル(BSM)に基づいている。 具体的には、OBSegが最初にOBBを検出し、インスタンスを識別し、粗いローカライゼーション情報を提供する。 次に,OBBプロンプト関連マスクの微細セグメンテーションを予測した。 OBBはプロンプトとしてのみ機能するため、OBSegはOBBを用いた現在のインスタンスセグメンテーションメソッドのバウンディングボックス検出性能の過依存性を軽減する。 さらに,BSM が OBB プロンプトを扱えるようにするために,新しい OBB プロンプトエンコーダを提案する。 OBSegをより軽量化し, 軽量蒸留BSMの性能を向上させるため, ガウス平滑化に基づく知識蒸留法が導入された。 OBSegは、複数のパブリックデータセット上の現在のインスタンスセグメンテーションメソッドより優れていることを示す実験である。 コードはhttps://github.com/zhen6618/OBBInstanceSegmentationで入手できる。

Instance segmentation in unmanned aerial vehicle measurement is a long-standing challenge. Since horizontal bounding boxes introduce many interference objects, oriented bounding boxes (OBBs) are usually used for instance identification. However, based on ``segmentation within bounding box'' paradigm, current instance segmentation methods using OBBs are overly dependent on bounding box detection performance. To tackle this, this paper proposes OBSeg, an efficient instance segmentation framework using OBBs. OBSeg is based on box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, OBSeg first detects OBBs to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. Since OBBs only serve as prompts, OBSeg alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs. In addition, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make OBSeg more lightweight and further improve the performance of lightweight distilled BSMs, a Gaussian smoothing-based knowledge distillation method is introduced. Experiments demonstrate that OBSeg outperforms current instance segmentation methods on multiple public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# 人間の意思決定を評価する実験のための決定理論の基礎

Decision Theoretic Foundations for Experiments Evaluating Human Decisions ( http://arxiv.org/abs/2401.15106v3 )

ライセンス: Link先を確認
Jessica Hullman, Alex Kale, Jason Hartline, (参考訳) 意思決定にインフォメーションディスプレイがいかにうまく使われているかは、人間中心のAI、モデル説明可能性、データの可視化、関連する領域に主に関心がある。 しかし、決定問題を構成するものや、人間の決定が改善できることを示す研究に必要なものについては、憶測の余地が残されている。 本稿では,HCIにおいて人的意思決定を改善するための基準として,統計的決定理論と情報経済学から合成された意思決定問題の広く適用可能な定義を提案する。 我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。 実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。 偏見のある行動の特定を主張する39の研究のうち10(26\%)は、その行動が少なくとも1つの治療条件において良い意思決定から逸脱していると特徴付けるのに十分な情報を持っている。 我々は、よく定義された意思決定問題を研究することの価値を、彼らが認識できるパフォーマンス損失の特徴を説明することによって動機づける。 対照的に、コミュニケーションの不十分な決定問題の曖昧さは規範的解釈を妨げる。 私たちは練習の勧告で締めくくります。

DeHow well people use information displays to make decisions is of primary interest in human-centered AI, model explainability, data visualization, and related areas. However, what constitutes a decision problem, and what is required for a study to establish that human decisions could be improved remain open to speculation. We propose a widely applicable definition of a decision problem synthesized from statistical decision theory and information economics as a standard for establishing when human decisions can be improved in HCI. We argue that to attribute loss in human performance to forms of bias, an experiment must provide participants with the information that a rational agent would need to identify the utility-maximizing decision. As a demonstration, we evaluate the extent to which recent evaluations of decision-making from the literature on AI-assisted decisions achieve these criteria. We find that only 10 (26\%) of 39 studies that claim to identify biased behavior present participants with sufficient information to characterize their behavior as deviating from good decision-making in at least one treatment condition. We motivate the value of studying well-defined decision problems by describing a characterization of performance losses they allow us to conceive. In contrast, the ambiguities of a poorly communicated decision problem preclude normative interpretation. We conclude with recommendations for practice.
翻訳日:2024-09-07 04:11:38 公開日:2024-09-05
# LLM4Vuln: LLMの脆弱性推論の分離と強化のための統一評価フレームワーク

LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning ( http://arxiv.org/abs/2401.16185v2 )

ライセンス: Link先を確認
Yuqiang Sun, Daoyuan Wu, Yue Xue, Han Liu, Wei Ma, Lyuye Zhang, Yang Liu, Yingjiu Li, (参考訳) 大規模言語モデル(LLM)は、脆弱性検出を含む様々なタスクにおいて大きな可能性を証明している。 しかし、この分野での現在の取り組みは予備的であり、LSMの脆弱性推論能力がモデル自体に由来するのか、あるいは知識検索やツーリングサポートといった外部支援なのかを明確にしていない。 本稿では,脆弱性知識の導入,コンテキスト情報検索,構造化出力生成など,LLMの脆弱性推論を他の機能から分離することを目的とする。 LLM4Vulnは、LSMの脆弱性推論機能を分離し、評価し、他の拡張と組み合わせて改善を検討する統合評価フレームワークである。 LLM(GPT-4, GPT-3.5, Mixtral, Llama 3)の合計9,312のシナリオで, 地中真実の脆弱性97, 非加害ケース97, ソリティとJavaの非加害ケース97の制御実験を行った。 本研究は,知識の強化,文脈補足,素早いスキーム,モデルの影響を明らかにした。 さらに、4つのパイロットバグ報奨プログラムで14のゼロデイ脆弱性を特定しました。

Large language models (LLMs) have demonstrated significant potential in various tasks, including vulnerability detection. However, current efforts in this area are preliminary, lacking clarity on whether LLMs' vulnerability reasoning capabilities stem from the models themselves or external aids such as knowledge retrieval and tooling support. This paper aims to isolate LLMs' vulnerability reasoning from other capabilities, such as vulnerability knowledge adoption, context information retrieval, and structured output generation. We introduce LLM4Vuln, a unified evaluation framework that separates and assesses LLMs' vulnerability reasoning capabilities and examines improvements when combined with other enhancements. We conducted controlled experiments with 97 ground-truth vulnerabilities and 97 non-vulnerable cases in Solidity and Java, testing them in a total of 9,312 scenarios across four LLMs (GPT-4, GPT-3.5, Mixtral, and Llama 3). Our findings reveal the varying impacts of knowledge enhancement, context supplementation, prompt schemes, and models. Additionally, we identified 14 zero-day vulnerabilities in four pilot bug bounty programs, resulting in \$3,576 in bounties.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-05
# 動的ポートフォリオリスク管理のための深層強化学習によるマルチエージェント・自己適応型フレームワークの開発

Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management ( http://arxiv.org/abs/2402.00515v3 )

ライセンス: Link先を確認
Zhenglong Li, Vincent Tam, Kwan L. Yeung, (参考訳) 近年、高度に乱暴な金融市場環境下で、ポートフォリオ管理のための新たな投資戦略を迅速に学習し、対応するために、Deep or reinforcement Learning(RL)アプローチがリアクティブエージェントとして採用されている。 金融セクター間の非常に複雑な相関関係や、異なる金融市場の変動傾向により、グローバルまたは地域セクターの様々な市場条件の混乱の下で潜在的なリスクを無視しつつ、新たに構成された投資ポートフォリオの総リターンを最大化する際に、深層学習又は強化学習に基づくエージェントに偏りが生じることが多い。 したがって、マルチエージェントで自己適応的なフレームワークであるMASAは、2つの協調および反応性エージェントを通じて洗練されたマルチエージェント強化学習(RL)アプローチを採用し、ポートフォリオ全体のリターンと潜在的なリスクの間のトレードオフを慎重に動的にバランスさせる。 さらに、市場オブザーバとしての非常にフレキシブルで積極的なエージェントがMASAフレームワークに統合され、市場状況の変化に迅速に適応するために、マルチエージェントRLアプローチの貴重なフィードバックとして、市場動向に関する追加情報を提供する。 その結果,過去10年間のCSI 300, Dow Jones Industrial Average, S&P 500 インデックスの挑戦的データセットに対する多くの有名な RL アプローチに対するマルチエージェント RL アプローチに基づいて,提案した MASA フレームワークの潜在的強みを明らかにした。 さらに重要なことは、我々の提案したMASAフレームワークが将来の調査のために多くの可能性の方向を明かしたことです。

Deep or reinforcement learning (RL) approaches have been adapted as reactive agents to quickly learn and respond with new investment strategies for portfolio management under the highly turbulent financial market environments in recent years. In many cases, due to the very complex correlations among various financial sectors, and the fluctuating trends in different financial markets, a deep or reinforcement learning based agent can be biased in maximising the total returns of the newly formulated investment portfolio while neglecting its potential risks under the turmoil of various market conditions in the global or regional sectors. Accordingly, a multi-agent and self-adaptive framework namely the MASA is proposed in which a sophisticated multi-agent reinforcement learning (RL) approach is adopted through two cooperating and reactive agents to carefully and dynamically balance the trade-off between the overall portfolio returns and their potential risks. Besides, a very flexible and proactive agent as the market observer is integrated into the MASA framework to provide some additional information on the estimated market trends as valuable feedbacks for multi-agent RL approach to quickly adapt to the ever-changing market conditions. The obtained empirical results clearly reveal the potential strengths of our proposed MASA framework based on the multi-agent RL approach against many well-known RL-based approaches on the challenging data sets of the CSI 300, Dow Jones Industrial Average and S&P 500 indexes over the past 10 years. More importantly, our proposed MASA framework shed lights on many possible directions for future investigation.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-05
# 自動運転の基礎モデルに関する調査

A Survey for Foundation Models in Autonomous Driving ( http://arxiv.org/abs/2402.01105v4 )

ライセンス: Link先を確認
Haoxiang Gao, Zhongruo Wang, Yaqian Li, Kaiwen Long, Ming Yang, Yiqing Shen, (参考訳) 基礎モデルの出現は、自然言語処理とコンピュータビジョンの分野に革命をもたらした。 本調査は40以上の研究論文を総合的にレビューし,ADの強化における基礎モデルの役割を実証する。 大規模な言語モデルは、特に推論、コード生成、翻訳の習熟を通じて、ADにおける計画とシミュレーションに寄与する。 並行して、ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応し、シミュレーションやテストのための現実的な駆動シナリオを作成している。 多様な入力を統合するマルチモーダル基礎モデルでは、視覚的理解と空間的推論が極めて重要である。 本調査は,ADドメイン内のモダリティと機能に基づいて基礎モデルを分類し,構造的な分類法を提供するだけでなく,現在の研究で採用されている手法についても検討する。 既存の基盤モデルと最先端のADアプローチのギャップを特定し、将来の研究方向性をチャート化し、これらのギャップを埋めるためのロードマップを提案します。

The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-05
# 大規模言語モデルにおけるグループと対称性の原理の探索

Exploring Group and Symmetry Principles in Large Language Models ( http://arxiv.org/abs/2402.06120v3 )

ライセンス: Link先を確認
Shima Imani, Hamid Palangi, (参考訳) 大規模言語モデル(LLM)は、幅広いアプリケーションで素晴らしいパフォーマンスを示しているが、その推論能力を評価することは依然として大きな課題である。 本稿では,物理学や数学などの分野において重要な役割を担った群と対称性の原理に基づく枠組みを導入し,その能力を評価する別の方法を提案する。 提案するフレームワークは一般に,これらの特性を利用する利点を示すために, 4つの群特性(閉包, 同一性, 逆転, 連想性)に対する算術的推論とそれらのモデルの性能について検討する。 以上の結果から,LSMは様々な試験体制におけるグループ特性の維持に苦慮していることが明らかとなった。 閉鎖試験では,特定の出力に対するバイアスと,特定のシーケンス長の後に100%から0%の急激な性能低下が観察された。 それらはまた、文脈に無関係な情報を追加することを表すアイデンティティテストでは不十分であり、逆テストを受けると感度を示し、否定に関してモデルの堅牢性を調べる。 さらに,より小さなステップに分割することで,これまでに実施したアソシエーションテストにおいてLCMが有効であることを示す。 これらのテストをサポートするために、私たちは、リリース予定の合成データセットを開発しました。

Large Language Models (LLMs) have demonstrated impressive performance across a wide range of applications; however, assessing their reasoning capabilities remains a significant challenge. In this paper, we introduce a framework grounded in group and symmetry principles, which have played a crucial role in fields such as physics and mathematics, and offer another way to evaluate their capabilities. While the proposed framework is general, to showcase the benefits of employing these properties, we focus on arithmetic reasoning and investigate the performance of these models on four group properties: closure, identity, inverse, and associativity. Our findings reveal that LLMs studied in this work struggle to preserve group properties across different test regimes. In the closure test, we observe biases towards specific outputs and an abrupt degradation in their performance from 100% to 0% after a specific sequence length. They also perform poorly in the identity test, which represents adding irrelevant information in the context, and show sensitivity when subjected to inverse test, which examines the robustness of the model with respect to negation. In addition, we demonstrate that breaking down problems into smaller steps helps LLMs in the associativity test that we have conducted. To support these tests we have developed a synthetic dataset which will be released.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-05
# AICAttack: 注意に基づく最適化による敵対的イメージキャプション攻撃

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization ( http://arxiv.org/abs/2402.11940v3 )

ライセンス: Link先を確認
Jiyao Li, Mingze Ni, Yifei Dong, Tianqing Zhu, Wei Liu, (参考訳) 近年のディープラーニング研究の進歩は、コンピュータビジョン(CV)や自然言語処理(NLP)において、多くのタスクにおいて顕著な成果を上げている。 CVとNLPの交わりは画像キャプションの問題であり、敵攻撃に対する関連モデルの堅牢性は十分に研究されていない。 本稿では,画像上の微妙な摂動によって画像キャプションモデルを攻撃するために,新たな敵攻撃戦略であるAICAttackを提案する。 ブラックボックス攻撃シナリオ内で動作するため、ターゲットモデルのアーキテクチャ、パラメータ、勾配情報へのアクセスは不要である。 攻撃対象の画素を最適に識別するアテンションベースの候補選択機構を導入し,RGB値の摂動を最適化するための差分展開法をカスタマイズした。 複数の犠牲者モデルに対するベンチマークデータセットの広範な実験を通じて,AICAttackの有効性を実証する。 実験結果から,本手法は攻撃成功率を一定に高めることにより,従来の先行技術よりも優れた性能を示すことが示された。

Recent advances in deep learning research have shown remarkable achievements across many tasks in computer vision (CV) and natural language processing (NLP). At the intersection of CV and NLP is the problem of image captioning, where the related models' robustness against adversarial attacks has not been well studied. This paper presents a novel adversarial attack strategy, AICAttack (Attention-based Image Captioning Attack), designed to attack image captioning models through subtle perturbations on images. Operating within a black-box attack scenario, our algorithm requires no access to the target model's architecture, parameters, or gradient information. We introduce an attention-based candidate selection mechanism that identifies the optimal pixels to attack, followed by a customised differential evolution method to optimise the perturbations of pixels' RGB values. We demonstrate AICAttack's effectiveness through extensive experiments on benchmark datasets against multiple victim models. The experimental results demonstrate that our method outperforms current leading-edge techniques by achieving consistently higher attack success rates.
翻訳日:2024-09-07 03:56:02 公開日:2024-09-05
# Few-Shot Annotator Adaptationによるコスト効率の良い主観的タスクアノテーションとモデリング

Cost-Efficient Subjective Task Annotation and Modeling through Few-Shot Annotator Adaptation ( http://arxiv.org/abs/2402.14101v2 )

ライセンス: Link先を確認
Preni Golazizian, Alireza S. Ziabari, Ali Omrani, Morteza Dehghani, (参考訳) 単元真理が存在しない主観的NLPタスクでは、アノテーションに固有の視点が大きな影響を与えるため、多元的アノテータの含みが重要となる。 現実的なシナリオでは、アノテーションの予算はデータとその後のモデリングに含まれる視点(アノテーション)の数の主要な決定要因となることが多い。 本稿では,各アノテータの予測性能を最大化しつつ,アノテーション予算を最小化することを目的とした,主観的タスクにおけるアノテーション収集とモデリングのための新しいフレームワークを提案する。 ひとつは、マルチタスクモデルを構築するために、小さなアノテータセットに依存し、もうひとつは、アノテータ毎にいくつかのサンプルを戦略的にアノテートすることで、新しい視点でモデルを拡張することです。 当社のフレームワークを大規模にテストするために、2000年のReddit投稿のユニークなデータセットであるMoral Foundations Subjective Corpusを導入、リリースしました。 我々は、アノテータの個々の視点を、2つのデータセットに対するオリジナルのアノテーション予算の25%に満たない形でキャプチャする上で、我々のフレームワークが以前のSOTAを上回ることを実証した。 さらに,本フレームワークは,アノテータ間の性能格差を低減し,より公平なモデルを実現する。

In subjective NLP tasks, where a single ground truth does not exist, the inclusion of diverse annotators becomes crucial as their unique perspectives significantly influence the annotations. In realistic scenarios, the annotation budget often becomes the main determinant of the number of perspectives (i.e., annotators) included in the data and subsequent modeling. We introduce a novel framework for annotation collection and modeling in subjective tasks that aims to minimize the annotation budget while maximizing the predictive performance for each annotator. Our framework has a two-stage design: first, we rely on a small set of annotators to build a multitask model, and second, we augment the model for a new perspective by strategically annotating a few samples per annotator. To test our framework at scale, we introduce and release a unique dataset, Moral Foundations Subjective Corpus, of 2000 Reddit posts annotated by 24 annotators for moral sentiment. We demonstrate that our framework surpasses the previous SOTA in capturing the annotators' individual perspectives with as little as 25% of the original annotation budget on two datasets. Furthermore, our framework results in more equitable models, reducing the performance disparity among annotators.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# NL2GQLのためのドメイン固有グラフデータベースへの大規模言語モデルのアラインメント

Aligning Large Language Models to a Domain-specific Graph Database for NL2GQL ( http://arxiv.org/abs/2402.16567v3 )

ライセンス: Link先を確認
Yuanyuan Liang, Keren Tan, Tingyu Xie, Wenbiao Tao, Siyuan Wang, Yunshi Lan, Weining Qian, (参考訳) グラフデータベース(Graph DB)は、ファイナンス、ソーシャルネットワーク、医療など、さまざまな分野にまたがる広範なアプリケーションを見つける。 しかし、自然言語(NL)からグラフクエリ言語(GQL)への変換(NL2GQL)は、複雑で専門的な性質のため、大きな課題を生んでいる。 text2SQLのような類似タスクに対処するために、LLM(Large Language Models)を利用するアプローチもある。 それでも、特定のドメインに合わせたNL2GQLタスクの領域では、ドメイン固有のNL-GQLデータペアが存在しないため、LLMとグラフDBの整合が複雑になる。 この課題に対処するために、明確に定義されたパイプラインを提示します。 当初、我々はChatGPTを使用してNL-GQLデータペアを生成し、提供されたグラフDBを自己インストラクションで活用した。 その後、生成されたデータを用いてLLMを微調整し、LLMとグラフDBの整合性を確保する。 さらに、正確なGQLを効率的に生成する上で、関連するスキーマの重要性も見出す。 そこで本研究では,関連するスキーマを入力コンテキストとして抽出する手法を提案する。 ファイナンスおよび医療分野におけるグラフDBから抽出した2つの慎重に構築されたデータセットを用いて,本手法の評価を行った。 実験の結果,EMでは5.90点,EMでは6.36点,FinGQLでは6.00点,MedGQLでは7.09点,それぞれ改善された。

Graph Databases (Graph DB) find extensive application across diverse domains such as finance, social networks, and medicine. Yet, the translation of Natural Language (NL) into the Graph Query Language (GQL), referred to as NL2GQL, poses significant challenges owing to its intricate and specialized nature. Some approaches have sought to utilize Large Language Models (LLMs) to address analogous tasks like text2SQL. Nonetheless, in the realm of NL2GQL tasks tailored to a particular domain, the absence of domain-specific NL-GQL data pairs adds complexity to aligning LLMs with the graph DB. To tackle this challenge, we present a well-defined pipeline. Initially, we utilize ChatGPT to generate NL-GQL data pairs, leveraging the provided graph DB with self-instruction. Subsequently, we employ the generated data to fine-tune LLMs, ensuring alignment between LLMs and the graph DB. Moreover, we find the importance of relevant schema in efficiently generating accurate GQLs. Thus, we introduce a method to extract relevant schema as the input context. We evaluate our method using two carefully constructed datasets derived from graph DBs in the finance and medicine domains, named FinGQL and MediGQL. Experimental results reveal that our approach significantly outperforms a set of baseline methods, with improvements of 5.90 and 6.36 absolute points on EM, and 6.00 and 7.09 absolute points on EX for FinGQL and MediGQL, respectively.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# アンチウイルスの訓練方法 - 問題空間におけるRLベースのハードニング-

How to Train your Antivirus: RL-based Hardening through the Problem-Space ( http://arxiv.org/abs/2402.19027v2 )

ライセンス: Link先を確認
Ilias Tsingenopoulos, Jacopo Cortellazzi, Branislav Bošanský, Simone Aonzo, Davy Preuveneers, Wouter Joosen, Fabio Pierazzi, Lorenzo Cavallaro, (参考訳) 動的解析レポートに基づくMLベースのマルウェア検出は、回避と急激な相関の両方に対して脆弱である。 本研究では,広く知られた商用アンチウイルス企業のパイプラインで使用される特定のMLアーキテクチャについて検討し,敵のマルウェアに対して強化することを目的とした。 経験的ロバスト性を与える唯一の防御技術である逆行訓練は、この領域では適用できないが、勾配に基づく摂動が実現可能な問題空間プログラムにはほとんどマッピングされない主な理由である。 本稿では,敵のモデル構築のための新たな強化学習手法を提案する。 私たちのアプローチにはいくつかの利点があります。 問題空間で実現可能な修正を行い、それらのみを実行するため、逆写像問題を回避できる。 また、特定の敵対的能力のセットに対するモデルの堅牢性に関する理論的保証を提供することもできる。 私たちの経験的調査は、数回の逆行的な反復の後、継続的に0%のアタック成功率に到達するという、理論的な洞察を検証します。

ML-based malware detection on dynamic analysis reports is vulnerable to both evasion and spurious correlations. In this work, we investigate a specific ML architecture employed in the pipeline of a widely-known commercial antivirus company, with the goal to harden it against adversarial malware. Adversarial training, the sole defensive technique that can confer empirical robustness, is not applicable out of the box in this domain, for the principal reason that gradient-based perturbations rarely map back to feasible problem-space programs. We introduce a novel Reinforcement Learning approach for constructing adversarial examples, a constituent part of adversarially training a model against evasion. Our approach comes with multiple advantages. It performs modifications that are feasible in the problem-space, and only those; thus it circumvents the inverse mapping problem. It also makes possible to provide theoretical guarantees on the robustness of the model against a particular set of adversarial capabilities. Our empirical exploration validates our theoretical insights, where we can consistently reach 0% Attack Success Rate after a few adversarial retraining iterations.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# ソフトQ-Learningの有限時間誤差解析:スイッチングシステムアプローチ

Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach ( http://arxiv.org/abs/2403.06366v3 )

ライセンス: Link先を確認
Narim Jeong, Donghwan Lee, (参考訳) ソフトQ-ラーニングは、エージェントがエントロピー正規化値関数を最大化することを目的としたマルコフ決定問題を解くために設計されたQ-ラーニングのバリエーションである。 実証的な成功にもかかわらず、ソフトQラーニングの理論的な研究はこれまで限られている。 本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。 本稿では,log-sum-exp演算子とBoltzmann演算子を用いた2種類のソフトQ-ラーニングアルゴリズムに着目した。 動的切替システムモデルを用いて、両ソフトQ-ラーニングアルゴリズムに対して、新しい有限時間誤差境界を導出する。 我々は、システムモデルとの接続を確立することで、ソフトQ学習の現在の理解を深め、他の強化学習アルゴリズムの有限時間解析における新しいフレームワークの道を開くことを願っている。

Soft Q-learning is a variation of Q-learning designed to solve entropy regularized Markov decision problems where an agent aims to maximize the entropy regularized value function. Despite its empirical success, there have been limited theoretical studies of soft Q-learning to date. This paper aims to offer a novel and unified finite-time, control-theoretic analysis of soft Q-learning algorithms. We focus on two types of soft Q-learning algorithms: one utilizing the log-sum-exp operator and the other employing the Boltzmann operator. By using dynamical switching system models, we derive novel finite-time error bounds for both soft Q-learning algorithms. We hope that our analysis will deepen the current understanding of soft Q-learning by establishing connections with switching system models and may even pave the way for new frameworks in the finite-time analysis of other reinforcement learning algorithms.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# 実会議用話者分散ASRにおける話者アサインメントの改善

Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting Applications ( http://arxiv.org/abs/2403.06570v2 )

ライセンス: Link先を確認
Can Cui, Imran Ahamad Sheikh, Mostafa Sadeghi, Emmanuel Vincent, (参考訳) エンドツーエンドのミーティングの書き起こしに関する過去の研究は、モデルアーキテクチャに焦点を当てており、主にシミュレーションされたミーティングデータで評価されてきた。 本稿では,音声セグメントの話者割当てを改善するために,AMI会議コーパスなどの実生活シナリオにおける話者割当て型ASR(SA-ASR)システムの利用を最適化することを目的とした新しい研究を提案する。 まず、音声活動検出(VAD)、話者ダイアリゼーション(SD)、SA-ASRを含む実生活アプリケーションに適したパイプラインを提案する。 第2に、テスト中にVADセグメントにも適用可能であることを考慮して、SA-ASRモデルを微調整するためにVAD出力セグメントを使用することを提唱し、これが話者誤り率(SER)を28%まで減少させることを示す。 最後に,SA-ASRシステムによる入力として使用される話者埋め込みテンプレートの抽出方法を検討する。 注釈付き話者セグメントではなくSD出力から抽出すると、SERの相対的な削減率が20%になることを示す。

Past studies on end-to-end meeting transcription have focused on model architecture and have mostly been evaluated on simulated meeting data. We present a novel study aiming to optimize the use of a Speaker-Attributed ASR (SA-ASR) system in real-life scenarios, such as the AMI meeting corpus, for improved speaker assignment of speech segments. First, we propose a pipeline tailored to real-life applications involving Voice Activity Detection (VAD), Speaker Diarization (SD), and SA-ASR. Second, we advocate using VAD output segments to fine-tune the SA-ASR model, considering that it is also applied to VAD segments during test, and show that this results in a relative reduction of Speaker Error Rate (SER) up to 28%. Finally, we explore strategies to enhance the extraction of the speaker embedding templates used as inputs by the SA-ASR system. We show that extracting them from SD output rather than annotated speaker segments results in a relative SER reduction up to 20%.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# 分散コンピューティング 量子ユニタリ進化

Distributed computing quantum unitary evolution ( http://arxiv.org/abs/2403.06937v3 )

ライセンス: Link先を確認
Hui-hui Miao, Yuri Igorevich Ozhigov, (参考訳) 複雑な量子システムモデリングによって引き起こされる次元の呪いを解決するための分散コンピューティング手法について論じる。 キャノンのアルゴリズムの助けを借りて、量子ユニタリ進化をシミュレートする数値法の分散計算変換を実現する。 Tavis-Cummingsモデルに基づいて、スーパーコンピュータプラットフォーム上に実装された高次元量子クローズドシステムを得るために、光学キャビティに多数の原子を付加する。 異なる分散コンピューティング戦略の時間的コストと高速化の比較について論じる。

A distributed computing approach to solve the curse of dimensionality, caused by the complex quantum system modeling, is discussed. With the help of Cannon's algorithm, the distributed computing transformation of numerical method for simulating quantum unitary evolution is achieved. Based on the Tavis-Cummings model, a large number of atoms are added into the optical cavity to obtain a high-dimensional quantum closed system, implemented on the supercomputer platform. The comparison of time cost and speedup of different distributed computing strategies is discussed.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# 有限次元量子力学応用のスーパーコンピュータモデル

Supercomputer model of finite-dimensional quantum electrodynamics applications ( http://arxiv.org/abs/2403.07042v3 )

ライセンス: Link先を確認
Wanshun Li, Hui-hui Miao, Yuri Igorevich Ozhigov, (参考訳) 量子プロセスのスーパーコンピュータシミュレーションは、Jaynes-Cummings-HubbardモデルやTavis-Cummings-Hubbardモデルなど、有限次元空洞量子力学モデルの様々な修正によって説明される。 2つの例は水素結合の近似モデルと2次元平面上の光子運動のモデルである。

A general scheme is given for supercomputer simulation of quantum processes, which are described by various modifications of finite-dimensional cavity quantum electrodynamics models, including Jaynes-Cummings-Hubbard model and Tavis-Cummings-Hubbard model. Conclusions and recommendations are illustrated using two examples: approximate model of hydrogen bonding and model of photon motion on a two-dimensional plane.
翻訳日:2024-09-07 03:42:07 公開日:2024-09-05
# Mesh2NeRF: ニューラルラジアンスフィールド表現と生成のためのダイレクトメッシュスーパービジョン

Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation ( http://arxiv.org/abs/2403.19319v2 )

ライセンス: Link先を確認
Yujin Chen, Yinyu Nie, Benjamin Ummenhofer, Reiner Birkl, Michael Paulitsch, Matthias Müller, Matthias Nießner, (参考訳) 本稿では,3次元生成タスクのためのテクスチャメッシュから地中構造放射場を導出するMesh2NeRFを提案する。 多くの3D生成アプローチは3Dシーンをトレーニングのための放射場として表現している。 それらの地平線放射場は、通常、大規模な合成3Dデータセットからのマルチビューレンダリングが組み込まれており、多くの場合、閉塞や不適合の問題によるアーティファクトが生じる。 そこで,Mesh2NeRFでは,3次元メッシュから地中構造ラジアンス場を直接取得する解析解を提案し,表面の厚みを規定した占有関数で密度場を特徴付けるとともに,メッシュと環境光の両方を考慮した反射関数によるビュー依存色を決定する。 Mesh2NeRFは、生成型NeRFと単一シーン表現のトレーニングのための直接監督を提供する正確な放射場を抽出する。 各種タスクにおけるMesh2NeRFの有効性を検証し,ABOデータセット上での単一シーン表現におけるPSNRの3.12dB向上,ShapeNetカーの単一条件生成における0.69 PSNR向上,およびObjaverse Mugsの非条件生成におけるNeRFからのメッシュ抽出の改善など,PSNRの注目すべき3.12dB向上を実現した。

We present Mesh2NeRF, an approach to derive ground-truth radiance fields from textured meshes for 3D generation tasks. Many 3D generative approaches represent 3D scenes as radiance fields for training. Their ground-truth radiance fields are usually fitted from multi-view renderings from a large-scale synthetic 3D dataset, which often results in artifacts due to occlusions or under-fitting issues. In Mesh2NeRF, we propose an analytic solution to directly obtain ground-truth radiance fields from 3D meshes, characterizing the density field with an occupancy function featuring a defined surface thickness, and determining view-dependent color through a reflection function considering both the mesh and environment lighting. Mesh2NeRF extracts accurate radiance fields which provides direct supervision for training generative NeRFs and single scene representation. We validate the effectiveness of Mesh2NeRF across various tasks, achieving a noteworthy 3.12dB improvement in PSNR for view synthesis in single scene representation on the ABO dataset, a 0.69 PSNR enhancement in the single-view conditional generation of ShapeNet Cars, and notably improved mesh extraction from NeRF in the unconditional generation of Objaverse Mugs.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-05
# PointCloud-Text Matching:ベンチマークデータセットとベースライン

PointCloud-Text Matching: Benchmark Datasets and a Baseline ( http://arxiv.org/abs/2403.19386v2 )

ライセンス: Link先を確認
Yanglin Feng, Yang Qin, Dezhong Peng, Hongyuan Zhu, Xi Peng, Peng Hu, (参考訳) 本稿では、与えられたポイントクラウドクエリやテキストクエリと一致する正確なクロスモーダルなインスタンスを見つけることを目的として、新しいインスタンスレベルの検索タスクであるPointCloud-Text Matching~(PTM)を提示、研究する。 PTMは屋内/都市キャニオンのローカライゼーションやシーン検索といった様々なシナリオに適用できる。 しかし、実際にPTMに適したターゲットデータセットは存在しない。 そこで我々は,3D2T-SR,3D2T-NR,3D2T-QAという3つの新しいベンチマークデータセットを構築した。 本研究は, テキストのあいまいさ, 曖昧さ, 不完全さなどにより, PTMにおいて既存のクロスモーダルマッチング手法が有効でないため, データの難易度, ノイズ, ノイズ, 障害等により, ノイズ対応が困難であることを示す。 これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。 RoMaはDAP(Dual Attention Perception Module)とRNCL(Robust Negative Contrastive Learning Module)の2つのモジュールで構成されている。 特に、DAPはトークンレベルと特徴レベルの注意を生かして、有用な局所的・グローバル的特徴に適応的に焦点を合わせ、それらを共通の表現に集約することで、ノイズやあいまいさの悪影響を低減する。 雑音対応を扱うため、RNCLは正のペアよりもはるかに誤差の少ない負のペアを清浄なサブセットと雑音の多いサブセットに分割し、それぞれ前方と逆の最適化方向を割り当て、ノイズ対応に対する堅牢性を高める。 ベンチマークで広範な実験を行い、RoMaの優位性を実証する。

In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching~(PTM), which aims to find the exact cross-modal instance that matches a given point-cloud query or text query. PTM could be applied to various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there exists no suitable and targeted dataset for PTM in practice. Therefore, we construct three new PTM benchmark datasets, namely 3D2T-SR, 3D2T-NR, and 3D2T-QA. We observe that the data is challenging and with noisy correspondence due to the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which make existing cross-modal matching methods ineffective for PTM. To tackle these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL divides negative pairs, which are much less error-prone than positive pairs, into clean and noisy subsets, and assigns them forward and reverse optimization directions respectively, thus enhancing robustness against noisy correspondence. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-05
# 散逸性空洞への結合による原子相関のダイナミクスの制御

Controlling the dynamics of atomic correlations via the coupling to a dissipative cavity ( http://arxiv.org/abs/2403.20096v2 )

ライセンス: Link先を確認
Catalin-Mihai Halati, Ameneh Sheikhan, Giovanna Morigi, Corinna Kollath, (参考訳) 我々は,接点相互作用と大域相互作用の両方を介して相互作用する格子内のボソンの量子ガスによって構成される開放系の緩和ダイナミクスを解析する。 量子クエンチ後に同期を示す原子コヒーレンスの周期振動の開始を報告する。 動的挙動は、原子コヒーレンスの多体崩壊と復活を示し、キャビティ場の量子散逸性の性質と、散逸系における(近似的な)強い対称性の存在の相互作用から生じる。 さらに、近似対称性が動的に自己組織化可能であることを示す。 近似対称性は長寿命コヒーレンスを得るために調整できると主張する。 これらの洞察は、グローバルな相互作用システムのダイナミクスを設計するための一般的なレシピを提供する。

We analyze the relaxation dynamics in an open system, composed by a quantum gas of bosons in a lattice interacting via both contact and global interactions. We report the onset of periodic oscillations of the atomic coherences exhibiting hallmarks of synchronization after a quantum quench. The dynamical behavior exhibits the many-body collapse and revival of atomic coherences and emerges from the interplay of the quantum dissipative nature of the cavity field and the presence of a (approximate) strong symmetry in the dissipative system. We further show that the approximate symmetry can dynamically self-organize. We argue that the approximate symmetry can be tailored to obtain long-lived coherences. These insights provide a general recipe to engineer the dynamics of globally-interacting systems.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-05
# 有限サンプル周波数領域同定

Finite Sample Frequency Domain Identification ( http://arxiv.org/abs/2404.01100v2 )

ライセンス: Link先を確認
Anastasios Tsiamis, Mohamed Abdalmoaty, Roy S. Smith, John Lygeros, (参考訳) 有限サンプルの観点から非パラメトリック周波数領域同定について検討する。 本研究では、励起入力が周期的である開ループシナリオを仮定し、所定の所望の(偶発的な)周波数での周波数応答を入力出力サンプルとして推定することを目的とする経験的伝達関数推定(ETFE)を考察する。 本研究では,ガウス色以下の雑音(時間領域)と安定性仮定の下では,ETFE推定値が真の値を中心に集中していることを示す。 エラーレートは$\mathcal{O}((d_{\mathrm{u}}+\sqrt{d_{\mathrm{u}}d_{\mathrm{y}}})\sqrt{M/N_{\mathrm{tot}}})$の順である。 この速度は一般的な不合理移動関数に対して有効であり、有限次状態空間表現を必要としない。 M$をチューニングすることで、$ \mathcal{H}_{\infty}$ノルムのすべての周波数上の周波数応答を学習するための$N_{\mathrm{tot}}^{-1/3}$有限サンプルレートを得る。 この結果は半無限行列へのハンソン・ライトの不等式の拡張に導かれる。 ETFEの有限サンプル挙動をシミュレーションで調べる。

We study non-parametric frequency-domain system identification from a finite-sample perspective. We assume an open loop scenario where the excitation input is periodic and consider the Empirical Transfer Function Estimate (ETFE), where the goal is to estimate the frequency response at certain desired (evenly-spaced) frequencies, given input-output samples. We show that under sub-Gaussian colored noise (in time-domain) and stability assumptions, the ETFE estimates are concentrated around the true values. The error rate is of the order of $\mathcal{O}((d_{\mathrm{u}}+\sqrt{d_{\mathrm{u}}d_{\mathrm{y}}})\sqrt{M/N_{\mathrm{tot}}})$, where $N_{\mathrm{tot}}$ is the total number of samples, $M$ is the number of desired frequencies, and $d_{\mathrm{u}},\,d_{\mathrm{y}}$ are the dimensions of the input and output signals respectively. This rate remains valid for general irrational transfer functions and does not require a finite order state-space representation. By tuning $M$, we obtain a $N_{\mathrm{tot}}^{-1/3}$ finite-sample rate for learning the frequency response over all frequencies in the $ \mathcal{H}_{\infty}$ norm. Our result draws upon an extension of the Hanson-Wright inequality to semi-infinite matrices. We study the finite-sample behavior of ETFE in simulations.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-05
# スキッドステアリングロボットの運動モデルのオンライン校正による高結合LiDAR-IMU-Wheelオドメトリー

Tightly-Coupled LiDAR-IMU-Wheel Odometry with Online Calibration of a Kinematic Model for Skid-Steering Robots ( http://arxiv.org/abs/2404.02515v2 )

ライセンス: Link先を確認
Taku Okawara, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno, Kentaro Uno, Kazuya Yoshida, (参考訳) トンネルと長い廊下は、これらの環境でLiDARポイントクラウドが縮退するので、移動ロボットにとって困難な環境である。 そこで本研究では,スイドステアリングロボットのオンラインキャリブレーションを用いたLiDAR-IMU-wheel odometryアルゴリズムを提案する。 運動制約として機能するだけでなく,スキッドステアリングロボットのキネマティックモデルのオンラインキャリブレーションも行う。 動的に変化する運動モデル(例えばタイヤ圧力による車輪半径の変化)と地形条件にもかかわらず,本手法はオンラインキャリブレーションによるモデル誤差に対処できる。 さらに,LiDAR-IMU融合が十分に作動している間のキャリブレーションにより,長い廊下や直線廊下などの劣化環境の正確な位置決めが可能となった。 さらに、合理的な制約を作成するために、車輪のオドメトリーの不確実性(すなわち共分散行列)をオンラインで推定する。 提案手法は3つの実験により検証した。 最初の室内実験では、本手法は重度縮退例(長い回廊)において頑健であり、車輪半径の変化が認められた。 第2回屋外実験では, 車輪形状のオンライン不確実性評価により, 屋外の荒地において, センサの軌跡を正確に推定できることが実証された。 第3の実験では、提案したオンラインキャリブレーションにより、地形変化におけるロバストなオドメトリー推定が可能となった。

Tunnels and long corridors are challenging environments for mobile robots because a LiDAR point cloud should degenerate in these environments. To tackle point cloud degeneration, this study presents a tightly-coupled LiDAR-IMU-wheel odometry algorithm with an online calibration for skid-steering robots. We propose a full linear wheel odometry factor, which not only serves as a motion constraint but also performs the online calibration of kinematic models for skid-steering robots. Despite the dynamically changing kinematic model (e.g., wheel radii changes caused by tire pressures) and terrain conditions, our method can address the model error via online calibration. Moreover, our method enables an accurate localization in cases of degenerated environments, such as long and straight corridors, by calibration while the LiDAR-IMU fusion sufficiently operates. Furthermore, we estimate the uncertainty (i.e., covariance matrix) of the wheel odometry online for creating a reasonable constraint. The proposed method is validated through three experiments. The first indoor experiment shows that the proposed method is robust in severe degeneracy cases (long corridors) and changes in the wheel radii. The second outdoor experiment demonstrates that our method accurately estimates the sensor trajectory despite being in rough outdoor terrain owing to online uncertainty estimation of wheel odometry. The third experiment shows the proposed online calibration enables robust odometry estimation in changing terrains.
翻訳日:2024-09-07 03:32:18 公開日:2024-09-05
# 2レベルエミッタによるプロパゲーティング光子のサブトラクションと付加

Subtraction and Addition of Propagating Photons by Two-Level Emitters ( http://arxiv.org/abs/2404.12328v2 )

ライセンス: Link先を確認
Mads M. Lund, Fan Yang, Victor Rueskov Christiansen, Danil Kornovan, Klaus Mølmer, (参考訳) 光の量子状態のコヒーレントな操作は、フォトニック量子情報処理の鍵となる。 このレターでは、非ガウス量子演算を伝搬場モードに実装するのに、受動的2レベル非線形性が十分であることを示す。 特に、集合光源相互作用は、多光子入力波パケットから単一の光子を直交時間モードに効率的に抽出することができる。 直観的量子軌道モデルの要素による単一光子サブトラクション過程を正確に記述する。 このプロセスを用いることで、量子情報プロトコルは、線形光学による隠蔽されたスキームよりも、桁違いに効率が向上する。 逆過程は、単一のウェーブ・パケット・モードに1対1の光子を加え、有限の総成功確率$>96.7\%$で任意に大きなフォック状態を構成するのに使うことができる。

Coherent manipulation of quantum states of light is key to photonic quantum information processing. In this Letter, we show that a passive two-level nonlinearity suffices to implement non-Gaussian quantum operations on propagating field modes. In particular, the collective light-matter interaction can efficiently extract a single photon from a multi-photon input wave packet to an orthogonal temporal mode. We accurately describe the single-photon subtraction process by elements of an intuitive quantum-trajectory model. By employing this process, quantum information protocols gain orders of magnitude improved efficiency over heralded schemes with linear optics. The reverse process can be used to add photons one-by-one to a single wave-packet mode and compose arbitrarily large Fock states with a finite total success probability $>96.7\%$.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-05
# USB顕微鏡画像と携帯型蛍光X線分析による土壌肥厚パラメータの予測

Prediction of soil fertility parameters using USB-microscope imagery and portable X-ray fluorescence spectrometry ( http://arxiv.org/abs/2404.12415v2 )

ライセンス: Link先を確認
Shubhadip Dasgupta, Satwik Pate, Divya Rathore, L. G. Divyanth, Ayan Das, Anshuman Nayak, Subhadip Dey, Asim Biswas, David C. Weindorf, Bin Li, Sergio Henrique Godinho Silva, Bruno Teixeira Ribeiro, Sanjay Srivastava, Somsubhra Chakraborty, (参考訳) 本研究は, 可溶性ホウ素 (B), 有機炭素 (OC), 可溶性マンガン (Mn), 可溶性硫黄 (S), 可溶性硫黄 (SAI) などの指標に着目し, 可溶性X線分析および土壌画像解析による土壌肥厚評価を行った。 インド東部の多様な農業気候帯から採取した1,133個の土壌サンプルを分析した。 この研究は、ランダムフォレストモデルを用いて、顕微鏡的な土壌画像、PXRFデータ、補助的な土壌変数(AV)から色とテクスチャを統合した。 その結果,画像特徴量(IFs)とAVsを組み合わせることで,B (R2 = 0.80) とOC (R2 = 0.88) の予測精度が有意に向上した。 IF、AV、PXRFデータを組み込んだデータ融合手法により、利用可能なMnとSAIの予測がさらに強化され、それぞれ0.72と0.70のR2値が得られた。 この研究は、これらの技術を統合して、迅速で費用効果の高い土壌試験方法を提供し、より高度な予測モデルと土壌の肥大性のより深い理解の道を開く可能性を強調している。 今後の研究は、広い範囲の農業気候帯の土壌をフィールド条件下で組み込んだ、より大規模なデータセットへのディープラーニングモデルの適用を検討すべきである。

This study investigated the use of portable X-ray fluorescence (PXRF) spectrometry and soil image analysis for rapid soil fertility assessment, with a focus on key indicators such as available boron (B), organic carbon (OC), available manganese (Mn), available sulfur (S), and the sulfur availability index (SAI). A total of 1,133 soil samples from diverse agro-climatic zones in Eastern India were analyzed. The research integrated color and texture features from microscopic soil images, PXRF data, and auxiliary soil variables (AVs) using a Random Forest model. Results showed that combining image features (IFs) with AVs significantly improved prediction accuracy for available B (R2 = 0.80) and OC (R2 = 0.88). A data fusion approach, incorporating IFs, AVs, and PXRF data, further enhanced predictions for available Mn and SAI, with R2 values of 0.72 and 0.70, respectively. The study highlights the potential of integrating these technologies to offer rapid, cost-effective soil testing methods, paving the way for more advanced predictive models and a deeper understanding of soil fertility. Future work should explore the application of deep learning models on a larger dataset, incorporating soils from a wider range of agro-climatic zones under field conditions.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-05
# HiVG:ビジュアルグラウンドのための階層型マルチモーダルきめ細粒度変調

HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding ( http://arxiv.org/abs/2404.13400v2 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu, (参考訳) 視覚的グラウンドティングは、自然言語を介して視覚領域をグラウンドすることを目的としており、クロスモーダルアライメントに大きく依存するタスクである。 既存の研究では、一様学習モデルを用いて視覚的知識や言語的知識を別々に伝達し、マルチモーダル対応情報を無視している。 コントラッシブ言語画像事前学習法とローランク適応法(LoRA)の最近の進歩により,マルチモーダル事前学習に基づく基礎課題の解決を目指す。 しかし、事前訓練と接地の間には大きな課題ギャップがある。 そこで我々は,これらのギャップに対処するために,高精度かつ効率的な階層型マルチモーダルきめ細粒度変調フレームワーク,すなわちHiVGを提案する。 特に、HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。 クロスモーダルブリッジは、視覚的特徴と接地に必要なものとの不整合に対処し、多レベル視覚的特徴とテキスト的特徴との接続を確立する。 HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。 5つのデータセットによる実験結果から, 提案手法の有効性を実証し, 重要な接地能力と, 有望なエネルギー効率の優位性を実証した。 プロジェクトページ:https://github.com/linhuixiao/HiVG。

Visual grounding, which aims to ground a visual region via natural language, is a task that heavily relies on cross-modal alignment. Existing works utilized uni-modal pre-trained models to transfer visual or linguistic knowledge separately while ignoring the multimodal corresponding information. Motivated by recent advancements in contrastive language-image pre-training and low-rank adaptation (LoRA) methods, we aim to solve the grounding task based on multimodal pre-training. However, there exists significant task gaps between pre-training and grounding. Therefore, to address these gaps, we propose a concise and efficient hierarchical multimodal fine-grained modulation framework, namely HiVG. Specifically, HiVG consists of a multi-layer adaptive cross-modal bridge and a hierarchical multimodal low-rank adaptation (HiLoRA) paradigm. The cross-modal bridge can address the inconsistency between visual features and those required for grounding, and establish a connection between multi-level visual and text features. HiLoRA prevents the accumulation of perceptual errors by adapting the cross-modal features from shallow to deep layers in a hierarchical manner. Experimental results on five datasets demonstrate the effectiveness of our approach and showcase the significant grounding capabilities as well as promising energy efficiency advantages. The project page: https://github.com/linhuixiao/HiVG.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-05
# 反復多モード核融合によるコミックのゼロショット文字同定と話者予測

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion ( http://arxiv.org/abs/2404.13993v4 )

ライセンス: Link先を確認
Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui, (参考訳) 文字の認識と対話の話者の予測は、音声生成や翻訳といった漫画処理作業に不可欠である。 しかし、キャラクターは漫画のタイトルによって異なるため、漫画のタイトルごとに特定のアノテーションを必要とする文字分類器の訓練のような教師あり学習アプローチは実現不可能である。 これにより、機械が文字を識別し、注釈のない漫画画像のみに基づいて話者名を予測できるゼロショット方式が提案される。 現実の応用において重要であるにもかかわらず、これらのタスクはストーリー理解とマルチモーダル統合の課題のために、ほとんど探索されていないままである。 近年の大規模言語モデル (LLM) はテキスト理解と推論に優れた能力を示し, マルチモーダルコンテンツ解析への応用は依然として未解決の課題である。 そこで本研究では,文字識別と話者予測の両方にマルチモーダル情報を用いた反復型マルチモーダルフレームワークを提案する。 提案手法の有効性を実証し,これらの課題に対するロバストなベースラインを確立する。 さらに,本手法ではトレーニングデータやアノテーションは必要としないため,どんなコミックシリーズでもそのまま使用することができる。

Recognizing characters and predicting speakers of dialogue are critical for comic processing tasks, such as voice generation or translation. However, because characters vary by comic title, supervised learning approaches like training character classifiers which require specific annotations for each comic title are infeasible. This motivates us to propose a novel zero-shot approach, allowing machines to identify characters and predict speaker names based solely on unannotated comic images. In spite of their importance in real-world applications, these task have largely remained unexplored due to challenges in story comprehension and multimodal integration. Recent large language models (LLMs) have shown great capability for text understanding and reasoning, while their application to multimodal content analysis is still an open problem. To address this problem, we propose an iterative multimodal framework, the first to employ multimodal information for both character identification and speaker prediction tasks. Our experiments demonstrate the effectiveness of the proposed framework, establishing a robust baseline for these tasks. Furthermore, since our method requires no training data or annotations, it can be used as-is on any comic series.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-05
# UniMERNet: 実世界の数学的表現認識のためのユニバーサルネットワーク

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition ( http://arxiv.org/abs/2404.15254v2 )

ライセンス: Link先を確認
Bin Wang, Zhuangcheng Gu, Guang Liang, Chao Xu, Bo Zhang, Botian Shi, Conghui He, (参考訳) 本稿では,複雑な実世界のシナリオを対象とした数学的表現認識(MER)に関する最初の研究であるUniMERデータセットを紹介する。 UniMERデータセットには大規模なトレーニングセットであるUniMER-1Mが含まれている。 さらに、UniMERは厳密に設計され多様なテストセットであるUniMER-Testを備えており、現実世界のシナリオで見られる様々な公式分布をカバーし、より包括的で公正な評価を提供する。 そこで本研究では,Universal Mathematical Expression Recognition Network (UniMERNet)を提案する。 UniMERNetは、詳細認識とローカルコンテキスト機能を組み込んだ慎重に設計されたエンコーダと、性能向上のための最適化されたデコーダで構成されている。 UniMER-1MデータセットとUniMERNetを用いた大規模な実験により、大規模なUniMER-1Mデータセットのトレーニングにより、より一般化可能な式認識モデルが生成され、以前のすべてのデータセットよりも大幅に向上することを示した。 さらに、UniMERNetの導入により、式認識におけるモデルの性能が向上し、精度と速度が向上する。 すべてのデータ、モデル、コードはhttps://github.com/opendatalab/UniMERNetで入手できる。

The paper introduces the UniMER dataset, marking the first study on Mathematical Expression Recognition (MER) targeting complex real-world scenarios. The UniMER dataset includes a large-scale training set, UniMER-1M, which offers unprecedented scale and diversity with one million training instances to train high-quality, robust models. Additionally, UniMER features a meticulously designed, diverse test set, UniMER-Test, which covers a variety of formula distributions found in real-world scenarios, providing a more comprehensive and fair evaluation. To better utilize the UniMER dataset, the paper proposes a Universal Mathematical Expression Recognition Network (UniMERNet), tailored to the characteristics of formula recognition. UniMERNet consists of a carefully designed encoder that incorporates detail-aware and local context features, and an optimized decoder for accelerated performance. Extensive experiments conducted using the UniMER-1M dataset and UniMERNet demonstrate that training on the large-scale UniMER-1M dataset can produce a more generalizable formula recognition model, significantly outperforming all previous datasets. Furthermore, the introduction of UniMERNet enhances the model's performance in formula recognition, achieving higher accuracy and speeds. All data, models, and code are available at https://github.com/opendatalab/UniMERNet.
翻訳日:2024-09-07 03:22:33 公開日:2024-09-05
# 機械学習プライバシ防衛の評価は誤解を招く

Evaluations of Machine Learning Privacy Defenses are Misleading ( http://arxiv.org/abs/2404.17399v2 )

ライセンス: Link先を確認
Michael Aerni, Jie Zhang, Florian Tramèr, (参考訳) 機械学習プライバシに対する実証的な防御は、現実的な敵に抵抗しながら高いユーティリティを達成するために、差分プライバシの証明可能な保証を禁止します。 既存の経験的プライバシー評価(メンバーシップ推論攻撃に基づく)における深刻な落とし穴が、誤った結論をもたらす。 特に、事前評価では、最も脆弱なサンプルのプライバシー漏洩を特徴付けることができず、弱い攻撃を使用し、実用的な差分プライバシーベースラインとの比較を避けることができる。 経験的プライバシー保護に関する5つのケーススタディでは、事前評価がプライバシー漏洩を桁違いに過小評価していることが判明した。 より強力な評価の下では、我々が研究している実証的防御はいずれも、適切に調整された高実用性DP-SGDベースラインと競合するものではありません。

Empirical defenses for machine learning privacy forgo the provable guarantees of differential privacy in the hope of achieving higher utility while resisting realistic adversaries. We identify severe pitfalls in existing empirical privacy evaluations (based on membership inference attacks) that result in misleading conclusions. In particular, we show that prior evaluations fail to characterize the privacy leakage of the most vulnerable samples, use weak attacks, and avoid comparisons with practical differential privacy baselines. In 5 case studies of empirical privacy defenses, we find that prior evaluations underestimate privacy leakage by an order of magnitude. Under our stronger evaluation, none of the empirical defenses we study are competitive with a properly tuned, high-utility DP-SGD baseline (with vacuous provable guarantees).
翻訳日:2024-09-07 03:12:50 公開日:2024-09-05
# フェデレーション学習環境におけるデータ不均一性の影響と医療ネットワークへの応用

On the Impact of Data Heterogeneity in Federated Learning Environments with Application to Healthcare Networks ( http://arxiv.org/abs/2404.18519v3 )

ライセンス: Link先を確認
Usevalad Milasheuski, Luca Barbieri, Bernardo Camajori Tedeschini, Monica Nicoli, Stefano Savazzi, (参考訳) フェデレートラーニング(FL)は、複数のプライバシに敏感なアプリケーションが、情報を開示することなく、自身のデータセットをグローバルモデル構築に活用することを可能にする。 これらの領域の1つは医療であり、サイロのグループは、精度と一般化を改善したグローバルな予測器を生成するために協力する。 しかし、本質的な課題は、医療データの高度不均一性であり、評価と補償のために高度な技術を必要とすることである。 本稿では,医学データの複雑さに着目し,FL環境における不均一性の数学的形式化と分類を包括的に調査する。 特に、量ベース、特徴およびラベル分布に基づく不均一性に対処する能力に関して、最も人気のあるFLアルゴリズムの評価と比較について述べる。 目的は、医療ネットワークにおけるFLシステムにおけるデータ不均一性の影響の定量的評価と、FLアルゴリズム選択に関するガイドラインを提供することである。 我々の研究は、医療データユースケースがもたらす固有の課題に対して、最も一般的なFLアルゴリズムの7つをベンチマークすることで、既存の研究を超えています。 本論文は,異なる病院サイロによって収集された表型臨床報告を用いて,脳卒中再発のリスクを予測することを目的としている。

Federated Learning (FL) allows multiple privacy-sensitive applications to leverage their dataset for a global model construction without any disclosure of the information. One of those domains is healthcare, where groups of silos collaborate in order to generate a global predictor with improved accuracy and generalization. However, the inherent challenge lies in the high heterogeneity of medical data, necessitating sophisticated techniques for assessment and compensation. This paper presents a comprehensive exploration of the mathematical formalization and taxonomy of heterogeneity within FL environments, focusing on the intricacies of medical data. In particular, we address the evaluation and comparison of the most popular FL algorithms with respect to their ability to cope with quantity-based, feature and label distribution-based heterogeneity. The goal is to provide a quantitative evaluation of the impact of data heterogeneity in FL systems for healthcare networks as well as a guideline on FL algorithm selection. Our research extends beyond existing studies by benchmarking seven of the most common FL algorithms against the unique challenges posed by medical data use cases. The paper targets the prediction of the risk of stroke recurrence through a set of tabular clinical reports collected by different federated hospital silos: data heterogeneity frequently encountered in this scenario and its impact on FL performance are discussed.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-05
# 負の確率

Negative Probability ( http://arxiv.org/abs/2405.03043v2 )

ライセンス: Link先を確認
Nick Polson, Vadim Sokolov, (参考訳) 負の確率は、主に物理学、統計量子力学、量子コンピューティングに現れる。 負の確率は、ベイズモデルにおける観測されていない潜在変数の混合分布として生じる。 私たちのゴールは、これらの2つの視点の間にリンクを提供することです。 バートレットは、異常な確率変数とそれらの特性関数の性質に基づく負の確率の定義を提供する。 ベイズ則の1つのバージョンは負の混合重みを持つ。 古典的半貨幣分布とポリア・ガンマ混合について論じる。 ハイゼンベルクの不確かさの原理と正規のスケール混合の双対性についても論じる。 負の混合測度を持つ双対密度の例は、リンニク分布やウィグナー分布を含む。 最後に,今後の研究の方向性について述べる。

Negative probabilities arise primarily in physics, statistical quantum mechanics and quantum computing. Negative probabilities arise as mixing distributions of unobserved latent variables in Bayesian modeling. Our goal is to provide a link between these two viewpoints. Bartlett provides a definition of negative probabilities based on extraordinary random variables and properties of their characteristic function. A version of Bayes rule is given with negative mixing weights. The classic half coin distribution and Polya-Gamma mixing is discussed. Heisenberg's principle of uncertainty and the duality of scale mixtures of Normals is also discussed. A number of examples of dual densities with negative mixing measures are provided including the Linnik and Wigner distributions. Finally, we conclude with directions for future research.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-05
# Diff-IP2D:Egocentric Videoにおける拡散に基づく手動物体の相互作用予測

Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos ( http://arxiv.org/abs/2405.04370v3 )

ライセンス: Link先を確認
Junyi Ma, Jingyi Xu, Xieyuanli Chen, Hesheng Wang, (参考訳) サービスロボットの操作や拡張現実の応用には、人間が手動操作でどのように振る舞うかを理解することが不可欠である。 これを実現するために、人間の自我中心の動画に手動軌跡と物価を同時に予測する最近の研究が提案されている。 共同予測は2次元空間における将来の手-物体相互作用の包括的表現として機能し、潜在的な人間の動きと動機を示す。 しかし、既存のアプローチは主に一方向予測のための自己回帰的パラダイムを採用しており、これは全体論的な将来のシーケンスにおける相互制約を欠き、時間軸に沿ってエラーを蓄積する。 一方、これらの作品は基本的に、カメラの感情が1対1の視聴予測に与える影響を見落としている。 これらの制約に対処するために,Diff-IP2Dという拡散型相互作用予測手法を提案する。 逐次的2次元画像から潜在特徴空間へ変換し,過去の被写体に条件付けされた将来の潜時相互作用特徴を予測するために,偏差拡散モデルを設計する。 モーション機能は、より正確なインタラクション予測のために、Diff-IP2Dがカメラ装着者のダイナミクスを認識できるように、条件付き復調プロセスにさらに統合される。 大規模な実験により,本手法は市販の計測基準と新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っていることが示された。 このことは、2次元ハンドオブジェクト相互作用予測に生成パラダイムを活用することの有効性を強調している。 Diff-IP2Dのコードはhttps://github.com/IRMVLab/Diff-IP2Dで公開される。

Understanding how humans would behave during hand-object interaction is vital for applications in service robot manipulation and extended reality. To achieve this, some recent works have been proposed to simultaneously forecast hand trajectories and object affordances on human egocentric videos. The joint prediction serves as a comprehensive representation of future hand-object interactions in 2D space, indicating potential human motion and motivation. However, the existing approaches mostly adopt the autoregressive paradigm for unidirectional prediction, which lacks mutual constraints within the holistic future sequence, and accumulates errors along the time axis. Meanwhile, these works basically overlook the effect of camera egomotion on first-person view predictions. To address these limitations, we propose a novel diffusion-based interaction prediction method, namely Diff-IP2D, to forecast future hand trajectories and object affordances concurrently in an iterative non-autoregressive manner. We transform the sequential 2D images into latent feature space and design a denoising diffusion model to predict future latent interaction features conditioned on past ones. Motion features are further integrated into the conditional denoising process to enable Diff-IP2D aware of the camera wearer's dynamics for more accurate interaction prediction. Extensive experiments demonstrate that our method significantly outperforms the state-of-the-art baselines on both the off-the-shelf metrics and our newly proposed evaluation protocol. This highlights the efficacy of leveraging a generative paradigm for 2D hand-object interaction prediction. The code of Diff-IP2D will be released at https://github.com/IRMVLab/Diff-IP2D.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-05
# 周期的ホッピング変調をもつ非エルミートSu-Schrieffer-Heeger鎖のトポロジーと$\mathcal{PT}$対称性

Topology and $\mathcal{PT}$ Symmetry in a Non-Hermitian Su-Schrieffer-Heeger Chain with Periodic Hopping Modulation ( http://arxiv.org/abs/2405.04562v2 )

ライセンス: Link先を確認
Surajit Mandal, Satyaki Kar, (参考訳) 本研究では,SSH(Su-Schrieffer-Heeger-Heeger)鎖に対する周期的ホッピング変調の効果について検討した。 このような散逸性非エルミタン(NH)拡張は、周期的なホッピング分布とともに、トポロジカル自明相(TTP)とSSH鎖のトポロジカル非自明相(TNP)の特徴を十分に修飾する。 一般に弱いポテンシャルは、エネルギー固有値を実数に保つパリティ時間(PT)対称性を尊重し、強いポテンシャルはPT保存を破り、想像上の終末状態と複雑なバルク状態エネルギーをもたらす。 仮想ポテンシャル強度 \gamma によるこの PT 破壊は、異なる期待変調に対するホッピング変調 \Delta への興味深い依存を示す。 ガンマ = 0 の極限にも現れるインギャップ状態は、純粋に実数か純粋に虚数の固有値を取る。 境界における終状態(ギャップ内状態)の局所化は、位相遷移(|\Delta/t| = 1 から遠く離れた)だけでなく、非変調された Delta = 0 の極限付近にまで拡張された性質を示す。 さらに、バルク状態の局在は |\Delta/t| = 1 の最大二量化極限で観測される。 この問題における複雑な固有値とホッピング周期性の違いによる散逸をさらに分析することは、光学系におけるゲインロスコントラストの調整や、様々な量子情報処理や記憶装置の設計に不可欠である。

We study the effect of periodic but commensurate hopping modulation on a Su-Schrieffer-Heeger (SSH) chain with an additional onsite staggered imaginary potential. Such dissipative, non-Hermitian (NH) extension amply modifies the features of the topological trivial phase (TTP) and the topological nontrivial phase (TNP) of the SSH chain, more so with the periodic hopping distribution. Generally a weak potential can respect the parity-time (PT ) symmetry keeping the energy eigenvalues real, while a strong potential breaks PT conservation leading to imaginary end state and complex bulk state energies in the system. We find that this PT breaking with imaginary potential strength \gamma show interesting dependence on the hopping modulation \Delta for different hoping modulations. In-gap states, that appear also in the \gamma = 0 limit, take either purely real or purely imaginary eigenvalues depending on the strength of both \gamma and \Delta. The localization of end states (in-gap states) at the boundaries are investigated which show extended nature not only near topological transitions (further away from |\Delta/t| = 1) but also near the unmodulated limit of \Delta = 0. Moreover, localization of the bulk states is observed at the maximally dimerized limit of |\Delta/t| = 1, which also have a {\gamma} dependence. Analyzing further the dissipation caused by the complex eigenvalues in this problem with different hopping periodicity can be essential in modulating the gain-loss contrast in optical systems or in designing various quantum information processing and storage devices.
翻訳日:2024-09-07 03:12:50 公開日:2024-09-05
# SU(3)離散部分群に対する原始量子ゲート:$Σ(36\times3)$

Primitive Quantum Gates for an SU(3) Discrete Subgroup: $Σ(36\times3)$ ( http://arxiv.org/abs/2405.05973v3 )

ライセンス: Link先を確認
Erik J. Gustafson, Yao Ji, Henry Lamm, Edison M. Murairi, Shuchen Zhu, (参考訳) 我々は、108要素の$\Sigma(36\times3)$群のデジタル量子シミュレーションのための原始ゲートセットを構築する。 量子シミュレーションのために$SU(3)$の非アーベル結晶のような部分群が構築されたのはこれが初めてである。 ゲージリンクレジスタと必要なプリミティブ -- 反転ゲート、グループ乗算ゲート、トレースゲート、および$\Sigma(36\times3)$ Fourier変換 -- は、8量子符号化と不均一3量子レジスタと2量子レジスタの両方に対して提示される。 後者では、任意のユニタリをこのアーキテクチャに分解する特別なコンパイラが開発された。

We construct the primitive gate set for the digital quantum simulation of the 108-element $\Sigma(36\times3)$ group. This is the first time a nonabelian crystal-like subgroup of $SU(3)$ has been constructed for quantum simulation. The gauge link registers and necessary primitives -- the inversion gate, the group multiplication gate, the trace gate, and the $\Sigma(36\times3)$ Fourier transform -- are presented for both an eight-qubit encoding and a heterogeneous three-qutrit plus two-qubit register. For the latter, a specialized compiler was developed for decomposing arbitrary unitaries onto this architecture.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# フェイクニュースの公開と解説

Exposing and Explaining Fake News On-the-Fly ( http://arxiv.org/abs/2405.06668v2 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo, (参考訳) ソーシャルメディアプラットフォームは、情報の迅速な普及と消費を可能にします。 しかし、共有データの信頼性に関わらず、ユーザは即座にそのようなコンテンツを消費する。 これにより、後者のクラウドソーシングモデルは操作に晒される。 この研究は、偽ニュースをリアルタイムで認識するための説明可能なオンライン分類手法に寄与する。 提案手法は、教師なしおよび教師なしの機械学習アプローチとオンライン生成レキシカを組み合わせたものである。 プロファイリングは、自然言語処理技術を使ったクリエーター、コンテンツ、コンテキストベースの機能を使って構築される。 説明可能な分類メカニズムは、分類のために選択された機能と予測信頼度をダッシュボードに表示する。 提案手法の性能はTwitterの実際のデータセットで検証され,その結果は80%精度とマクロF測定値を得た。 この提案は、データストリーム処理、プロファイリング、分類、説明可能性とを共同で提供する最初のものである。 最終的に、提案されたフェイクニュースの早期発見、隔離、説明は、ソーシャルメディアコンテンツの品質と信頼性の向上に寄与する。

Social media platforms enable the rapid dissemination and consumption of information. However, users instantly consume such content regardless of the reliability of the shared data. Consequently, the latter crowdsourcing model is exposed to manipulation. This work contributes with an explainable and online classification method to recognize fake news in real-time. The proposed method combines both unsupervised and supervised Machine Learning approaches with online created lexica. The profiling is built using creator-, content- and context-based features using Natural Language Processing techniques. The explainable classification mechanism displays in a dashboard the features selected for classification and the prediction confidence. The performance of the proposed solution has been validated with real data sets from Twitter and the results attain 80 % accuracy and macro F-measure. This proposal is the first to jointly provide data stream processing, profiling, classification and explainability. Ultimately, the proposed early detection, isolation and explanation of fake news contribute to increase the quality and trustworthiness of social media contents.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# OpenFOAM組み込みディープラーニングフレームワークを用いた粗大CFDシミュレーションにおける空間離散化誤差の低減

Reducing Spatial Discretization Error on Coarse CFD Simulations Using an OpenFOAM-Embedded Deep Learning Framework ( http://arxiv.org/abs/2405.07441v3 )

ライセンス: Link先を確認
Jesus Gonzalez-Sieiro, David Pardo, Vincenzo Nava, Victor M. Calo, Markus Towara, (参考訳) 深層学習を用いた低分解能シミュレーションの品質を向上させることにより, 粗い計算流体力学(CFD)問題の空間的離散化誤差を低減する手法を提案する。 我々は、粗いグリッドの離散化に投射した後、細粒度のデータでモデルをフィードする。 我々は、セル中心からフェイス値への速度を補間するフィードフォワードニューラルネットワークにより、対流項のデフォルトの差分スキームを置換し、ダウンサンプリングされた微細グリッドデータをよく近似する速度を生成する。 ディープラーニングフレームワークには、オープンソースのCFDコードOpenFOAMが組み込まれており、エンドツーエンドの差別化モデルとなっている。 我々は、離散随伴符号バージョンを用いてCFD物理を自動的に区別する。 トレーニングプロセスを高速化するTensorFlow(Python)とOpenFOAM(c++)の高速通信方式を提案する。 正方形シリンダー問題を過ぎる流れにモデルを適用し,x8粗いメッシュを用いた従来の解法と比較して,トレーニング分布内のシミュレーションの速度の120%から25%の誤差を低減した。 トレーニング分布外のシミュレーションでは,速度の誤差は50%程度であった。 トレーニングは、物理の局所的な特徴を利用するため、時間とデータサンプルの観点からは安価である。

We propose a method for reducing the spatial discretization error of coarse computational fluid dynamics (CFD) problems by enhancing the quality of low-resolution simulations using deep learning. We feed the model with fine-grid data after projecting it to the coarse-grid discretization. We substitute the default differencing scheme for the convection term by a feed-forward neural network that interpolates velocities from cell centers to face values to produce velocities that approximate the down-sampled fine-grid data well. The deep learning framework incorporates the open-source CFD code OpenFOAM, resulting in an end-to-end differentiable model. We automatically differentiate the CFD physics using a discrete adjoint code version. We present a fast communication method between TensorFlow (Python) and OpenFOAM (c++) that accelerates the training process. We applied the model to the flow past a square cylinder problem, reducing the error from 120% to 25% in the velocity for simulations inside the training distribution compared to the traditional solver using an x8 coarser mesh. For simulations outside the training distribution, the error reduction in the velocities was about 50%. The training is affordable in terms of time and data samples since the architecture exploits the local features of the physics.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# プロンプト最適化を伴わない同時マスキング--同時翻訳のための微調整LDMのパラダイムシフト

Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation ( http://arxiv.org/abs/2405.10443v3 )

ライセンス: Link先を確認
Matthew Raffel, Victor Agostinelli, Lizhong Chen, (参考訳) 大規模言語モデル(LLM)は、様々な言語処理タスクにおいて最先端のパフォーマンスを達成し、同時翻訳における彼らの採用を動機付けている。 LLMを同時翻訳に適用するための現在の微調整手法は、データ拡張や構造変更の迅速化による最適化戦略の促進に重点を置いている。 しかし、これらの手法は、不要に拡張されたトレーニングセット、キーと値キャッシュのダンプによる計算の非効率性、プロンプトサイズの増加、単一決定ポリシーの制限など、いくつかの問題に悩まされている。 そこで本研究では,これらの問題を解消するために,同時翻訳のためのLLMを微調整する新たなパラダイムであるSimulMaskを提案する。 これは、望ましい意思決定ポリシーのために注意をマスキングすることで、微調整中の同時翻訳をモデル化する新しい注意マスクアプローチを利用する。 提案したSimulMaskをIWSLT 2017データセットのFalcon LLMに適用することにより、計算コストを削減しつつ、5つの言語ペアに対する最先端の最適化戦略と比較して、翻訳品質が大幅に向上することを示した。

Large language models (LLMs) have achieved state-of-the-art performance in various language processing tasks, motivating their adoption in simultaneous translation. Current fine-tuning methods to adapt LLMs for simultaneous translation focus on prompting optimization strategies using either data augmentation or prompt structure modifications. However, these methods suffer from several issues, such as unnecessarily expanded training sets, computational inefficiency from dumping the key and value cache, increased prompt sizes, or restriction to a single decision policy. To eliminate these issues, in this work, we propose SimulMask, a new paradigm for fine-tuning LLMs for simultaneous translation. It utilizes a novel attention mask approach that models simultaneous translation during fine-tuning by masking attention for a desired decision policy. Applying the proposed SimulMask on a Falcon LLM for the IWSLT 2017 dataset, we have observed a significant translation quality improvement compared to state-of-the-art prompting optimization strategies on five language pairs while reducing the computational cost.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# 仮想チューターとしての大規模言語モデルの利用に関するレビュー

A review on the use of large language models as virtual tutors ( http://arxiv.org/abs/2405.11983v2 )

ライセンス: Link先を確認
Silvia García-Méndez, Francisco de Arriba-Pérez, María del Carmen Somoza-López, (参考訳) トランスフォーマーアーキテクチャは、自然言語処理の長期的な依存関係の管理に寄与する。 これらのアーキテクチャは、いくつかの分野や産業で大きな話題を呼んだ、最先端の大規模言語モデル(LLM)の基盤となっている。 したがって、これらの生成的人工知能ベースのソリューションは、高品質な学習に向けて、教育方法やコンテンツ、ネットワークインフラストラクチャーにおける技術の変化と進化を導いてきた。 LLMの人気を踏まえて,本研究は,学生や教員が設計・実験計画に携わる教育教材の制作・評価に特化して設計されたソリューションの概要を概観するものである。 我々の知る限りでは、LLMの教育応用(例えば、学生評価)に関する最初のレビューとなる。 予想通り、これらのシステムの最も一般的な役割は、自動質問生成のための仮想チューターである。 さらに、最も人気のあるモデルはGTP-3とBERTである。 しかし、新しい生成モデルの継続的なローンチにより、まもなく新しい作品が公開される予定である。

Transformer architectures contribute to managing long-term dependencies for Natural Language Processing, representing one of the most recent changes in the field. These architectures are the basis of the innovative, cutting-edge Large Language Models (LLMs) that have produced a huge buzz in several fields and industrial sectors, among the ones education stands out. Accordingly, these generative Artificial Intelligence-based solutions have directed the change in techniques and the evolution in educational methods and contents, along with network infrastructure, towards high-quality learning. Given the popularity of LLMs, this review seeks to provide a comprehensive overview of those solutions designed specifically to generate and evaluate educational materials and which involve students and teachers in their design or experimental plan. To the best of our knowledge, this is the first review of educational applications (e.g., student assessment) of LLMs. As expected, the most common role of these systems is as virtual tutors for automatic question generation. Moreover, the most popular models are GTP-3 and BERT. However, due to the continuous launch of new generative models, new works are expected to be published shortly.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# 相互Validated Off-Policy評価

Cross-Validated Off-Policy Evaluation ( http://arxiv.org/abs/2405.15332v3 )

ライセンス: Link先を確認
Matej Cief, Branislav Kveton, Michal Kompan, (参考訳) 本稿では,オフ政治評価における推定器選択とハイパーパラメータチューニングの問題について検討する。 クロスバリデーションは教師付き学習において最も一般的なモデル選択法であるが、オフ政治評価は主に理論に基づくアプローチに依存しており、実践者への限られた指導しか提供しない。 政治以外の評価にクロスバリデーションをどう使うかを示す。 このことは、非政治評価におけるクロスバリデーションが実現不可能であるという一般的な信念に挑戦する。 提案手法を実証的に評価し,様々なユースケースに対処することを示す。

In this paper, we study the problem of estimator selection and hyper-parameter tuning in off-policy evaluation. Although cross-validation is the most popular method for model selection in supervised learning, off-policy evaluation relies mostly on theory-based approaches, which provide only limited guidance to practitioners. We show how to use cross-validation for off-policy evaluation. This challenges a popular belief that cross-validation in off-policy evaluation is not feasible. We evaluate our method empirically and show that it addresses a variety of use cases.
翻訳日:2024-09-07 03:01:22 公開日:2024-09-05
# Open-Vocabulary SAM3D: 学習不要なOpen-Vocabulary 3Dシーン理解を目指して

Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2405.15580v3 )

ライセンス: Link先を確認
Hanchen Tai, Qingdong He, Jiangning Zhang, Yijie Qian, Zhenyu Zhang, Xiaobin Hu, Xiangtai Li, Yabiao Wang, Yong Liu, (参考訳) オープン語彙の3Dシーン理解はこの分野において重要な課題である。 最近の研究は、視覚言語モデルに埋め込まれた知識を2Dドメインから3Dドメインに伝達しようと試みている。 しかしながら、これらのアプローチは特定の3Dシーンデータセットからの事前知識を必要とし、オープンワールドシナリオにおける適用性を制限する。 SAM (Segment Anything Model) は, ゼロショットセグメンテーション能力に優れており, トレーニングなしで3Dシーンを再現する可能性について検討している。 本稿では,オープンな3Dシーンを理解するための普遍的な枠組みを含む学習自由度手法であるOV-SAM3Dを紹介する。 このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 まず,初期3Dプロンプトとしてスーパーポイントを生成し,SAMから派生したセグメントマスクを用いてこれらのプロンプトを洗練することにより,プロセスを開始する。 さらに,RAM (Recognize Anything Model) のオープンタグを付加した特別設計のオーバーラップスコアテーブルを統合し,オープンワールドラベルを用いた最終3Dインスタンスを生成する。 ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。

Open-vocabulary 3D scene understanding presents a significant challenge in the field. Recent works have sought to transfer knowledge embedded in vision-language models from 2D to 3D domains. However, these approaches often require prior knowledge from specific 3D scene datasets, limiting their applicability in open-world scenarios. The Segment Anything Model (SAM) has demonstrated remarkable zero-shot segmentation capabilities, prompting us to investigate its potential for comprehending 3D scenes without training. In this paper, we introduce OV-SAM3D, a training-free method that contains a universal framework for understanding open-vocabulary 3D scenes. This framework is designed to perform understanding tasks for any 3D scene without requiring prior knowledge of the scene. Specifically, our method is composed of two key sub-modules: First, we initiate the process by generating superpoints as the initial 3D prompts and refine these prompts using segment masks derived from SAM. Moreover, we then integrate a specially designed overlapping score table with open tags from the Recognize Anything Model (RAM) to produce final 3D instances with open-world labels. Empirical evaluations on the ScanNet200 and nuScenes datasets demonstrate that our approach surpasses existing open-vocabulary methods in unknown open-world environments.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# SynthAI: モジュール型HLS設計自動生成のためのマルチエージェント生成AIフレームワーク

SynthAI: A Multi Agent Generative AI Framework for Automated Modular HLS Design Generation ( http://arxiv.org/abs/2405.16072v3 )

ライセンス: Link先を確認
Seyed Arash Sheikholeslam, Andre Ivanov, (参考訳) 本稿では,HLS設計の自動化手法であるSynthAIを紹介する。 SynthAIは、ReActエージェント、Chain-of-Thought(CoT)プロンプト、Web検索技術、構造化決定グラフにRetrieval-Augmented Generation(RAG)フレームワークを統合する。 この革新的なアプローチは、複雑なハードウェア設計タスクを複数のステージとより小さく管理可能なモジュールに体系的に分解することを可能にする。 その結果、SynthAIはユーザが指定した設計目標と機能要件に忠実に準拠する合成可能な設計を作成した。 我々は、いくつかのケーススタディを通じて、SynthAIの能力をさらに検証し、単一の初期プロンプトから複雑なマルチモジュール論理設計を生成する能力を強調した。 SynthAIコードは以下のリポジトリを通じて提供される。

In this paper, we introduce SynthAI, a new method for the automated creation of High-Level Synthesis (HLS) designs. SynthAI integrates ReAct agents, Chain-of-Thought (CoT) prompting, web search technologies, and the Retrieval-Augmented Generation (RAG) framework within a structured decision graph. This innovative approach enables the systematic decomposition of complex hardware design tasks into multiple stages and smaller, manageable modules. As a result, SynthAI produces synthesizable designs that closely adhere to user-specified design objectives and functional requirements. We further validate the capabilities of SynthAI through several case studies, highlighting its proficiency in generating complex, multi-module logic designs from a single initial prompt. The SynthAI code is provided via the following repo: \url{https://github.com/sarashs/FPGA_AGI}
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# ビットと帯域について:レグレット情報トレードオフの定量化

On Bits and Bandits: Quantifying the Regret-Information Trade-off ( http://arxiv.org/abs/2405.16581v2 )

ライセンス: Link先を確認
Itai Shufaro, Nadav Merlis, Nir Weinberger, Shie Mannor, (参考訳) インタラクティブな意思決定タスクでは、情報は直接のインタラクション、間接的なフィードバックの受信、および外部の知識のあるソースから取得することができる。 エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフを検討する。 ビット単位で測定された外部ソースからの情報は、後悔と引き換えに、報酬で測定できることを示す。 我々は,いくつかの既知の下界を容易に導出できるような,後悔の少ない下界を得るための情報理論的手法を考案する。 次に、外部情報を用いた様々な対話型意思決定タスクを新しい設定に一般化する。 この設定を用いて、エージェントが蓄積する情報に依存する最初のベイズ後悔の低い境界を導入する。 これらの下界はまた、ベイズ問題に対するトンプソンサンプリングのほぼ最適性を証明している。 最後に,これらの境界が大規模言語モデルを用いた質問応答タスクの性能向上に有効であることを示す。

In interactive decision-making tasks, information can be acquired by direct interactions, through receiving indirect feedback, and from external knowledgeable sources. We examine the trade-off between the information an agent accumulates and the regret it suffers. We show that information from external sources, measured in bits, can be traded off for regret, measured in reward. We invoke information-theoretic methods for obtaining regret lower bounds, that also allow us to easily re-derive several known lower bounds. We then generalize a variety of interactive decision-making tasks with external information to a new setting. Using this setting, we introduce the first Bayesian regret lower bounds that depend on the information an agent accumulates. These lower bounds also prove the near-optimality of Thompson sampling for Bayesian problems. Finally, we demonstrate the utility of these bounds in improving the performance of a question-answering task with large language models, allowing us to obtain valuable insights.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# GarmentCodeData: 縫製パターンを備えた3Dメイド・ツー・メア・ガーメントのデータセット

GarmentCodeData: A Dataset of 3D Made-to-Measure Garments With Sewing Patterns ( http://arxiv.org/abs/2405.17609v3 )

ライセンス: Link先を確認
Maria Korosteleva, Timur Levent Kesdogan, Fabian Kemper, Stephan Wenninger, Jasmin Koller, Yuhan Zhang, Mario Botsch, Olga Sorkine-Hornung, (参考訳) 近年、仮想的な適合から生成・再構築まで、衣服の学習に基づく処理への関心が高まり、ドメイン内の高品質な公開データの不足に悩まされている。 我々は,縫製パターンと生成パイプラインを備えた3D合成服の大規模合成データセットを提示することにより,このニーズの解決に寄与する。 GarmentCodeDataには、トップ、シャツ、ドレス、ジャンプスーツ、スカート、パンツなど、さまざまなデザインをカバーする11万5000のデータポイントが含まれており、CAESARをベースとしたカスタム統計ボディモデルからサンプリングされたさまざまなボディ形状に適合し、3種類の異なる繊維材料を適用している。 このような複雑さのデータセットを作成するために,サンプル体形状を自動計測するアルゴリズム,縫製パターン設計のためのサンプリング戦略,高速XPBDシミュレータに基づくオープンソースの3D衣料ドッピングパイプラインを提案するとともに,衝突分解能とドレープ精度のいくつかのソリューションを提供してスケーラビリティを実現する。 Project Page: https://igl.ethz.ch/projects/GarmentCodeData/

Recent research interest in the learning-based processing of garments, from virtual fitting to generation and reconstruction, stumbles on a scarcity of high-quality public data in the domain. We contribute to resolving this need by presenting the first large-scale synthetic dataset of 3D made-to-measure garments with sewing patterns, as well as its generation pipeline. GarmentCodeData contains 115,000 data points that cover a variety of designs in many common garment categories: tops, shirts, dresses, jumpsuits, skirts, pants, etc., fitted to a variety of body shapes sampled from a custom statistical body model based on CAESAR, as well as a standard reference body shape, applying three different textile materials. To enable the creation of datasets of such complexity, we introduce a set of algorithms for automatically taking tailor's measures on sampled body shapes, sampling strategies for sewing pattern design, and propose an automatic, open-source 3D garment draping pipeline based on a fast XPBD simulator, while contributing several solutions for collision resolution and drape correctness to enable scalability. Project Page: https://igl.ethz.ch/projects/GarmentCodeData/
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# 効果的な崩壊理論としての因果フェルミオン系

Causal Fermion Systems as an Effective Collapse Theory ( http://arxiv.org/abs/2405.19254v2 )

ライセンス: Link先を確認
Felix Finster, Johannes Kleiner, Claudio F. Paganini, (参考訳) 非相対論的極限において、因果フェルミオン系は効果的な崩壊理論をもたらすことが示されている。 Schr\\odinger方程式に対する非線形および確率的補正項は因果作用原理から導かれる。 統計作用素の力学は、Kossakowski-Lindblad形式の決定論的方程式によって記述される。 さらに、量子状態はボルン則と互換性のある動的崩壊を行う。 有効モデルは連続自発局所化モデルと類似しているが、確率積分の保存法則と顕微鏡長スケール$\ell_{\min}$の時間的非局所性により異なる。

It is shown that, in the non-relativistic limit, causal fermion systems give rise to an effective collapse theory. The nonlinear and stochastic correction terms to the Schr\"odinger equation are derived from the causal action principle. The dynamics of the statistical operator is described by a deterministic equation of Kossakowski-Lindblad form. Moreover, the quantum state undergoes a dynamical collapse compatible with the Born rule. The effective model has similarities with the continuous spontaneous localization model, but differs from it by a conservation law for the probability integral as well as a non-locality in time on a microscopic length scale $\ell_{\min}$.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# MCDS-VSS:自監督幾何と動きによるフィルタリングによる移動カメラダイナミックシーン映像セマンティックセグメンテーション

MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion ( http://arxiv.org/abs/2405.19921v2 )

ライセンス: Link先を確認
Angel Villar-Corrales, Moritz Austermann, Sven Behnke, (参考訳) 自動運転車のような自律システムは、意思決定に信頼できるセマンティックな環境認識に依存している。 ビデオセマンティックセグメンテーションの進歩にもかかわらず、既存のアプローチは重要な帰納バイアスを無視し、構造的で解釈可能な内部表現を欠いている。 本研究では,カメラのシーン形状とエゴモーションを推定し,外部物体の動きを推定する構造付きフィルタモデルMCDS-VSSを提案する。 我々のモデルはこれらの表現を活用し、セグメンテーションの精度を犠牲にすることなくセグメンテーションの時間的一貫性を向上させる。 MCDS-VSSは、シーン幾何学とカメラモーションを最初にエゴモーションを補うために使用し、その後、ダイナミックオブジェクトの動きを補うために残留フローを使用し、最終的に予測されたシーン特徴を現在の特徴と融合させて時間的に一貫したシーンセグメンテーションを得る、予測融合アプローチに従っている。 我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションといった複数の分離された解釈可能な表現に解析する。 MCDS-VSSは、競合セグメンテーション性能を維持しつつ、ビデオシーケンスの時間的一貫性を向上することを示す。

Autonomous systems, such as self-driving cars, rely on reliable semantic environment perception for decision making. Despite great advances in video semantic segmentation, existing approaches ignore important inductive biases and lack structured and interpretable internal representations. In this work, we propose MCDS-VSS, a structured filter model that learns in a self-supervised manner to estimate scene geometry and ego-motion of the camera, while also estimating the motion of external objects. Our model leverages these representations to improve the temporal consistency of semantic segmentation without sacrificing segmentation accuracy. MCDS-VSS follows a prediction-fusion approach in which scene geometry and camera motion are first used to compensate for ego-motion, then residual flow is used to compensate motion of dynamic objects, and finally the predicted scene features are fused with the current features to obtain a temporally consistent scene segmentation. Our model parses automotive scenes into multiple decoupled interpretable representations such as scene geometry, ego-motion, and object motion. Quantitative evaluation shows that MCDS-VSS achieves superior temporal consistency on video sequences while retaining competitive segmentation performance.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# 固定ハミング重部分空間に対する量子エンコーダ

Quantum encoder for fixed Hamming-weight subspaces ( http://arxiv.org/abs/2405.20408v2 )

ライセンス: Link先を確認
Renato M. S. Farias, Thiago O. Maciel, Giancarlo Camilo, Ruge Lin, Sergi Ramos-Calderer, Leandro Aolita, (参考訳) 実数または複素値のデータベクトルである$d=\binom{n}{k}$の正確な$n$-qubit計算基底振幅エンコーダを、固定ハミング重み$k$の部分空間に提示する。 これは多項式空間の圧縮を表す。 この回路は、$d-1$(制御) Reconfigurable Beam Splitter (RBS) ゲートのみを使用して任意のデータベクトルを表現し、全てのビットストリングを$k$で逐次生成し、全てのゲートパラメータを識別する効率的な古典的アルゴリズムによって構成される。 CNOT とシングルキュービットゲートへの明示的なコンパイルが提示され、総 CNOT ゲート数は $\mathcal{O}(k\, d)$ となる。 さらに、異なるハミング重みのエンコーダを$\mathcal{O}(d\,\log(d))$ CNOT ゲートで順次積み重ねることで、バイナリベースでデータをロードする方法を示す。 さらに、ハミング重みの異なる状態を混合する一般化されたRBSゲートを用いて、任意のスパースベクトルを効率的にエンコードするように構成を拡張した。 最後に,市販のトラップイオン量子コンピュータ上で,本手法の実証実験を行った。 我々は、$n = 6$と$k = 2$で非log-concave方式で$q$-Gaussian確率分布をアップロードした。 また、ハードウェアノイズの影響を量子誤差緩和によって緩和する方法について述べる。 本研究は,量子化学,量子機械学習,制約付き組合せ最適化などの分野に応用可能な量子データ圧縮のための汎用的なフレームワークを構成する。

We present an exact $n$-qubit computational-basis amplitude encoder of real- or complex-valued data vectors of $d=\binom{n}{k}$ components into a subspace of fixed Hamming weight $k$. This represents a polynomial space compression. The circuit is optimal in that it expresses an arbitrary data vector using only $d-1$ (controlled) Reconfigurable Beam Splitter (RBS) gates and is constructed by an efficient classical algorithm that sequentially generates all bitstrings of weight $k$ and identifies all gate parameters. An explicit compilation into CNOTs and single-qubit gates is presented, with the total CNOT-gate count of $\mathcal{O}(k\, d)$ provided in analytical form. In addition, we show how to load data in the binary basis by sequentially stacking encoders of different Hamming weights using $\mathcal{O}(d\,\log(d))$ CNOT gates. Moreover, using generalized RBS gates that mix states of different Hamming weights, we extend the construction to efficiently encode arbitrary sparse vectors. Finally, we perform an experimental proof-of-principle demonstration of our scheme on a commercial trapped-ion quantum computer. We successfully upload a $q$-Gaussian probability distribution in the non-log-concave regime with $n = 6$ and $k = 2$. We also showcase how the effect of hardware noise can be alleviated by quantum error mitigation. Our results constitute a versatile framework for quantum data compression with various potential applications in fields such as quantum chemistry, quantum machine learning, and constrained combinatorial optimizations.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# FREA:適合性のある安全批判シナリオの実現可能性

FREA: Feasibility-Guided Generation of Safety-Critical Scenarios with Reasonable Adversariality ( http://arxiv.org/abs/2406.02983v2 )

ライセンス: Link先を確認
Keyu Chen, Yuheng Lei, Hao Cheng, Haoran Wu, Wenchao Sun, Sifa Zheng, (参考訳) 安全クリティカルシナリオの生成は、大規模に収集することが不可欠だが、自律走行車(AV)の堅牢性を評価する効果的な方法を提供する。 既存の手法は、シナリオの自然性を維持しながら、データ駆動アプローチによるバランスを達成することを目的として、逆境の最適化に重点を置いている。 しかし、逆境の適切な上限がなければ、シナリオは過剰な逆境を示し、避けられない衝突を引き起こす可能性がある。 本稿では,AVの最大の実現可能な領域(LFR)を組み込んだ新たな安全クリティカルシナリオ生成手法であるFREAを紹介する。 具体的には、FREAは最初、オフラインデータセットからAVのLFRをプリ計算する。 その後、シーンの臨界背景車両(CBV)を制御する合理的な敵政策を学習し、新しい実現可能性依存の敵目標関数を最大化することにより、敵意はあるがAV対応可能なシナリオを生成する。 広範囲にわたる実験は、FREAが安全クリティカルなシナリオを効果的に生成し、AVの実現性を確保しながら、かなりの近距離事象を発生させることを示した。 一般化分析は、様々な代理AV法および交通環境におけるAV試験におけるFREAの堅牢性も確認する。

Generating safety-critical scenarios, which are essential yet difficult to collect at scale, offers an effective method to evaluate the robustness of autonomous vehicles (AVs). Existing methods focus on optimizing adversariality while preserving the naturalness of scenarios, aiming to achieve a balance through data-driven approaches. However, without an appropriate upper bound for adversariality, the scenarios might exhibit excessive adversariality, potentially leading to unavoidable collisions. In this paper, we introduce FREA, a novel safety-critical scenarios generation method that incorporates the Largest Feasible Region (LFR) of AV as guidance to ensure the reasonableness of the adversarial scenarios. Concretely, FREA initially pre-calculates the LFR of AV from offline datasets. Subsequently, it learns a reasonable adversarial policy that controls the scene's critical background vehicles (CBVs) to generate adversarial yet AV-feasible scenarios by maximizing a novel feasibility-dependent adversarial objective function. Extensive experiments illustrate that FREA can effectively generate safety-critical scenarios, yielding considerable near-miss events while ensuring AV's feasibility. Generalization analysis also confirms the robustness of FREA in AV testing across various surrogate AV methods and traffic environments.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# 各タスクに必要なものを与える -- 構造化された疎性を活用したマルチタスク学習

Giving each task what it needs -- leveraging structured sparsity for tailored multi-task learning ( http://arxiv.org/abs/2406.03048v2 )

ライセンス: Link先を確認
Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki, (参考訳) マルチタスク学習(MTL)フレームワークでは、各タスクは、低レベルから高レベルの属性まで、異なる特徴表現を要求する。 特に計算に制約のある環境では、各タスクの特定の(機能/パラメータ)要求に対処することが不可欠である。 この研究は、構造化された空間を利用して個々のタスクの特徴選択を洗練し、マルチタスクシナリオにおける全てのタスクのパフォーマンスを向上させるレイヤ最適化マルチタスク(LOMT)モデルを導入する。 構造化されたあるいはグループの疎結合は、訓練中に自明なチャネルからパラメータを体系的に排除し、最終的には畳み込みニューラルネットワーク内のすべての層を除去する。 その結果、残りのレイヤは与えられたタスクに対して最も最適な機能を提供します。 この2段階のアプローチでは、ネットワークの終端でデコーダを均一に接続する従来の手法から逸脱し、タスク固有のデコーダをこれらの戦略的に識別された層に接続することで、この疎結合による最適層情報を利用してLOMTモデルを構築する。 このカスタマイズされたアーキテクチャはネットワークを最適化し、冗長性を減らしながら本質的な機能に重点を置いている。 提案手法の有効性を,NYU-v2とCelebAMask-HDの2つのデータセットで検証した。 従来のMTLモデルとは対照的に,LOMTモデルの詳細な性能解析により,ほとんどのタスクの組み合わせにおいて,LOMTモデルの方が優れていたことが明らかとなった。 優れた質的および定量的な結果は、最適層(または特徴)選択に構造化されたスパーシティを採用することの有効性を浮き彫りにする。

In the Multi-task Learning (MTL) framework, every task demands distinct feature representations, ranging from low-level to high-level attributes. It is vital to address the specific (feature/parameter) needs of each task, especially in computationally constrained environments. This work, therefore, introduces Layer-Optimized Multi-Task (LOMT) models that utilize structured sparsity to refine feature selection for individual tasks and enhance the performance of all tasks in a multi-task scenario. Structured or group sparsity systematically eliminates parameters from trivial channels and, sometimes, eventually, entire layers within a convolution neural network during training. Consequently, the remaining layers provide the most optimal features for a given task. In this two-step approach, we subsequently leverage this sparsity-induced optimal layer information to build the LOMT models by connecting task-specific decoders to these strategically identified layers, deviating from conventional approaches that uniformly connect decoders at the end of the network. This tailored architecture optimizes the network, focusing on essential features while reducing redundancy. We validate the efficacy of the proposed approach on two datasets, i.e., NYU-v2 and CelebAMask-HD datasets, for multiple heterogeneous tasks. A detailed performance analysis of the LOMT models, in contrast to the conventional MTL models, reveals that the LOMT models outperform for most task combinations. The excellent qualitative and quantitative outcomes highlight the effectiveness of employing structured sparsity for optimal layer (or feature) selection.
翻訳日:2024-09-07 02:44:29 公開日:2024-09-05
# 自衛隊:LLMは脱獄を防げる

SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner ( http://arxiv.org/abs/2406.05498v2 )

ライセンス: Link先を確認
Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel, (参考訳) Jailbreakingは、既製の大規模言語モデル(LLM)にデプロイされる安全アライメントを回避し、ヒューマンベース、最適化ベース、世代ベース、そして最近の間接的および多言語的ジェイルブレイク(indirect and multilingual jailbreaks)という複数のカテゴリに進化した、新たな敵攻撃である。 しかし、実際のジェイルブレイク防御を提供することは、上記のジェイルブレイク攻撃を全て処理するだけでなく、ユーザのプロンプトに無視できない遅延を発生させる必要があるため、オープンソースとクローズドソースの両方のLLMと互換性を持つ必要があるため、難しい。 本稿では,従来のセキュリティ概念であるシャドウスタックがメモリオーバーフロー攻撃に対してどのように防御するかに着想を得て,汎用的なLDMジェイルブレイク防御フレームワークであるSelfDefendを紹介した。 SelfDefendの有効性は、既存のLDM(ターゲットとディフェンスの両方)がユーザクエリの有害なプロンプトや意図を識別する能力を持っているという我々の観察に基づいており、主要なジェイルブレイク攻撃全体にわたってよく使われているGPT-3.5/4モデルを用いて実証的に検証している。 防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。 これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵し、余分な遅延を著しく低減した。 また、調整されたモデルが適応的ジェイルブレイクやインジェクションのインジェクションに対して堅牢であることを実証的に示す。

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models (LLMs) and has evolved into multiple categories: human-based, optimization-based, generation-based, and the recent indirect and multilingual jailbreaks. However, delivering a practical jailbreak defense is challenging because it needs to not only handle all the above jailbreak attacks but also incur negligible delays to user prompts, as well as be compatible with both open-source and closed-source LLMs. Inspired by how the traditional security concept of shadow stacks defends against memory overflow attacks, this paper introduces a generic LLM jailbreak defense framework called SelfDefend, which establishes a shadow LLM as a defense instance to concurrently protect the target LLM instance in the normal stack and collaborate with it for checkpoint-based access control. The effectiveness of SelfDefend builds upon our observation that existing LLMs (both target and defense LLMs) have the capability to identify harmful prompts or intentions in user queries, which we empirically validate using the commonly used GPT-3.5/4 models across all major jailbreak attacks. To further improve the defense's robustness and minimize costs, we employ a data distillation approach to tune dedicated open-source defense models. These models outperform six state-of-the-art defenses and match the performance of GPT-4-based SelfDefend, with significantly lower extra delays. We also empirically show that the tuned models are robust to adaptive jailbreaks and prompt injections.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-05
# 移動赤外小ターゲット検出のための周波数認識メモリ拡張を用いた三領域特徴学習

Triple-domain Feature Learning with Frequency-aware Memory Enhancement for Moving Infrared Small Target Detection ( http://arxiv.org/abs/2406.06949v2 )

ライセンス: Link先を確認
Weiwei Duan, Luping Ji, Shengjia Chen, Sicheng Zhu, Mao Ye, (参考訳) 物体検出のサブフィールドとして、移動赤外線小目標検出は、小さなターゲットサイズと背景とのコントラストの低いため、大きな課題を呈する。 現在存在する手法は主に時空間領域のみから抽出された特徴に依存している。 周波数領域は、画像処理に広く応用されているが、ほとんど関心がない。 特徴源領域を拡張し,特徴表現を強化するため,赤外小目標検出のための時空間領域に周波数認識メモリを付加した新しいトリプル領域戦略(トリド)を提案する。 この方式では、フーリエ変換を用いた局所的な周波数認識モジュールにより、周波数特性を効果的に分解し、拡張する。 人間の視覚システムにインスパイアされたメモリ拡張は、ビデオフレーム間の赤外線ターゲットの空間的関係を捉えるように設計されている。 さらに,時間的運動特徴を差分学習と残差増強によって符号化する。 さらに,クロスドメインな特徴ミスマッチを再現するために,余剰な補償を設計する。 我々の知る限り、提案するTridosは、時空間周波数領域における赤外線ターゲット特徴学習を包括的に探求する最初の試みである。 3つのデータセット(DAUB, ITSDT-15K, IRDST)に関する広範な実験は、我々のトリプルドメイン赤外線特徴学習スキームが明らかに最先端のものよりも優れていることを証明している。 ソースコードはhttps://github.com/UESTC-nnLab/Tridos.comで入手できる。

As a sub-field of object detection, moving infrared small target detection presents significant challenges due to tiny target sizes and low contrast against backgrounds. Currently-existing methods primarily rely on the features extracted only from spatio-temporal domain. Frequency domain has hardly been concerned yet, although it has been widely applied in image processing. To extend feature source domains and enhance feature representation, we propose a new Triple-domain Strategy (Tridos) with the frequency-aware memory enhancement on spatio-temporal domain for infrared small target detection. In this scheme, it effectively detaches and enhances frequency features by a local-global frequency-aware module with Fourier transform. Inspired by human visual system, our memory enhancement is designed to capture the spatial relations of infrared targets among video frames. Furthermore, it encodes temporal dynamics motion features via differential learning and residual enhancing. Additionally, we further design a residual compensation to reconcile possible cross-domain feature mismatches. To our best knowledge, proposed Tridos is the first work to explore infrared target feature learning comprehensively in spatio-temporal-frequency domains. The extensive experiments on three datasets (i.e., DAUB, ITSDT-15K and IRDST) validate that our triple-domain infrared feature learning scheme could often be obviously superior to state-of-the-art ones. Source codes are available at https://github.com/UESTC-nnLab/Tridos.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-05
# 複雑度保証によるゲートベース反断熱駆動

Gate-based counterdiabatic driving with complexity guarantees ( http://arxiv.org/abs/2406.08064v2 )

ライセンス: Link先を確認
Dyon van Vreumingen, (参考訳) 反断熱駆動のための一般完全ゲート型量子アルゴリズムを提案する。 このアルゴリズムは、従来の変分法のようなヒューリスティックスに依存しず、断熱ゲージポテンシャルの正規化を利用して、関心の固有状態からの遷移のみを抑制する。 これにより、この固有状態の周りの最小ギャップ$\Delta$という観点で、厳密な量子ゲート複雑性を上界にすることができる。 最悪の場合、このアルゴリズムは少なくとも$\tilde O(\Delta^{-(3 + o(1))} \epsilon^{-(1 + o(1))})$量子ゲートを必要とし、少なくとも1 - \epsilon^2$の目標状態忠実度を達成する。 場合によっては、ギャップ依存は2次へと改善できる。

We propose a general, fully gate-based quantum algorithm for counterdiabatic driving. The algorithm does not depend on heuristics as in previous variational methods, and exploits regularisation of the adiabatic gauge potential to suppress only the transitions from the eigenstate of interest. This allows for a rigorous quantum gate complexity upper bound in terms of the minimum gap $\Delta$ around this eigenstate. We find that, in the worst case, the algorithm requires at most $\tilde O(\Delta^{-(3 + o(1))} \epsilon^{-(1 + o(1))})$ quantum gates to achieve a target state fidelity of at least $1 - \epsilon^2$, where $\Delta$ is the minimum spectral gap. In certain cases, the gap dependence can be improved to quadratic.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-05
# 誤りを犯したのか? プロンプト工学に対するLLMの感度と一貫性の定量化

What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering ( http://arxiv.org/abs/2406.12334v2 )

ライセンス: Link先を確認
Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco, (参考訳) 大規模言語モデル(LLM)は、ソフトウェアシステムの設計とインタラクションの方法を変えました。 テキストから情報を処理し、抽出する能力は、多くのルーチンタスクにおいて、生産性を大幅に改善した。 しかし、これらのモデルをソフトウェアスタックに組み込みたい開発者は、恐ろしい課題に直面している。 そこで我々は,タスク性能を補完する2つの尺度,すなわち感度と一貫性を導入する。 第一に、感度はプロンプトの言い換えによる予測の変化を測定し、基底の真理ラベルへのアクセスを必要としない。 その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。 LLMの障害モードを理解するためのガイドラインとして,テキスト分類タスクにおいて,これらの指標を実証的に比較する。 我々の期待は、感度と一貫性は、迅速なエンジニアリングを導き、性能とロバスト性のバランスをとるLCMを得るのに役立ちます。

Large Language Models (LLMs) changed the way we design and interact with software systems. Their ability to process and extract information from text has drastically improved productivity in a number of routine tasks. Developers that want to include these models in their software stack, however, face a dreadful challenge: debugging LLMs' inconsistent behavior across minor variations of the prompt. We therefore introduce two metrics for classification tasks, namely sensitivity and consistency, which are complementary to task performance. First, sensitivity measures changes of predictions across rephrasings of the prompt, and does not require access to ground truth labels. Instead, consistency measures how predictions vary across rephrasings for elements of the same class. We perform an empirical comparison of these metrics on text classification tasks, using them as guideline for understanding failure modes of the LLM. Our hope is that sensitivity and consistency will be helpful to guide prompt engineering and obtain LLMs that balance robustness with performance.
翻訳日:2024-09-07 02:31:44 公開日:2024-09-05
# CAVE: 管理可能なオーサシップ検証説明

CAVE: Controllable Authorship Verification Explanations ( http://arxiv.org/abs/2406.16672v2 )

ライセンス: Link先を確認
Sahana Ramnath, Kartik Pandey, Elizabeth Boschee, Xiang Ren, (参考訳) 著者検証(AV)(2つの文書が同じ著者を持っているか? AVはプライベートなオフラインモデルを必要とするプロプライエタリなドメインでよく使われ、ChatGPTのようなSOTAオンラインモデルは望ましくない。 しかし、現在のオフラインモデルは、低精度/スケーラビリティ(例えば、従来のスタイロメトリーAVシステム)とアクセス可能なポストホックな説明の欠如により、ダウンストリームの有用性が低下している。 本研究は,学習したオフラインの Llama-3-8B モデル CAVE (Controllable Authorship Verification Explanations): CAVE は,(1) 構造化された自由文の AV 説明を生成する(関連する言語的特徴から部分説明に分解できる)。 我々はまず,SOTA教師モデルから所望のCAVE出力形式で銀のトレーニングデータを生成するプロンプトを設計する。 次に、このデータを慎重に選択した学生モデルであるLlama-3-8Bにフィルタし、蒸留する。 IMDb62、Blog-Auth、Fanfictionの3つの難しいAVデータセットの結果、CAVEは(自動的および人的評価によって測定される)高品質な説明と、競争力のあるタスクアキュラシーを生成する。

Authorship Verification (AV) (do two documents have the same author?) is essential in many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Current offline models however have lower downstream utility due to low accuracy/scalability (eg: traditional stylometry AV systems) and lack of accessible post-hoc explanations. In this work, we take the first step to address the above challenges with our trained, offline Llama-3-8B model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be (1) structured (can be decomposed into sub-explanations in terms of relevant linguistic features), and (2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). We first engineer a prompt that can generate silver training data from a SOTA teacher model in the desired CAVE output format. We then filter and distill this data into a pretrained Llama-3-8B, our carefully selected student model. Results on three difficult AV datasets IMDb62, Blog-Auth, and Fanfiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-05
# 実時間宇宙機熱シミュレータに向けた物理インフォームド機械学習

Physics-Informed Machine Learning Towards A Real-Time Spacecraft Thermal Simulator ( http://arxiv.org/abs/2407.06099v2 )

ライセンス: Link先を確認
Manaswin Oddiraju, Zaki Hasnain, Saptarshi Bandyopadhyay, Eric Sunada, Souma Chowdhury, (参考訳) 空気のない天体の表面探査のような複雑な宇宙ミッションのための熱状態のモデル化には、宇宙船の設計のための地上ベース分析や、自律的な運用のためのオンボード推論など、高い計算が必要である。 例えば、数百の要素を持つ有限要素熱モデルではシミュレーションにかなりの時間がかかるため、降下や着陸、近接操作、宇宙での組み立てといった時間に敏感なシナリオにおいて、オンボードの推論には適さない。 さらに、高速で正確な熱モデリングの欠如により、熱設計はより保守的になり、より大きな質量とより高い電力予算を持つ宇宙船に繋がる。 物理インフォームド機械学習(PIML)の新たなパラダイムは、単純化された物理モデルと機械学習(ML)モデルを組み合わせて、解釈可能性と堅牢性の両方を維持するモデルを作成することで、この問題に対処するハイブリッドなモデリングアーキテクチャのクラスを提示している。 このような技術は、オンボードの熱状態推定と制御を通じて質量と動力を減らした設計を可能にし、計画外のダウンタイムを含むオフノミナル状態のオンボード処理の改善につながる可能性がある。 ここで提示されるPIMLモデルまたはハイブリッドモデルは、軌道上の熱負荷条件に与えられたノイズの低減(粗いメッシュの分布とサイズ)を予測するニューラルネットワークで構成され、その後、(相対的に粗い)有限差分モデルがこのメッシュ上で動作し、熱状態を予測する。 我々は,ハイブリッドモデルの計算性能と精度を,データ駆動型ニューラルネットモデルと,地球周回小型宇宙船の高忠実度有限差分モデルと比較した。 PIMLベースのアクティブノダライゼーションアプローチは、ニューラルネットワークモデルや粗いメッシュモデルよりもはるかに優れた一般化を提供すると同時に、高忠実度モデルと比較して計算コストを最大1.7倍削減する。

Modeling thermal states for complex space missions, such as the surface exploration of airless bodies, requires high computation, whether used in ground-based analysis for spacecraft design or during onboard reasoning for autonomous operations. For example, a finite-element thermal model with hundreds of elements can take significant time to simulate, which makes it unsuitable for onboard reasoning during time-sensitive scenarios such as descent and landing, proximity operations, or in-space assembly. Further, the lack of fast and accurate thermal modeling drives thermal designs to be more conservative and leads to spacecraft with larger mass and higher power budgets. The emerging paradigm of physics-informed machine learning (PIML) presents a class of hybrid modeling architectures that address this challenge by combining simplified physics models with machine learning (ML) models resulting in models which maintain both interpretability and robustness. Such techniques enable designs with reduced mass and power through onboard thermal-state estimation and control and may lead to improved onboard handling of off-nominal states, including unplanned down-time. The PIML model or hybrid model presented here consists of a neural network which predicts reduced nodalizations (distribution and size of coarse mesh) given on-orbit thermal load conditions, and subsequently a (relatively coarse) finite-difference model operates on this mesh to predict thermal states. We compare the computational performance and accuracy of the hybrid model to a data-driven neural net model, and a high-fidelity finite-difference model of a prototype Earth-orbiting small spacecraft. The PIML based active nodalization approach provides significantly better generalization than the neural net model and coarse mesh model, while reducing computing cost by up to 1.7x compared to the high-fidelity model.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-05
# LuSNAR:Muti-Sensorを用いた自律探査用月面セグメンテーション・ナビゲーション・リコンストラクションデータセット

LuSNAR:A Lunar Segmentation, Navigation and Reconstruction Dataset based on Muti-sensor for Autonomous Exploration ( http://arxiv.org/abs/2407.06512v2 )

ライセンス: Link先を確認
Jiayi Liu, Qianyu Zhang, Xue Wan, Shengyang Zhang, Yaolin Tian, Haodong Han, Yutao Zhao, Baichuan Liu, Zeyuan Zhao, Xubo Luo, (参考訳) 月探査ミッションの複雑さにより、月はより高いレベルの自律性を持つ必要がある。 環境認識とナビゲーションアルゴリズムは、月探査船が自律的な探査を行うための基盤となっている。 アルゴリズムの開発と検証には信頼性の高いデータサポートが必要である。 既存の月のデータセットのほとんどは単一のタスクをターゲットにしており、多様なシーンと高精度の地上真実ラベルが欠如している。 この問題に対処するため,マルチタスク,マルチシーン,マルチラベルのベンチマークデータセットLuSNARを提案する。 このデータセットは、高解像度ステレオ画像ペア、パノラマセマンティックラベル、密度深度マップ、LiDAR点雲、ローバーの位置など、自律認識とナビゲーションシステムの総合的な評価に使用することができる。 よりリッチなシーンデータを提供するため,Unreal Engineをベースとした9つの月面シミュレーションシーンを構築した。 各シーンは、地形レリーフと物体の密度に応じて分割される。 データセットのユーザビリティを検証するために,セマンティックセグメンテーション,3次元再構成,自律ナビゲーションのアルゴリズムを評価し,分析した。 実験の結果,本論文で提案するデータセットは,自律環境認識やナビゲーションなどのタスクの地上検証に利用でき,アルゴリズムメトリクスのアクセシビリティをテストするためのベンチマークデータセットを提供する。 LuSNAR を https://github.com/autumn999999/LuSNAR-dataset で公開しています。

With the complexity of lunar exploration missions, the moon needs to have a higher level of autonomy. Environmental perception and navigation algorithms are the foundation for lunar rovers to achieve autonomous exploration. The development and verification of algorithms require highly reliable data support. Most of the existing lunar datasets are targeted at a single task, lacking diverse scenes and high-precision ground truth labels. To address this issue, we propose a multi-task, multi-scene, and multi-label lunar benchmark dataset LuSNAR. This dataset can be used for comprehensive evaluation of autonomous perception and navigation systems, including high-resolution stereo image pairs, panoramic semantic labels, dense depth maps, LiDAR point clouds, and the position of rover. In order to provide richer scene data, we built 9 lunar simulation scenes based on Unreal Engine. Each scene is divided according to topographic relief and the density of objects. To verify the usability of the dataset, we evaluated and analyzed the algorithms of semantic segmentation, 3D reconstruction, and autonomous navigation. The experiment results prove that the dataset proposed in this paper can be used for ground verification of tasks such as autonomous environment perception and navigation, and provides a lunar benchmark dataset for testing the accessibility of algorithm metrics. We make LuSNAR publicly available at: https://github.com/autumn999999/LuSNAR-dataset.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-05
# ハイパーグラフ多モード大言語モデル:映像理解のための不均一応答評価のための脳波と視線追跡モダリティの爆発

Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding ( http://arxiv.org/abs/2407.08150v3 )

ライセンス: Link先を確認
Minghui Wu, Chenxu Zhao, Anyang Su, Donglin Di, Tianyu Fu, Da An, Min He, Ya Gao, Meng Ma, Kun Yan, Ping Wang, (参考訳) ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。 現在この分野には研究の欠如があり、既存のベンチマークにはいくつかの欠点がある。 1) モダリティの限定数及び制限長の回答 2)ビデオの内容とシナリオは過度に単調であり,過度に単純化された情動や情動を伝達する。 実世界のアプリケーションとのギャップを埋めるために、ビデオデータセット、すなわちSRI-ADVのための大規模主観応答指標を導入する。 具体的には、脳波(EEG)と視線追跡領域の実際の変化を異なる人口層から収集し、同じ映像コンテンツを視聴した。 このマルチモーダルデータセットを用いて、異なるユーザ間での映像コンテンツの認知的理解度を分析し評価するタスクとプロトコルを開発した。 このデータセットと合わせて,HMLLM(Hypergraph Multi-modal Large Language Model)を設計し,人口動態,ビデオ要素,脳波,視線追跡指標の関連性について検討した。 HMLLMは、豊富なモダリティにセマンティックギャップを埋め、異なるモダリティを超えて情報を統合して論理的推論を行うことができる。 SRI-ADVおよび他のビデオベース生成性能ベンチマークの大規模実験により,本手法の有効性が示された。 コードとデータセットはhttps://github.com/mininglamp-MLLM/HMLLMで公開される。

Understanding of video creativity and content often varies among individuals, with differences in focal points and cognitive levels across different ages, experiences, and genders. There is currently a lack of research in this area, and most existing benchmarks suffer from several drawbacks: 1) a limited number of modalities and answers with restrictive length; 2) the content and scenarios within the videos are excessively monotonous, transmitting allegories and emotions that are overly simplistic. To bridge the gap to real-world applications, we introduce a large-scale Subjective Response Indicators for Advertisement Videos dataset, namely SRI-ADV. Specifically, we collected real changes in Electroencephalographic (EEG) and eye-tracking regions from different demographics while they viewed identical video content. Utilizing this multi-modal dataset, we developed tasks and protocols to analyze and evaluate the extent of cognitive understanding of video content among different users. Along with the dataset, we designed a Hypergraph Multi-modal Large Language Model (HMLLM) to explore the associations among different demographics, video elements, EEG, and eye-tracking indicators. HMLLM could bridge semantic gaps across rich modalities and integrate information beyond different modalities to perform logical reasoning. Extensive experimental evaluations on SRI-ADV and other additional video-based generative performance benchmarks demonstrate the effectiveness of our method. The codes and dataset will be released at https://github.com/mininglamp-MLLM/HMLLM.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-05
# モデル後空間探索による骨格に基づく行動認識のための逆変換性の向上

Boosting Adversarial Transferability for Skeleton-based Action Recognition via Exploring the Model Posterior Space ( http://arxiv.org/abs/2407.08572v2 )

ライセンス: Link先を確認
Yunfeng Diao, Baiqi Wu, Ruixuan Zhang, Xun Yang, Meng Wang, He Wang, (参考訳) 骨格運動はヒトの活動認識(HAR)において重要な役割を果たす。 近年,骨格型HAR(S-HAR)の普遍的脆弱性を特定する攻撃法が提案されている。 しかし、S-HARの対向移動性の研究はほとんど欠落している。 さらに重要なのは、既存の攻撃はすべて未知のS-HARモデル間の転送に苦労していることだ。 我々は、アクション認識器の損失景観が頑丈で鋭いことを観察した。 ロスランドスケープと逆転性の間の先行研究〜\cite{qin2022boosting,wu2020towards} の確立された相関を考えると、ロスランドスケープの平滑化はS-HARの逆転性を改善する可能性があると仮定し、実証的に検証する。 これは、再訓練を必要とせず、サロゲートの集合に対するモデル後部空間を効果的に探索できる新しいデュアルベイズ戦略を提案することで達成される。 さらに、運動多様体に沿った逆例を作成するために、攻撃勾配をベイズ方式の運動力学の情報に組み込む。 ベンチマークデータセット、例えばHDM05とNTU 60で評価すると、平均転送成功率はそれぞれ35.9\%と45.5\%に達する。 対照的に、現在の最先端の骨格攻撃は3.6\%と9.8\%しか達成していない。 高い敵の移動性は、様々なサロゲート、犠牲者、さらには防衛モデルの間で一貫している。 結果の包括的分析を通じて、サロゲートが転送可能性を示す可能性がより高く、将来の研究に光を当てることのできる知見を提供する。

Skeletal motion plays a pivotal role in human activity recognition (HAR). Recently, attack methods have been proposed to identify the universal vulnerability of skeleton-based HAR(S-HAR). However, the research of adversarial transferability on S-HAR is largely missing. More importantly, existing attacks all struggle in transfer across unknown S-HAR models. We observed that the key reason is that the loss landscape of the action recognizers is rugged and sharp. Given the established correlation in prior studies~\cite{qin2022boosting,wu2020towards} between loss landscape and adversarial transferability, we assume and empirically validate that smoothing the loss landscape could potentially improve adversarial transferability on S-HAR. This is achieved by proposing a new post-train Dual Bayesian strategy, which can effectively explore the model posterior space for a collection of surrogates without the need for re-training. Furthermore, to craft adversarial examples along the motion manifold, we incorporate the attack gradient with information of the motion dynamics in a Bayesian manner. Evaluated on benchmark datasets, e.g. HDM05 and NTU 60, the average transfer success rate can reach as high as 35.9\% and 45.5\% respectively. In comparison, current state-of-the-art skeletal attacks achieve only 3.6\% and 9.8\%. The high adversarial transferability remains consistent across various surrogate, victim, and even defense models. Through a comprehensive analysis of the results, we provide insights on what surrogates are more likely to exhibit transferability, to shed light on future research.
翻訳日:2024-09-07 02:22:00 公開日:2024-09-05
# GNNのための通勤時間最適化グラフ

Commute-Time-Optimised Graphs for GNNs ( http://arxiv.org/abs/2407.08762v3 )

ライセンス: Link先を確認
Igor Sterner, Shiye Su, Petar Veličković, (参考訳) 通勤時間を最適化するグラフ再構成法について検討する。 最近のグラフリウィリングアプローチはスパースグラフにおける長距離相互作用を促進し、そのようなリウィリングを平均的に通勤時間に最適化する。 しかし、どのノードペアが相互作用すべきでなければ、専門家が事前に存在する場合、優れたリライトはこれらの特権ノードペア間の短い通勤時間を好む。 我々は、現実的な設定を反映した、既知の事前を反映した2つの合成データセットを構築し、これらを用いて、既知の事前を組み込んだ2つのbespoke rewiringメソッドの動機付けを行う。 本研究は, 合成データセットにおいて, 再配線により試験性能が向上する状況について検討する。 最後に,本研究の実践的意義を明らかにするために,実世界の引用グラフのケーススタディを行う。

We explore graph rewiring methods that optimise commute time. Recent graph rewiring approaches facilitate long-range interactions in sparse graphs, making such rewirings commute-time-optimal on average. However, when an expert prior exists on which node pairs should or should not interact, a superior rewiring would favour short commute times between these privileged node pairs. We construct two synthetic datasets with known priors reflecting realistic settings, and use these to motivate two bespoke rewiring methods that incorporate the known prior. We investigate the regimes where our rewiring improves test performance on the synthetic datasets. Finally, we perform a case study on a real-world citation graph to investigate the practical implications of our work.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# 個人化学生支援のためのオントロジー駆動型強化学習

Ontology-driven Reinforcement Learning for Personalized Student Support ( http://arxiv.org/abs/2407.10332v2 )

ライセンス: Link先を確認
Ryan Hare, Ying Tang, (参考訳) より効果的な教育を求めて、学生教育をパーソナライズするためのより良いアプローチを開発するために広く努力されている。 未支援の教育者は、特定の教室で生徒全員を個人的に支援する時間やリソースを持っていないことが多い。 この問題に触発され,近年の人工知能の進歩により,本研究では,真剣なゲームや知的学習システムなどの仮想教育システムに適用可能な,パーソナライズされた学生支援のための汎用フレームワークを提案する。 いずれの教育状況にも適合するため,本研究では,データ収集とマルチエージェント強化学習を組み合わせて,その意味体系にオントロジーを適用した。 その結果、学生にパーソナライズされた支援を提供するために、どんなバーチャル教育ソフトウェアにも適応できるモジュールシステムとなった。

In the search for more effective education, there is a widespread effort to develop better approaches to personalize student education. Unassisted, educators often do not have time or resources to personally support every student in a given classroom. Motivated by this issue, and by recent advancements in artificial intelligence, this paper presents a general-purpose framework for personalized student support, applicable to any virtual educational system such as a serious game or an intelligent tutoring system. To fit any educational situation, we apply ontologies for their semantic organization, combining them with data collection considerations and multi-agent reinforcement learning. The result is a modular system that can be adapted to any virtual educational software to provide useful personalized assistance to students.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# 多体局在化による変分量子固有解法の改善

Improve Variational Quantum Eigensolver by Many-Body Localization ( http://arxiv.org/abs/2407.11589v2 )

ライセンス: Link先を確認
Li Xin, Zhang-qi Yin, (参考訳) 変分量子アルゴリズムは、量子シミュレーション、最適化、機械学習に広く応用されるように、実験と理論の両方の文脈で広く実証されてきた。 しかし、ヒルベルト空間の次元の指数的な成長は、バレンプラトー現象として知られる量子ビットの数と回路深さの増加によって回路内のパラメータ勾配が消滅する現象をもたらす。 近年、非平衡統計物理学の研究が多体局在の発見につながっている。 フラケット系の一種として, 多体局所花束系は, 広いパラメータ空間範囲で熱化を回避し, 時間結晶の生成を実験的に実証している。 この回路を多体基底状態の計算のための変分量子アルゴリズムに適用し,パラメータ更新のための勾配のばらつきについて検討した。 この回路構造はバレン高原を効果的に回避できることがわかった。 また,この回路のエントロピー成長,情報スクランブル,オプティマイザダイナミクスを解析した。 この特徴を生かして,我々は「多体局所化アンザッツ」と呼ばれる新しいタイプの変分アンザッツを設計した。 量子多体基底状態の解法として応用し,その回路特性について検討した。 数値計算の結果,我々のアンサッツは変分量子アルゴリズムを大幅に改善した。

Variational quantum algorithms have been widely demonstrated in both experimental and theoretical contexts to have extensive applications in quantum simulation, optimization, and machine learning. However, the exponential growth in the dimension of the Hilbert space results in the phenomenon of vanishing parameter gradients in the circuit as the number of qubits and circuit depth increase, known as the barren plateau phenomena. In recent years, research in non-equilibrium statistical physics has led to the discovery of the realization of many-body localization. As a type of floquet system, many-body localized floquet system has phase avoiding thermalization with an extensive parameter space coverage and have been experimentally demonstrated can produce time crystals. We applied this circuit to the variational quantum algorithms for the calculation of many-body ground states and studied the variance of gradient for parameter updates under this circuit. We found that this circuit structure can effectively avoid barren plateaus. We also analyzed the entropy growth, information scrambling, and optimizer dynamics of this circuit. Leveraging this characteristic, we designed a new type of variational ansatz, called the 'many-body localization ansatz'. We applied it to solve quantum many-body ground states and examined its circuit properties. Our numerical results show that our ansatz significantly improved the variational quantum algorithm.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# 都市空調における信頼性・リアルタイムフリートスケジューリングのためのグラフベース逆模倣学習フレームワーク

A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility ( http://arxiv.org/abs/2407.12113v2 )

ライセンス: Link先を確認
Prithvi Poddar, Steve Paul, Souma Chowdhury, (参考訳) UAM(Urban Air Mobility)の出現は、都市交通の領域における変革的シフトの範囲を示す。 しかし、その普及と経済性は、空域の混雑、気象条件の変化、および様々な要求に起因する不確実性の下で、UAMネットワーク内のバーチポートを横断する航空機の艦隊を最適にスケジュールする能力に部分的に依存している。 そこで本論文では, 整数型非線形計画問題の直接解法は, 日次スケジューリングでは計算が不可能であるため, フラッグスケジューリング問題の総合的な最適化を図りながら, 代替解法の必要性を同定する。 従来の研究は、(グラフ)強化学習(RL)アプローチを用いて、艦隊スケジューリングのためのリアルタイム実行可能なポリシーモデルを訓練することの有効性を示した。 しかし、そのようなポリシーは、アウト・オブ・ディストリビューションのシナリオやエッジのケースでは不安定であることが多い。 さらに、問題の複雑さ(例えば制約の数)が増加するにつれて、トレーニングパフォーマンスも悪化する。 これらの問題に対処するために,RLに基づくポリシーは,遺伝的アルゴリズムを用いて正確な最適化を解くことで得られる専門家の実証を活用できる模擬学習手法を提案する。 ポリシーモデルは、バーティポートと航空機の空間を埋め込むグラフニューラルネットワーク(GNN)ベースのエンコーダ、需要、乗客運賃、輸送コストプロファイルをエンコードするトランスフォーマーネットワーク、マルチヘッドアテンション(MHA)ベースのデコーダを含む。 専門家によるデモンストレーションは、GAIL(Generative Adversarial Imitation Learning)アルゴリズムを通じて行われている。 8機と40機からなるUAMシミュレーション環境と対話し、毎日の利益が報われるという観点から、新しい模倣アプローチは、純粋なRL結果と比較して、目に見えない最悪のシナリオの場合において、より良い平均性能と顕著な改善を達成する。

The advent of Urban Air Mobility (UAM) presents the scope for a transformative shift in the domain of urban transportation. However, its widespread adoption and economic viability depends in part on the ability to optimally schedule the fleet of aircraft across vertiports in a UAM network, under uncertainties attributed to airspace congestion, changing weather conditions, and varying demands. This paper presents a comprehensive optimization formulation of the fleet scheduling problem, while also identifying the need for alternate solution approaches, since directly solving the resulting integer nonlinear programming problem is computationally prohibitive for daily fleet scheduling. Previous work has shown the effectiveness of using (graph) reinforcement learning (RL) approaches to train real-time executable policy models for fleet scheduling. However, such policies can often be brittle on out-of-distribution scenarios or edge cases. Moreover, training performance also deteriorates as the complexity (e.g., number of constraints) of the problem increases. To address these issues, this paper presents an imitation learning approach where the RL-based policy exploits expert demonstrations yielded by solving the exact optimization using a Genetic Algorithm. The policy model comprises Graph Neural Network (GNN) based encoders that embed the space of vertiports and aircraft, Transformer networks to encode demand, passenger fare, and transport cost profiles, and a Multi-head attention (MHA) based decoder. Expert demonstrations are used through the Generative Adversarial Imitation Learning (GAIL) algorithm. Interfaced with a UAM simulation environment involving 8 vertiports and 40 aircrafts, in terms of the daily profits earned reward, the new imitative approach achieves better mean performance and remarkable improvement in the case of unseen worst-case scenarios, compared to pure RL results.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# 2方向注意混合特徴ネットワークによる顔表情認識の強化:第7回ABAWチャレンジへの適用

Enhancing Facial Expression Recognition through Dual-Direction Attention Mixed Feature Networks: Application to 7th ABAW Challenge ( http://arxiv.org/abs/2407.12390v3 )

ライセンス: Link先を確認
Josep Cabacas-Maso, Elena Ortega-Beltrán, Ismael Benito-Altamirano, Carles Ventura, (参考訳) 我々は,マルチタスク表情認識のためのDual-Direction Attention Mixed Feature Network(DDAMFN)を用いて,ECCV 2024における第7回ABAWチャレンジへのコントリビューションを行う。 本提案では, DDAMFNアーキテクチャをベースとして, 原子価覚醒, 感情認識, 顔行動単位を効果的に予測する。 これらのタスクを同時に処理するアーキテクチャ能力を実証し、アーキテクチャと設計の背後にある理論的根拠について洞察を提供する。 さらに,マルチタスクソリューションと独立したシングルタスク性能の比較を行った。

We present our contribution to the 7th ABAW challenge at ECCV 2024, by utilizing a Dual-Direction Attention Mixed Feature Network (DDAMFN) for multitask facial expression recognition, we achieve results far beyond the proposed baseline for the Multi-Task ABAW challenge. Our proposal uses the well-known DDAMFN architecture as base to effectively predict valence-arousal, emotion recognition, and facial action units. We demonstrate the architecture ability to handle these tasks simultaneously, providing insights into its architecture and the rationale behind its design. Additionally, we compare our results for a multitask solution with independent single-task performance.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# EaDeblur-GS: Gaussian Splatting を用いた3D Deblur 再建

EaDeblur-GS: Event assisted 3D Deblur Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2407.13520v3 )

ライセンス: Link先を確認
Yuchen Weng, Zhengwen Shen, Ruofan Chen, Qi Wang, Jun Wang, (参考訳) 近年,NeRF (Neural Radiance Fields) と3D Gaussian Splatting (3DGS) の開発により, 3次元劣化再建技術が著しい進歩を遂げている。 これらの技術は、ぼやけた画像入力から比較的鮮明な3D再構成を復元できるが、深刻なぼやけた複雑なカメラの動きを扱うには限界がある。 これらの課題に対処するために,3DGS の動作ぼけに対する堅牢性を高めるために,イベントカメラデータを統合した3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS)を提案する。 Adaptive Deviation Estimator (ADE) ネットワークを用いてガウス中心偏差を推定し、新しい損失関数を用いることで、EaDeblur-GS は最先端の手法に匹敵する性能を示す。

3D deblurring reconstruction techniques have recently seen significant advancements with the development of Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). Although these techniques can recover relatively clear 3D reconstructions from blurry image inputs, they still face limitations in handling severe blurring and complex camera motion. To address these issues, we propose Event-assisted 3D Deblur Reconstruction with Gaussian Splatting (EaDeblur-GS), which integrates event camera data to enhance the robustness of 3DGS against motion blur. By employing an Adaptive Deviation Estimator (ADE) network to estimate Gaussian center deviations and using novel loss functions, EaDeblur-GS achieves sharp 3D reconstructions in real-time, demonstrating performance comparable to state-of-the-art methods.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# 量子プロセッサによる大型多体ハミルトンの対角化

Diagonalization of large many-body Hamiltonians on a quantum processor ( http://arxiv.org/abs/2407.14431v2 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Mirko Amico, William Kirby, Petar Jurcevic, Arkopal Dutt, Bryce Fuller, Shelly Garion, Holger Haas, Ikko Hamamura, Alexander Ivrii, Ritajit Majumdar, Zlatko Minev, Mario Motta, Bibek Pokharel, Pedro Rivero, Kunal Sharma, Christopher J. Wood, Ali Javadi-Abhari, Antonio Mezzacapo, (参考訳) マルチボディシステムの低エネルギー推定は、計算量子科学の基盤となっている。 変分量子アルゴリズムは、プリフォールト耐性量子プロセッサの基底状態を作成するのに使用できるが、収束保証の欠如とコスト関数推定の非現実的な数の欠如により、大規模なシステムへの実験の体系的なスケーリングが妨げられる。 プリフォールトトレラントデバイスに対する大規模な実験には、変分アプローチに代わる方法が必要である。 ここでは、超伝導量子プロセッサを用いて、56箇所の2次元格子上の量子多体系の固有エネルギーを計算し、よく知られた古典的対角化手法のアナログであるクリロフ量子対角化アルゴリズムを用いて計算する。 我々は、量子プロセッサ上で実行されるトロッター化ユニタリ進化を用いて、多体ヒルベルト空間の部分空間を構築し、これらの部分空間の中で相互作用する多体ハミルトン多様体を古典的に対角化する。 これらの実験により、量子対角化アルゴリズムは量子系の計算法の基礎において、古典的な対角化アルゴリズムを補完するものであることが示された。

The estimation of low energies of many-body systems is a cornerstone of computational quantum sciences. Variational quantum algorithms can be used to prepare ground states on pre-fault-tolerant quantum processors, but their lack of convergence guarantees and impractical number of cost function estimations prevent systematic scaling of experiments to large systems. Alternatives to variational approaches are needed for large-scale experiments on pre-fault-tolerant devices. Here, we use a superconducting quantum processor to compute eigenenergies of quantum many-body systems on two-dimensional lattices of up to 56 sites, using the Krylov quantum diagonalization algorithm, an analog of the well-known classical diagonalization technique. We construct subspaces of the many-body Hilbert space using Trotterized unitary evolutions executed on the quantum processor, and classically diagonalize many-body interacting Hamiltonians within those subspaces. These experiments show that quantum diagonalization algorithms are poised to complement their classical counterpart at the foundation of computational methods for quantum systems.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# データ混合推論:BPEトークン作成者はトレーニングデータについて何を知っているか?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? ( http://arxiv.org/abs/2407.16607v3 )

ライセンス: Link先を確認
Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith, (参考訳) 今日の最強言語モデルの事前学習データは不透明であり、特に様々なドメインや言語の割合についてはほとんど知られていない。 本研究では,学習データの分布的構成を明らかにすることを目的として,データ混合推論と呼ばれる課題に取り組む。 従来見過ごされていた情報源であるバイトペア符号化(BPE)トークン化器をベースとした新たな攻撃手法を提案する。 我々の重要な洞察は、BPEトークンエータが学習したマージ規則の順序リストが、トレーニングデータ中のトークン周波数に関する情報を自然に明らかにすることです。 トークンライザのマージリストと各カテゴリのサンプルデータとが与えられた場合、トークンライザのトレーニングセット内の各カテゴリの比率を解く線形プログラムを定式化する。 制御された実験では、自然言語、プログラミング言語、データソースの既知の混合に基づいて訓練されたトークン化剤に対して、高い精度で混合比を回復することを示した。 次に、最近のLMでリリースされたオフ・ザ・シェルフトークンーザに適用する。 GPT-4o と Mistral NeMo のトークンライザは,それぞれ 39% と 47% の非英語データに対するトレーニング,Llama 3 は GPT-3.5 のトークンライザを,主にマルチリンガル (48%) の使用のために拡張し,GPT-3.5 と Claude のトークンライザは,主にコード (~60%) でトレーニングしている。 私たちは、データ事前トレーニングの現在の設計プラクティスに光を当て、LMのデータ混合推論に関する継続的な研究を刺激することを期待しています。

The pretraining data of today's strongest language models is opaque; in particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information: byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data. Given a tokenizer's merge list along with example data for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o and Mistral NeMo's tokenizers are much more multilingual than their predecessors, training on 39% and 47% non-English language data, respectively; Llama 3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.
翻訳日:2024-09-07 02:06:01 公開日:2024-09-05
# ニューラルネットワークによる人間による動的意思決定の認知モデルに向けて

Towards Neural Network based Cognitive Models of Dynamic Decision-Making by Humans ( http://arxiv.org/abs/2407.17622v2 )

ライセンス: Link先を確認
Changyu Chen, Shashank Reddy Chirra, Maria José Ferreira, Cleotilde Gonzalez, Arunesh Sinha, Pradeep Varakantham, (参考訳) 人間の認知プロセスを動的意思決定タスクでモデル化することは、AIシステムをより直感的でパーソナライズし、人間のバイアスを軽減し、シミュレーションのトレーニングを強化するため、AIの長年の取り組みである。 初期の研究では、ニューラルネットワーク(と大きな言語モデル)の利用を試みたが、すべての人間に共通のモデルが1つあり、集約された人間の振る舞いをエミュレートすることを目的としていることが多い。 しかし、それぞれの人間の行動は異質で異質であり、特定のタスクにおける特定の過去の経験に依存している。 例えば、フィッシングメールに返信する2人の個人を考えてみましょう。以前同じような脅威に遭遇し、特定した人はすぐにそれを認識するかもしれませんが、そのような経験のない人が詐欺に遭うかもしれません。 この研究では、過去の同様の状況に基づいて人間による決定が下されることを前提として、インスタンスベースの学習(IBL)を構築します。 しかし、IBLは過去の状況から現在の決定までのマッピングをキャプチャするための単純な固定形式関数に依存している。 そこで我々は,動的環境下での異質な人間の意思決定をモデル化するために,オープンな形態の非線形関数を持つ2つの新しい注目型ニューラルネットワークモデルを提案する。 我々は、人間の被験者実験データから収集された2つの異なるデータセットを実験し、1つは、人間によるフィッシングメールの検出に焦点を当て、もう1つは、サイバーセキュリティ設定で攻撃者として行動し、攻撃オプションを決定する。 IBLとGPT3.5の2つのニューラルネットワークモデルを用いた広範囲な実験を行い、そのニューラルネットワークモデルが人間の意思決定の表現においてILBよりも優れており、人間による決定の解釈可能性もIBLと同様であることを示した。 全体として、我々の研究は、人間の意思決定の認知的モデリングにニューラルネットワークをさらに活用するための有望な結果をもたらす。

Modeling human cognitive processes in dynamic decision-making tasks has been an endeavor in AI for a long time because such models can help make AI systems more intuitive, personalized, mitigate any human biases, and enhance training in simulation. Some initial work has attempted to utilize neural networks (and large language models) but often assumes one common model for all humans and aims to emulate human behavior in aggregate. However, the behavior of each human is distinct, heterogeneous, and relies on specific past experiences in certain tasks. For instance, consider two individuals responding to a phishing email: one who has previously encountered and identified similar threats may recognize it quickly, while another without such experience might fall for the scam. In this work, we build on Instance Based Learning (IBL) that posits that human decisions are based on similar situations encountered in the past. However, IBL relies on simple fixed form functions to capture the mapping from past situations to current decisions. To that end, we propose two new attention-based neural network models to have open form non-linear functions to model distinct and heterogeneous human decision-making in dynamic settings. We experiment with two distinct datasets gathered from human subject experiment data, one focusing on detection of phishing email by humans and another where humans act as attackers in a cybersecurity setting and decide on an attack option. We conducted extensive experiments with our two neural network models, IBL, and GPT3.5, and demonstrate that the neural network models outperform IBL significantly in representing human decision-making, while providing similar interpretability of human decisions as IBL. Overall, our work yields promising results for further use of neural networks in cognitive modeling of human decision making.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# 積分可能量子回路の一般化力学

Generalized hydrodynamics of integrable quantum circuits ( http://arxiv.org/abs/2408.00474v2 )

ライセンス: Link先を確認
Friedrich Hübner, Eric Vernier, Lorenzo Piroli, (参考訳) 量子回路は、時間差$\tau$の離散トロッターステップを実装することで、多体ハミルトンの連続時間力学をシミュレートすることができる。 しかし、$\tau$が十分に大きい場合、離散力学は元の進化と比べて質的な違いを示し、新しい特徴と多体効果を示す可能性がある。 この現象の興味深い例として、原型可積分モデルであるXXZハイゼンベルクスピン鎖の可積分トロッター化を考える。 大規模システムの2つのハーフを異なるマクロ状態に準備し、突然結合し、非自明な非平衡力学をもたらす、よく知られた分割プロトコルに焦点を当てる。 積分可能モデルの最近の結果に基づいて一般化流体力学(GHD)を適用することにより、入力された左右のキュービットが2つの異なる積状態で初期化される明示的な1次元量子回路設定の大規模記述を開発する。 本稿では,GHD方程式によって予測される現象論について考察する。 パラメータ空間のいくつかの位相において、量子回路の大規模力学は連続時間進化と定性的に異なることを示す。 特に、単一量子ビットの付加のような接合部の単一顕微鏡欠陥は、遅く出現する非平衡マクロ状態を変化させる可能性がある。

Quantum circuits make it possible to simulate the continuous-time dynamics of a many-body Hamiltonian by implementing discrete Trotter steps of duration $\tau$. However, when $\tau$ is sufficiently large, the discrete dynamics exhibit qualitative differences compared to the original evolution, potentially displaying novel features and many-body effects. We study an interesting example of this phenomenon, by considering the integrable Trotterization of a prototypical integrable model, the XXZ Heisenberg spin chain. We focus on the well-known bipartition protocol, where two halves of a large system are prepared in different macrostates and suddenly joined together, yielding non-trivial nonequilibrium dynamics. Building upon recent results and adapting the generalized hydrodynamics (GHD) of integrable models, we develop an exact large-scale description of an explicit one-dimensional quantum-circuit setting, where the input left and right qubits are initialized in two distinct product states. We explore the phenomenology predicted by the GHD equations, which depend on the Trotter step and the gate parameters. In some phases of the parameter space, we show that the quantum-circuit large-scale dynamics is qualitatively different compared to the continuous-time evolution. In particular, we find that a single microscopic defect at the junction, such as the addition of a single qubit, may change the nonequilibrium macrostate appearing at late time.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# 高時間変動を有する点雲における3次元物体追跡

3D Single-object Tracking in Point Clouds with High Temporal Variation ( http://arxiv.org/abs/2408.02049v2 )

ライセンス: Link先を確認
Qiao Wu, Kun Sun, Pei An, Mathieu Salzmann, Yanning Zhang, Jiaqi Yang, (参考訳) 点雲の高時間変動は、3D単一物体追跡(3D SOT)の鍵となる課題である。 既存のアプローチは、点雲の形状変化と、隣接するフレームを横切る物体の運動が滑らかであり、高時間変動データに対処できないという仮定に依存している。 本稿では,HVTrackと呼ばれる高時間変動の点群における3次元SOTのための新しいフレームワークを提案する。 HVTrackは、高時間変動シナリオにおける課題に取り組むために、3つの新しいコンポーネントを提案する。 1) 時間点雲の形状の変動を処理する相対型対応メモリモジュール。 2) 拡張検索領域における類似の物体の散逸に対処する基地拡張機能横断モジュール 3)重い背景雑音を抑えるためのコンテキストポイントガイド自己注意モジュール。 我々は、KITTIデータセットのサンプリングのために異なるフレーム間隔を設定することで、高時間変動(KITTI-HV)を持つデータセットを構築する。 5フレーム間隔のKITTI-HVでは、私たちのHVTrackは、最先端のトラッカーであるCXTrackerを11.3%/15.7%上回っている。

The high temporal variation of the point clouds is the key challenge of 3D single-object tracking (3D SOT). Existing approaches rely on the assumption that the shape variation of the point clouds and the motion of the objects across neighboring frames are smooth, failing to cope with high temporal variation data. In this paper, we present a novel framework for 3D SOT in point clouds with high temporal variation, called HVTrack. HVTrack proposes three novel components to tackle the challenges in the high temporal variation scenario: 1) A Relative-Pose-Aware Memory module to handle temporal point cloud shape variations; 2) a Base-Expansion Feature Cross-Attention module to deal with similar object distractions in expanded search areas; 3) a Contextual Point Guided Self-Attention module for suppressing heavy background noise. We construct a dataset with high temporal variation (KITTI-HV) by setting different frame intervals for sampling in the KITTI dataset. On the KITTI-HV with 5 frame intervals, our HVTrack surpasses the state-of-the-art tracker CXTracker by 11.3%/15.7% in Success/Precision.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# ランダウアーの原理とブラックホール領域の量子化

Landauer's principle and black hole area quantization ( http://arxiv.org/abs/2408.02077v2 )

ライセンス: Link先を確認
Bijan Bagchi, Aritra Ghosh, Sauvik Sen, (参考訳) この記事では、シュワルツシルトブラックホールの領域量子化の文脈における情報理論からランダウアーの原理を評価する。 ホーキング蒸発が領域(または質量)スペクトルの離散状態間の遷移の観点で解釈できる量子力学的視点の中では、ランダウアーの原理は、ブラックホールのミクロ状態の数が2^n$になるときに飽和形で一貫して成り立つことを正当化する。 これは、$\Delta A = \alpha l_P^2$(自然単位)の領域と等価であり、$\alpha = 4 \ln 2$ はボルツマン単位の連続レベル間のエントロピー間隔がちょうど1ビットの情報と一致する。 また、文献で一般的な$\alpha$の他の値についてもコメントします。

This article assesses Landauer's principle from information theory in the context of area quantization of the Schwarzschild black hole. Within a quantum-mechanical perspective where Hawking evaporation can be interpreted in terms of transitions between the discrete states of the area (or mass) spectrum, we justify that Landauer's principle holds consistently in the saturated form when the number of microstates of the black hole goes as $2^n$, where $n$ is a large positive integer labeling the levels of the area/mass spectrum in the semiclassical regime. This is equivalent to the area spacing $\Delta A = \alpha l_P^2$ (in natural units), where $\alpha = 4 \ln 2$ for which the entropy spacing between consecutive levels in Boltzmann units coincides exactly with one bit of information. We also comment on the situation for other values of $\alpha$ prevalent in the literature.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# 知覚・反射・計画:指導無しのゴール指向型都市ナビゲーションのためのLLMエージェントの設計

Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions ( http://arxiv.org/abs/2408.04168v2 )

ライセンス: Link先を確認
Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li, (参考訳) 本稿では、都市ナビゲーションにおけるシナリオについて考察する:AIエージェントは、よく知られたランドマークに対する目標位置の言語記述を提供する;ランドマークと道路ネットワーク接続の認識を含む周囲のシーンのみを観察することにより、エージェントは指示なしで目標位置へのナビゲーションを決定する必要がある。 この問題は、しばしばランドマークが見えない複雑な都市環境の自己配置と空間表現を取得するためにエージェントが必要であるため、非常に難しい。 ナビゲーションの指示がない場合、このような能力は、長距離都市ナビゲーションにおいて高品質な意思決定を行うために、エージェントにとって不可欠である。 大規模言語モデル(LLM)の創発的推論能力によって、誘惑のベースラインは、それぞれの観察に対してLSMに「反応」させ、それに応じて決定を下すことである。 しかし、このベースラインは非常に貧弱なパフォーマンスのため、エージェントは頻繁に同じ場所を訪れ、近視眼的で一貫性のない決定をする。 これらの課題に対処するために,本論文では,その知覚・反映・計画能力に特徴付けられる新しいエージェントワークフローを提案する。 具体的には、LLaVA-7Bは、都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。 さらに、過去の体験を記憶するメモリ機構を通じてリフレクションを達成し、現在の認識で検索して効果的な意思決定の議論を行う。 計画では、リフレクション結果を使って長期計画を作成し、長距離航法における短期的な決定を避けることができる。 設計したワークフローは、最先端のベースラインと比較して、LLMエージェントのナビゲーション能力を大幅に改善する。

This paper considers a scenario in city navigation: an AI agent is provided with language descriptions of the goal location with respect to some well-known landmarks; By only observing the scene around, including recognizing landmarks and road network connections, the agent has to make decisions to navigate to the goal location without instructions. This problem is very challenging, because it requires agent to establish self-position and acquire spatial representation of complex urban environment, where landmarks are often invisible. In the absence of navigation instructions, such abilities are vital for the agent to make high-quality decisions in long-range city navigation. With the emergent reasoning ability of large language models (LLMs), a tempting baseline is to prompt LLMs to "react" on each observation and make decisions accordingly. However, this baseline has very poor performance that the agent often repeatedly visits same locations and make short-sighted, inconsistent decisions. To address these issues, this paper introduces a novel agentic workflow featured by its abilities to perceive, reflect and plan. Specifically, we find LLaVA-7B can be fine-tuned to perceive the direction and distance of landmarks with sufficient accuracy for city navigation. Moreover, reflection is achieved through a memory mechanism, where past experiences are stored and can be retrieved with current perception for effective decision argumentation. Planning uses reflection results to produce long-term plans, which can avoid short-sighted decisions in long-range navigation. We show the designed workflow significantly improves navigation ability of the LLM agent compared with the state-of-the-art baselines.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# 多出力および多出力量子シナリオにおけるランダム性と非局所性

Randomness versus Nonlocality in Multi-input and Multi-output Quantum Scenario ( http://arxiv.org/abs/2408.04566v2 )

ライセンス: Link先を確認
Chao Zhang, Yi Li, Xiao-Min Hu, Yu Xiang, Chuan-Feng Li, Guang-Can Guo, Jordi Tura, Qihuang Gong, Qiongyi He, Bi-Heng Liu, (参考訳) ベル非局所性に基づくデバイス非依存ランダム性認証は、デバイスに関する仮定を一切必要とせず、したがって適切なセキュリティを提供する。 非局所性は量子ランダム性を生成するのに必要であることを示すために多大な努力がなされてきたが、乱数生成に必要な最小限の資源は明らかにされていない。 ここでは、まず、任意の2入力ベルの不等式に違反することがランダム性を証明するのに必要かつ十分であることを証明し、実験的に証明するが、多入力の場合において、この十分性は適用されなくなり、ランダム性を証明する能力のないベル非局所性を示す状態が生じる。 我々は高次元フォトニックシステムにおいて,多入出力および多出力のベル不等式,ファセット不等式,およびSalavrakos-Augusiak-Tura-Wittek-Ac\in-Pironio Bell不等式の2つの典型的なクラスを検討した。 1光子対あたり1.867\pm0.018ビットを生成するプライベートランダム性は、3インプットと4アウトプットを持つSalavrakos-Augusiak-Tura-Wittek-Ac\in-Pironio Bellの不等式のシナリオで得られる。 本研究は, ランダム性と非局所性との間の内部関係を解明し, デバイス非依存型乱数生成などのタスクの性能を効果的に向上する。

Device-independent randomness certification based on Bell nonlocality does not require any assumptions about the devices and therefore provides adequate security. Great effort has been made to demonstrate that nonlocality is necessary for generating quantum randomness, but the minimal resource required for random number generation has not been clarified. Here we first prove and experimentally demonstrate that violating any two-input Bell inequality is both necessary and sufficient for certifying randomness, however, for the multi-input cases, this sufficiency ceases to apply, leading to certain states exhibiting Bell nonlocality without the capability to certify randomness. We examine two typical classes of Bell inequalities with multi-input and multi-output, the facet inequalities and Salavrakos-Augusiak-Tura-Wittek-Ac\'in-Pironio Bell inequalities, in the high-dimensional photonic system, and observe the violation of the latter one can always certify randomness which is not true for the former. The private randomness with a generation rate of 1.867\pm0.018 bits per photon pair is obtained in the scenario of Salavrakos-Augusiak-Tura-Wittek-Ac\'in-Pironio Bell inequalities with 3-input and 4-output. Our work unravels the internal connection between randomness and nonlocality, and effectively enhances the performance of tasks such as device-independent random number generation.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# 熱力学における時間-コスト・エラーのトレードオフ関係--第三法則とそれを超える

Time-cost-error trade-off relation in thermodynamics: The third law and beyond ( http://arxiv.org/abs/2408.04576v2 )

ライセンス: Link先を確認
Tan Van Vu, Keiji Saito, (参考訳) 物理系に固有の基本的な限界を解明することは物理学の中心的な主題である。 情報消去、冷却、複写などの重要な熱力学的操作には、所定の誤差範囲内で所望の結果を達成するために、時間やエネルギーコストなどの資源を精査する必要がある。 本研究では,非占有国と占領国からなる分離国家の概念を紹介する。 この概念は、関連する熱力学操作に関わる多くの臨界状態を一般化する。 次に、分離状態の生成を目的とした一般的な熱力学演算の時間、コスト、誤差の3方向のトレードオフ関係を明らかにし、単に$\tau\mathcal{C}\varepsilon_{\tau}\ge 1-\eta$と表現する。 この基本的な関係は、情報消去、冷却、複写を含む様々な熱力学的操作に適用できる。 これは、一般的な形の熱力学の第3法則における不到達原理の深い定量化を与える。 この関係に基づいて、冷却操作の量的制限、分離状態の準備、そして正確な古典的複写のためのノーゴー定理について検討する。 さらに、これらの結果は、マルコフ力学と非マルコフ力学の両方を含む量子状態にまで拡張する。 具体的には、リンドブラッド力学において、与えられた誤差で純粋な状態を達成するコストを定量化する同様の3方向のトレードオフ関係を導出する。 有限浴に結合した系を含む一般的な量子力学への一般化は、量子系が完全に基底状態に冷却されたり、純粋状態に完全にリセットされたりすることによって、熱散逸が無限となることを意味する。

Elucidating fundamental limitations inherent in physical systems is a central subject in physics. For important thermodynamic operations such as information erasure, cooling, and copying, resources like time and energetic cost must be expended to achieve the desired outcome within a predetermined error margin. In this study, we introduce the concept of separated states, which consist of fully unoccupied and occupied states. This concept generalizes many critical states involved in relevant thermodynamic operations. We then uncover a three-way trade-off relation between time, cost, and error for a general class of thermodynamic operations aimed at creating separated states, simply expressed as $\tau\mathcal{C}\varepsilon_{\tau}\ge 1-\eta$. This fundamental relation is applicable to diverse thermodynamic operations, including information erasure, cooling, and copying. It provides a profound quantification of the unattainability principle in the third law of thermodynamics in a general form. Building upon this relation, we explore the quantitative limitations governing cooling operations, the preparation of separated states, and a no-go theorem for exact classical copying. Furthermore, we extend these findings to the quantum regime, encompassing both Markovian and non-Markovian dynamics. Specifically, within Lindblad dynamics, we derive a similar three-way trade-off relation that quantifies the cost of achieving a pure state with a given error. The generalization to general quantum dynamics involving a system coupled to a finite bath implies that heat dissipation becomes infinite as the quantum system is exactly cooled down to the ground state or perfectly reset to a pure state, thereby resolving an open question regarding the thermodynamic cost of information erasure.
翻訳日:2024-09-07 01:49:25 公開日:2024-09-05
# LLM, MLLM, その他におけるモデルマージ: 方法論, 理論, 応用, 機会

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities ( http://arxiv.org/abs/2408.07666v4 )

ライセンス: Link先を確認
Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao, (参考訳) モデルマージは、生のトレーニングデータの収集を必要とせず、高価な計算を必要としない、機械学習コミュニティの効率的なエンパワーメント技術である。 モデルマージが様々な分野で普及するにつれて、利用可能なモデルマージテクニックを包括的に理解することが不可欠である。 しかし、これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。 本調査では, モデルマージ手法と理論, 各種領域および環境への応用, 今後の研究方向性について概説する。 具体的には、まず、既存のモデルマージ手法を徹底的に議論する新しい分類学的アプローチを提案する。 次に,大規模言語モデル,マルチモーダルな大規模言語モデル,連続学習,マルチタスク学習,少数ショット学習などを含む10以上の機械学習サブフィールドにおけるモデルマージ手法の適用について論じる。 最後に、モデルマージの残りの課題を強調し、今後の研究方向性について議論する。 モデルマージに関する包括的な論文のリストは、 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} で見ることができる。

Model merging is an efficient empowerment technique in the machine learning community that does not require the collection of raw training data and does not require expensive computation. As model merging becomes increasingly prevalent across various fields, it is crucial to understand the available model merging techniques comprehensively. However, there is a significant gap in the literature regarding a systematic and thorough review of these techniques. This survey provides a comprehensive overview of model merging methods and theories, their applications in various domains and settings, and future research directions. Specifically, we first propose a new taxonomic approach that exhaustively discusses existing model merging methods. Secondly, we discuss the application of model merging techniques in large language models, multimodal large language models, and 10+ machine learning subfields, including continual learning, multi-task learning, few-shot learning, etc. Finally, we highlight the remaining challenges of model merging and discuss future research directions. A comprehensive list of papers about model merging is available at \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 量子場理論における密度行列のスペクトル射影

Spectral Projections for Density Matrices in Quantum Field Theories ( http://arxiv.org/abs/2408.08031v2 )

ライセンス: Link先を確認
Wu-zhong Guo, (参考訳) 本稿では,量子場理論における密度行列のスペクトル投影について検討する。 適切な正則化により、密度行列のスペクトルプロジェクターは適切に定義されることが期待される。 これらのプロジェクタはリースの射影公式を用いて得られるので、射影状態における固有値の密度と局所作用素の期待値の両方を計算することができる。 応力エネルギーテンソルの期待値には普遍的な発散項が存在し、係数は固有値の密度と境界位置への固有値の依存性を記述する関数に普遍的に依存する。 射影状態を用いて、場の量子論における一連の新しい状態を構築し、ホログラフィック的な側面に焦点をあててそれらの一般的な性質を議論することができる。 量子ゆらぎは半古典的極限で抑制される。 また、重力経路積分を用いて以前に構築された固定領域状態は、近似量の投射状態の重ね合わせにより、適切に構築可能であることも示している。 さらに、遷移行列のような非エルミート作用素にスペクトル射影を適用し、それらの固有値と密度を得る。 最後に、新しい密度と遷移行列の構築や幾何状態の重ね合わせの理解など、スペクトル射影の潜在的な応用を強調した。

In this paper, we investigate the spectral projection of density matrices in quantum field theory. With appropriate regularization, the spectral projectors of density matrices are expected to be well-defined. These projectors can be obtained using the Riesz projection formula, which allows us to compute both the density of eigenvalues and the expectation values of local operators in the projected states. We find that there are universal divergent terms in the expectation value of the stress energy tensor, where the coefficients depend universally on the density of eigenvalues and a function that describes the dependence of eigenvalues on boundary location. Using projection states, we can construct a series of new states in quantum field theories and discuss their general properties, focusing on the holographic aspects. We observe that quantum fluctuations are suppressed in the semiclassical limit. We also demonstrate that the fixed area state, previously constructed using gravitational path integrals, can be constructed by suitably superposition of appromiate amount of projection states. Additionally, we apply spectral projection to non-Hermitian operators, such as transition matrices, to obtain their eigenvalues and densities. Finally, we highlight potential applications of spectral projections, including the construction of new density and transition matrices and the understanding of superpositions of geometric states.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 適応影響関数による学習データへの言語モデルのプライバシ漏洩の追跡

Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions ( http://arxiv.org/abs/2408.10468v4 )

ライセンス: Link先を確認
Jinxin Liu, Zao Yang, (参考訳) LLM(Large Language Models)が生成する応答には、個人や組織からの機密情報が含まれて、潜在的なプライバシー漏洩につながる可能性がある。 この研究は、インフルエンス関数(IF)を実装して、トレーニングデータにプライバシリークをトレースすることで、言語モデル(LM)のプライバシに関する懸念を軽減する。 しかし、現在のIFは、大きな勾配ノルムを持つトークンの影響を正確に見積もることに苦労しており、その影響を過大評価する可能性がある。 最も影響力のあるサンプルをトレースする場合、これは大きな勾配のノルムトークンを持つサンプルに頻繁にトレースし、その影響が十分に見積もられている場合でも、実際の最も影響力のあるサンプルをオーバーシェードする。 この問題に対処するため,Huristically Adjusted IF (HAIF) を提案する。 PII-E と PII-CR という2つの異なるシナリオを,モデル出力と事前学習データに同一のテキストを持つモデルと,その推論能力を利用して事前学習データからテキストを逸脱させる2つのデータセットを構築した。 HAIFは追跡精度を大幅に改善し、PII-Eデータセットでは20.96%から73.71%、PII-CRデータセットでは3.21%から45.93%に向上した。 また、HAIFは現実世界の事前訓練データCLUECorpus2020においてSOTA IFよりも優れており、プロンプトや応答長に関わらず強い堅牢性を示している。

The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96% to 73.71% on the PII-E dataset and 3.21% to 45.93% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 医療用多言語モデルの評価と構築に向けて

Towards Evaluating and Building Versatile Large Language Models for Medicine ( http://arxiv.org/abs/2408.12547v2 )

ライセンス: Link先を確認
Chaoyi Wu, Pengcheng Qiu, Jinxin Liu, Hongfei Gu, Na Li, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) 本研究では,臨床現場における大規模言語モデル(LLM)の性能を評価するための総合的なベンチマークであるMedS-Benchを提案する。 MedS-Benchは、複数の質問に対する回答に焦点を当てた既存のベンチマークとは異なり、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念の説明などを含む、11のハイレベルな臨床タスクにまたがっている。 我々は,数発のプロンプトを用いて,LLM,MEDITRON,Mistral,InternLM,Llama,GPT-4,Claude-3.5の6つの主要なLLMを評価し,最も洗練されたモデルでもこれらの複雑なタスクに苦労することを示した。 これらの制約に対処するため,医療用大規模指導調律データセットであるMedS-Insを開発した。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。 このデータセットの有用性を実証するために,我々は,軽量なオープンソース医療用言語モデルで指導訓練を行うことにより概念実証実験を行った。 その結果得られたMMedIns-Llama 3は、ほぼ全ての臨床的タスクで既存のモデルよりも大幅に優れていた。 LLMの臨床的課題への応用をさらに進めるため、MedS-Insデータセットを完全アクセス可能にし、研究コミュニティにその拡張に貢献させるとともに、MedS-Benchのダイナミックリーダーボードを立ち上げました。 リーダー: https://henrychur.github.io/MedS-Bench/。 Github:https://github.com/MAGIC-AI4Med/MedS-Ins.com

In this study, we present MedS-Bench, a comprehensive benchmark designed to evaluate the performance of large language models (LLMs) in clinical contexts. Unlike existing benchmarks that focus on multiple-choice question answering, MedS-Bench spans 11 high-level clinical tasks, including clinical report summarization, treatment recommendations, diagnosis, named entity recognition, and medical concept explanation, among others. We evaluated six leading LLMs, e.g., MEDITRON, Mistral, InternLM 2, Llama 3, GPT-4, and Claude-3.5 using few-shot prompting, and found that even the most sophisticated models struggle with these complex tasks. To address these limitations, we developed MedS-Ins, a large-scale instruction tuning dataset for medicine. MedS-Ins comprises 58 medically oriented language corpora, totaling 13.5 million samples across 122 tasks. To demonstrate the dataset's utility, we conducted a proof-of-concept experiment by performing instruction tuning on a lightweight, open-source medical language model. The resulting model, MMedIns-Llama 3, significantly outperformed existing models across nearly all clinical tasks. To promote further advancements in the application of LLMs to clinical challenges, we have made the MedS-Ins dataset fully accessible and invite the research community to contribute to its expansion.Additionally, we have launched a dynamic leaderboard for MedS-Bench, which we plan to regularly update the test set to track progress and enhance the adaptation of general LLMs to the medical domain. Leaderboard: https://henrychur.github.io/MedS-Bench/. Github: https://github.com/MAGIC-AI4Med/MedS-Ins.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 機械学習, 臨床概要ノート, バイタルサインを用いた COPD の予測

Prediction of COPD Using Machine Learning, Clinical Summary Notes, and Vital Signs ( http://arxiv.org/abs/2408.13958v2 )

ライセンス: Link先を確認
Negar Orangi-Fard, (参考訳) 慢性閉塞性肺疾患(慢性閉塞性肺疾患、COPD)は、慢性の炎症性肺疾患である。 米国では1570万人以上のアメリカ人がPDと診断され、96%の人が他の1つの慢性疾患で生活している。 国内第4位の死因である。 COPDの悪化により、毎年2200万人以上の患者が病院に入院している。 患者の増悪をリアルタイムで監視し、予測することは、彼らの命を救える。 本稿では,AI と自然言語処理 (NLP) を用いて COPD の悪化を予測する2つの予測モデルを提案する。 これらのモデルは呼吸サマリーノート、症状、およびバイタルサインを使用する。 これらのモデルの訓練と試験には、生理的信号とバイタルサイン時系列を含むデータ記録が使用された。 これらの記録は、ICU(Intensive Care Unit)患者数万人を対象に、患者モニターおよび病院医療情報システムから得られた総合的な臨床データから得られた。 我々は, COPD増悪の検出と予測において, 受信器動作特性(ROC)曲線0.82の領域を達成した。

Chronic obstructive pulmonary disease (COPD) is a chronic inflammatory lung disease that causes obstructed airflow from the lungs. In the United States, more than 15.7 million Americans have been diagnosed with COPD, with 96% of individuals living with at least one other chronic health condition. It is the 4th leading cause of death in the country. Over 2.2 million patients are admitted to hospitals annually due to COPD exacerbations. Monitoring and predicting patient exacerbations on-time could save their life. This paper presents two different predictive models to predict COPD exacerbation using AI and natural language processing (NLP) approaches. These models use respiration summary notes, symptoms, and vital signs. To train and test these models, data records containing physiologic signals and vital signs time series were used. These records were captured from patient monitors and comprehensive clinical data obtained from hospital medical information systems for tens of thousands of Intensive Care Unit (ICU) patients. We achieved an area under the Receiver operating characteristic (ROC) curve of 0.82 in detection and prediction of COPD exacerbation.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# リー代数構造に基づく非Iterative Disentangled Unitary Coupled-Cluster

Non-Iterative Disentangled Unitary Coupled-Cluster based on Lie-algebraic structure ( http://arxiv.org/abs/2408.14289v2 )

ライセンス: Link先を確認
Mohammad Haidar, Olivier Adjoua, Siwar Baddredine, Alberto Peruzzo, Jean-Philip Piquemal, (参考訳) 非定常的な性質のため、固定されたユニタリカップリング・クラスタ(UCC) ans\atze は、量子コンピュータ上の前回路測定を避けるために量子化学の変分量子固有解法(VQE)計算を行うのに魅力的である。しかし、UCCと強い相関を持つシステムにおいて、化学精度を達成するには、三重項以上の高次フェルミオン励起を更に含み、回路深度を増大させる必要がある。我々は、特定の$"k"の「量子ビット」励起セットに基づいて、固定かつ非定常なユニタリカップリング・クラスタコンパクトアンサッツである$k$-NI-DUCCを導入し、フェルミオン型励起の必要をなくす。 これらの要素はリー代数構造を利用して線型にスケールする($n$は量子ビットの数である)。 重要な励起は、全ての対称性の強制を含む特定の選択基準によってスクリーニングされ、堅牢な発電機セットの構築が保証される。 NI-DUCCは$"k"$の積を$\mathcal{O}(n)$-反エルミティア・パウリ作用素の指数関数の積とし、各作用素は長さ$p$を持つ。 これにより、2ビットのCNOTゲート回路が小さくなり、ハードウェア実装に適した$\mathcal{O}(knp)$となる。 LiH, H$_6$およびBeH$_2$で試験したところ、NI-DUCC-VQEは平衡からかなり逸脱した分子に対しても化学的精度と急激な収束を達成する。 ハードウェア効率が良く、VQE最適化のステップを大幅に減らしながら、特定の層で正確なフル構成相互作用のエネルギーソリューションに到達する。 NI-DUCC-VQEはADAPT-VQEライクな反復アルゴリズムの勾配測定ボトルネックに効果的に対処するが、$\mathcal{O}(n)$の励起集合を構成する計算コストは、量子ビットの数とともに指数関数的に増加する。 最大20量子ビットを処理可能なジェネレータセットを構築するための最初の実装を提供し、効率の観点について議論する。

Due to their non-iterative nature, fixed Unitary Coupled-Cluster (UCC) ans\"atze are attractive for performing quantum chemistry Variational Quantum Eigensolver (VQE) computations as they avoid pre-circuit measurements on a quantum computer. However, achieving chemical accuracy for strongly correlated systems with UCC requires further inclusion of higher-order fermionic excitations beyond triples increasing circuit depth. We introduce $k$-NI-DUCC, a fixed and Non-iterative Disentangled Unitary Coupled-Cluster compact ansatz, based on specific $"k"$ sets of "qubit" excitations, eliminating the needs for fermionic-type excitations. These elements scale linearly ($\mathcal{O}(n)$) by leveraging Lie algebraic structures, with $n$ being the number of qubits. The key excitations are screened through specific selection criteria, including the enforcement of all symmetries, to ensure the construction of a robust set of generators. NI-DUCC employs $"k"$ products of the exponential of $\mathcal{O}(n)$- anti-Hermitian Pauli operators, where each operator has a length $p$. This results in a fewer two-qubit CNOT gates circuit, $\mathcal{O}(knp)$, suitable for hardware implementations. Tested on LiH, H$_6$ and BeH$_2$, NI-DUCC-VQE achieves both chemical accuracy and rapid convergence even for molecules deviating significantly from equilibrium. It is hardware-efficient, reaching the exact Full Configuration Interaction energy solution at specific layers, while reducing significantly the VQE optimization steps. While NI-DUCC-VQE effectively addresses the gradient measurement bottleneck of ADAPT-VQE-like iterative algorithms, the classical computational cost of constructing the $\mathcal{O}(n)$ set of excitations increases exponentially with the number of qubits. We provide a first implementation for constructing the generators' set able to handle up to 20 qubits and discuss the efficiency perspectives.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 通勤予測のための説明可能な階層型都市表現学習

Explainable Hierarchical Urban Representation Learning for Commuting Flow Prediction ( http://arxiv.org/abs/2408.14762v2 )

ライセンス: Link先を確認
Mingfei Cai, Yanbo Pang, Yoshihide Sekimoto, (参考訳) 通勤フロー予測は、現実の自治体の業務に欠かせない課題である。 従来の研究では、複数の補助データを用いて都市内における通勤起因決定(OD)需要を推定することは可能であることが明らかになっている。 しかし、既存の方法の多くは、維持すべき地理的単位の増加により、都道府県や全国で同様の業務を大規模にこなすには適していない。 さらに、地域表現学習は、多様な都市下流課題に対する都市知識獲得のための普遍的なアプローチである。 多くの研究者がマルチソースデータから都市単位を記述するための包括的枠組みを開発してきたが、選択した地理的要素の関係は明らかになっていない。 さらに、都心部は、都市やその包括地区などの格付け構造を自然に保存しており、都市単位間の関係を解明する必要がある。 そこで我々は,複数の空間解像度で有意な領域埋め込みを生成できる不均一なグラフベースモデルを構築し,異なるタイプのODフローを予測する。 提案手法の有効性を実証するために,静岡県から収集した実世界の携帯電話データを用いた広範な実験を行った。 その結果,提案モデルが一様都市構造の観点から既存モデルより優れていたことが示唆された。 モデルの信頼性を高めるために、合理的な説明を用いて予測結果の理解を拡大する。

Commuting flow prediction is an essential task for municipal operations in the real world. Previous studies have revealed that it is feasible to estimate the commuting origin-destination (OD) demand within a city using multiple auxiliary data. However, most existing methods are not suitable to deal with a similar task at a large scale, namely within a prefecture or the whole nation, owing to the increased number of geographical units that need to be maintained. In addition, region representation learning is a universal approach for gaining urban knowledge for diverse metropolitan downstream tasks. Although many researchers have developed comprehensive frameworks to describe urban units from multi-source data, they have not clarified the relationship between the selected geographical elements. Furthermore, metropolitan areas naturally preserve ranked structures, like cities and their inclusive districts, which makes elucidating relations between cross-level urban units necessary. Therefore, we develop a heterogeneous graph-based model to generate meaningful region embeddings at multiple spatial resolutions for predicting different types of inter-level OD flows. To demonstrate the effectiveness of the proposed method, extensive experiments were conducted using real-world aggregated mobile phone datasets collected from Shizuoka Prefecture, Japan. The results indicate that our proposed model outperforms existing models in terms of a uniform urban structure. We extend the understanding of predicted results using reasonable explanations to enhance the credibility of the model.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# Legilimens: 大規模言語モデルサービスのための実践的で統一されたコンテンツモデレーション

Legilimens: Practical and Unified Content Moderation for Large Language Model Services ( http://arxiv.org/abs/2408.15488v2 )

ライセンス: Link先を確認
Jialin Wu, Jiangyi Deng, Shengyuan Pang, Yanjiao Chen, Jiayang Xu, Xinfeng Li, Wenyuan Xu, (参考訳) 大規模言語モデル(LLM)が生み出す安全でないコンテンツの社会的影響を考えると,LLM サービスが安全基準に準拠していることが LLM サービスプロバイダにとって重要な懸念事項である。 一般的なコンテンツモデレーション手法は、単純なモデルは脆弱であり、洗練されたモデルは過剰な計算資源を消費する、有効かつ効率的なジレンマによって制限される。 本稿では,コンテンツモデレーションよりも会話の微調整を最初に行ったが,チャット指向のLLMから概念的特徴を抽出することで,効果的で効率的なコンテンツモデレーションを実現することができることを初めて明らかにする。 本稿では,LLMサービスのための実用的で統一的なコンテンツモデレーションフレームワークであるLegilimensを提案する。 当社のレッドチームモデルベースのデータ拡張は、最先端のジェイルブレイクに対するレジリエンスの堅牢性を高めます。 さらに,他の手法と比較して,議員の費用対効果を理論的に分析する枠組みを開発する。 我々は,5つのホストLDM,17のデータセット,9つのジェイルブレイク法を用いて,正規および適応的敵に対するレジリエントの有効性,効率,堅牢性を検証した。 レジリメンと商業的・学術的な基礎とを比較すると、レジリメンの優れたパフォーマンスが示される。 さらに,レギリメンを少数ショットのシナリオに適用し,複数ラベルの分類タスクに拡張できることを確認した。

Given the societal impact of unsafe content generated by large language models (LLMs), ensuring that LLM services comply with safety standards is a crucial concern for LLM service providers. Common content moderation methods are limited by an effectiveness-and-efficiency dilemma, where simple models are fragile while sophisticated models consume excessive computational resources. In this paper, we reveal for the first time that effective and efficient content moderation can be achieved by extracting conceptual features from chat-oriented LLMs, despite their initial fine-tuning for conversation rather than content moderation. We propose a practical and unified content moderation framework for LLM services, named Legilimens, which features both effectiveness and efficiency. Our red-team model-based data augmentation enhances the robustness of Legilimens against state-of-the-art jailbreaking. Additionally, we develop a framework to theoretically analyze the cost-effectiveness of Legilimens compared to other methods. We have conducted extensive experiments on five host LLMs, seventeen datasets, and nine jailbreaking methods to verify the effectiveness, efficiency, and robustness of Legilimens against normal and adaptive adversaries. A comparison of Legilimens with both commercial and academic baselines demonstrates the superior performance of Legilimens. Furthermore, we confirm that Legilimens can be applied to few-shot scenarios and extended to multi-label classification tasks.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# G-Style:スタイラス型ガウス鋳型

G-Style: Stylized Gaussian Splatting ( http://arxiv.org/abs/2408.15695v2 )

ライセンス: Link先を確認
Áron Samuel Kovács, Pedro Hermosilla, Renata G. Raidou, (参考訳) 本稿では,G-Styleを提案する。G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style,G-Style。 Gaussian Splattingは、新しいビュー合成のための強力な3D表現であり、Neural Radiance Fieldsに基づく他のアプローチとは異なり、シーンの高速なレンダリングとユーザコントロールを提供する。 最近のプレプリントでは、ガウスのスプレイティングシーンのスタイルを画像の例を使って修正できることが示されている。 しかし, シーン形状はスタイリゼーションの過程で固定されているため, 現状の解では満足な結果が得られない。 我々のアルゴリズムは、3段階のプロセスに従ってこれらの制限に対処することを目的としており、前処理のステップでは、大きな射影領域や非常に長い形状を持つ望ましくないガウスを除去する。 その後、画像のスタイルの異なるスケールを維持するために、オリジナルシーンの内容の完全性を維持しながら、慎重に設計されたいくつかの損失を組み合わさった。 タイマライゼーションの過程とガウシアン・スプレイティングの当初の設計に従って、我々は、タイマライズされた色の勾配を追跡することによって、シーン内で追加の細部が必要とされるガウシアンを分割した。 実験の結果,G-Styleはわずか数分で高品質なスタイリゼーションを発生し,定性的・定量的に既存手法より優れていることがわかった。

We introduce G-Style, a novel algorithm designed to transfer the style of an image onto a 3D scene represented using Gaussian Splatting. Gaussian Splatting is a powerful 3D representation for novel view synthesis, as -- compared to other approaches based on Neural Radiance Fields -- it provides fast scene renderings and user control over the scene. Recent pre-prints have demonstrated that the style of Gaussian Splatting scenes can be modified using an image exemplar. However, since the scene geometry remains fixed during the stylization process, current solutions fall short of producing satisfactory results. Our algorithm aims to address these limitations by following a three-step process: In a pre-processing step, we remove undesirable Gaussians with large projection areas or highly elongated shapes. Subsequently, we combine several losses carefully designed to preserve different scales of the style in the image, while maintaining as much as possible the integrity of the original scene content. During the stylization process and following the original design of Gaussian Splatting, we split Gaussians where additional detail is necessary within our scene by tracking the gradient of the stylized color. Our experiments demonstrate that G-Style generates high-quality stylizations within just a few minutes, outperforming existing methods both qualitatively and quantitatively.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 3次元データ効率のよいポイント・ランゲージ理解を目指して

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding ( http://arxiv.org/abs/2408.15966v2 )

ライセンス: Link先を確認
Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Jinfeng Xu, Yixue Hao, Long Hu, Min Chen, (参考訳) 3次元物理世界を理解するための大規模言語モデル(LLM)の導入は依然として大きな課題である。 大規模な3Dテキストペアデータセットが不足しているため、LLMの成功は3D理解においてまだ再現されていない。 本稿では,この問題を再考し,新しい課題を提案する。 LLMの目標は、最小限の3Dポイントクラウドとテキストデータペアで、堅牢な3Dオブジェクト理解を実現することだ。 この課題に対処するために,3Dデータの欠如を補うために,より多くのテキストデータを活用するGreenPLMを導入する。 まず、CLIPを使って画像とテキストをアライメントすることで、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。 このマッピングによって、テキスト空間とLLMをシームレスに接続することができます。 点-テキスト-LLM接続が確立されると、中間テキスト空間を拡張してテキスト-LLMアライメントを強化し、3Dポイントクラウドデータへの依存を減らす。 具体的には、3Dオブジェクトの6M自由テキスト記述を生成し、LLMが様々なモダリティ間の本質的な関係をよりよく探求するための3段階のトレーニング戦略を設計する。 効率的なモダリティアライメントを実現するため,トークンプールのための0パラメータクロスアテンションモジュールを設計する。 大規模な実験結果から,GreenPLMは既存の最先端モデルで使用されている3Dトレーニングデータの12%しか必要とせず,優れた3D理解が得られていることがわかった。 注目すべきは、GreenPLMはテキストのみのデータを使用して競合的なパフォーマンスを達成することだ。 コードとウェイトは、https://github.com/TangYuan96/GreenPLM.comで入手できる。

Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# フォールドスペクトル法による最短ベクトル問題の量子アルゴリズム

Quantum Algorithm for Shortest Vector Problems with Folded Spectrum Method ( http://arxiv.org/abs/2408.16062v2 )

ライセンス: Link先を確認
Kota Mizuno, Shohei Watabe, (参考訳) 格子点ベクトルのノルムをカウディエンコーディング、ハミング重エンコーディング、バイナリエンコーディングでハミルトン問題にマッピングし、最短ベクトルを見つける問題は、非自明な最初の励起状態を見つけるために問題にマッピングされる。 本稿では,SVPの1ホット符号化と,折り畳みスペクトル(FS)法による量子想像時間アルゴリズムという,代用エンコーディングと代用量子アルゴリズムを提案する。 本手法は,変分量子アルゴリズムを用いた最短ベクトルの探索に適用可能であることを示す。 FS法の量子アニールおよびシミュレートアニールへの応用についても議論し、SVPを解く。 本研究では,量子コンピューティングフレームワークにおけるSVPの適用可能性について検討した。

Quantum annealing has been recently studied to solve the shortest vector problem (SVP), where the norm of a lattice point vector is mapped to the problem Hamiltonian with the qudit encoding, Hamming-weight encoding, or binary encoding, and the problem to find the shortest vector is mapped to a problem to find a non-trivial first excited state. We here propose an alternative encoding and alternative quantum algorithm to solve the SVP: the one-hot encoding and the quantum imaginary-time algorithm with the folded spectrum (FS) method. We demonstrate that our approach is applicable to find the shortest vector with a variational quantum algorithm. The application of the FS method to the quantum annealing and simulated annealing is also discussed to solve the SVP. Our study shows wide potential applicability of the SVP in quantum computing frameworks.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# BEVal:自動走行のためのBEVセグメンテーションモデルのクロスデータセット評価

BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autononomous Driving ( http://arxiv.org/abs/2408.16322v2 )

ライセンス: Link先を確認
Manuel Alejandro Diaz-Zapata, Wenqian Liu, Robin Baruffa, Christian Laugier, (参考訳) 自律運転のためのセマンティック・バードズ・アイ・ビュー・セグメンテーションの現在の研究は、単一のデータセット(典型的にはnuScenes)を使用してニューラルネットワークモデルを最適化することに集中している。 このプラクティスは、異なる環境やセンサーのセットアップに直面したときに失敗する可能性のある、高度に専門化されたモデルの開発につながります。 本稿では,最新のBEVセグメンテーションモデルを包括的にクロスデータセットで評価し,異なるトレーニングとテストデータセット,セットアップ,および異なるセマンティックカテゴリ間での性能を評価する。 本稿では,カメラやLiDARなどの異なるセンサが,モデルが様々な状況やシナリオに一般化する能力に与える影響について検討する。 さらに,モデルにおけるBEVセグメンテーション性能を,シングルデータセットトレーニングと比較して向上させるマルチデータセットトレーニング実験を実施している。 我々の研究は、データセット間の検証の下でのBEVセグメンテーションモデルの評価におけるギャップに対処する。 また,より堅牢で信頼性の高いBEVセグメンテーションアプローチを自律運転アプリケーションに適用するために,モデル一般化可能性と適応性を高めることの重要性を強調した。 この論文のコードはhttps://github.com/manueldiaz96/beval で公開されている。

Current research in semantic bird's-eye view segmentation for autonomous driving focuses solely on optimizing neural network models using a single dataset, typically nuScenes. This practice leads to the development of highly specialized models that may fail when faced with different environments or sensor setups, a problem known as domain shift. In this paper, we conduct a comprehensive cross-dataset evaluation of state-of-the-art BEV segmentation models to assess their performance across different training and testing datasets and setups, as well as different semantic categories. We investigate the influence of different sensors, such as cameras and LiDAR, on the models' ability to generalize to diverse conditions and scenarios. Additionally, we conduct multi-dataset training experiments that improve models' BEV segmentation performance compared to single-dataset training. Our work addresses the gap in evaluating BEV segmentation models under cross-dataset validation. And our findings underscore the importance of enhancing model generalizability and adaptability to ensure more robust and reliable BEV segmentation approaches for autonomous driving applications. The code for this paper available at https://github.com/manueldiaz96/beval .
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# CW-CNNとCW-AN:CW-コンプレックスのための畳み込みネットワークと注意ネットワーク

CW-CNN & CW-AN: Convolutional Networks and Attention Networks for CW-Complexes ( http://arxiv.org/abs/2408.16686v2 )

ライセンス: Link先を確認
Rahul Khorana, (参考訳) 本稿では,CW複雑なデータポイントを学習するための新しいフレームワークを提案する。 近年,ケミノフォマティクスにおける問題に対する理想的な学習表現として,CW-コンプレックスが議論されている。 しかし、CW複合体上での学習に適した機械学習手法が不足している。 本稿では、CW-複素数に対してよく定義された畳み込みと注意の概念を開発する。 これらの概念により、入力としてCW-プレプレックスを受け取ることができる最初のホッジ情報ニューラルネットワークを作成できる。 我々は、このフレームワークを教師付き予測の文脈で説明し、解釈する。

We present a novel framework for learning on CW-complex structured data points. Recent advances have discussed CW-complexes as ideal learning representations for problems in cheminformatics. However, there is a lack of available machine learning methods suitable for learning on CW-complexes. In this paper we develop notions of convolution and attention that are well defined for CW-complexes. These notions enable us to create the first Hodge informed neural network that can receive a CW-complex as input. We illustrate and interpret this framework in the context of supervised prediction.
翻訳日:2024-09-07 01:34:07 公開日:2024-09-05
# 分子設計の再考:ゴール指向生成のための潜在変数モデルと自己回帰モデルの統合

Rethinking Molecular Design: Integrating Latent Variable and Auto-Regressive Models for Goal Directed Generation ( http://arxiv.org/abs/2409.00046v2 )

ライセンス: Link先を確認
Heath Arthur-Loui, Amina Mollaysa, Michael Krauthammer, (参考訳) デノボ分子の設計は、最先端の生成モデルを用いることで、非常に活発な研究領域となっている。 これらの進歩にもかかわらず、薬物設計の課題に対する答えとして、この分野はより複雑な生成モデルと洗練された分子表現に焦点を当てているため、いくつかの根本的な疑問は未解決のままである。 本稿では、分子の最も単純な表現に戻り、古典的生成アプローチ、特に変分オートエンコーダ(VAE)や自己回帰モデルにおける見過ごされた制限について検討する。 本稿では, 分子配列の妥当性, 条件生成, スタイル伝達を改善するために, 両者の強みを生かした, 新規な正則化器の形でのハイブリッドモデルを提案する。 さらに、これらのモデルの振る舞いの見過ごされた仮定について、深く議論する。

De novo molecule design has become a highly active research area, advanced significantly through the use of state-of-the-art generative models. Despite these advances, several fundamental questions remain unanswered as the field increasingly focuses on more complex generative models and sophisticated molecular representations as an answer to the challenges of drug design. In this paper, we return to the simplest representation of molecules, and investigate overlooked limitations of classical generative approaches, particularly Variational Autoencoders (VAEs) and auto-regressive models. We propose a hybrid model in the form of a novel regularizer that leverages the strengths of both to improve validity, conditional generation, and style transfer of molecular sequences. Additionally, we provide an in depth discussion of overlooked assumptions of these models' behaviour.
翻訳日:2024-09-07 01:34:06 公開日:2024-09-05
# PillaiのトレースとULDAに基づく新しい前向き判別分析フレームワーク

A New Forward Discriminant Analysis Framework Based On Pillai's Trace and ULDA ( http://arxiv.org/abs/2409.03136v1 )

ライセンス: Link先を確認
Siyu Wang, (参考訳) 従来の分類ツールである線形判別分析(LDA)は、非可逆な内部散乱行列を扱う際に、ノイズに対する感度や計算上の問題などの制限に悩まされる。 伝統的にステップワイズなLDAフレームワークは、反復的に最も有益な機能を選択し、Wilksの$\Lambda$に大きく依存することでこれらの問題を悪化させ、選択プロセスの早期停止を引き起こす可能性がある。 本稿では, Pillai のトレースと Uncorrelated Linear Discriminant Analysis (ULDA) を統合し,これらの課題に対処し, 統一的でスタンドアロンな分類器を提供する。 シミュレーションと実世界のデータセットを通じて、新しいフレームワークはI型エラー率を効果的に制御し、分類精度を向上する。 その結果、従来の段階的なLDAフレームワークに代わる堅牢な代替手段として、このアプローチの可能性を浮き彫りにした。

Linear discriminant analysis (LDA), a traditional classification tool, suffers from limitations such as sensitivity to noise and computational challenges when dealing with non-invertible within-class scatter matrices. Traditional stepwise LDA frameworks, which iteratively select the most informative features, often exacerbate these issues by relying heavily on Wilks' $\Lambda$, potentially causing premature stopping of the selection process. This paper introduces a novel forward discriminant analysis framework that integrates Pillai's trace with Uncorrelated Linear Discriminant Analysis (ULDA) to address these challenges, and offers a unified and stand-alone classifier. Through simulations and real-world datasets, the new framework demonstrates effective control of Type I error rates and improved classification accuracy, particularly in cases involving perfect group separations. The results highlight the potential of this approach as a robust alternative to the traditional stepwise LDA framework.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-05
# AdEMAMixオプティマイザ:より良く、より速く、より古いもの

The AdEMAMix Optimizer: Better, Faster, Older ( http://arxiv.org/abs/2409.03137v1 )

ライセンス: Link先を確認
Matteo Pagliardini, Pierre Ablin, David Grangier, (参考訳) Momentumベースのオプティマイザは、幅広い機械学習アプリケーションの中心である。 これらは典型的には、勾配の指数移動平均(EMA)に依存し、古い勾配の現在の寄与を指数関数的に減衰させる。 このことは、勾配が局所線型近似であり、損失の風景に沿って反復が移動するにつれてその関係が失われることを意味する。 この研究は、過去の勾配を蓄積するために単一のEMAを使用することに疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。 本稿では,Adamオプティマイザに2つのEMAを混合した簡単な修正を加えたAdEMAMixを提案する。 言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。 101$BトークンでトレーニングされたAdEMAMix LLMは、197$BトークンでトレーニングされたAdamWモデル(+95\%$)と互換性がある。 さらに,本手法は,トレーニング中のモデル忘れを著しく遅くする。 私たちの研究は、EMAを超えて過去の勾配を活用するために、さまざまな種類の関数のさらなる探索を動機付けています。

Momentum based optimizers are central to a wide range of machine learning applications. These typically rely on an Exponential Moving Average (EMA) of gradients, which decays exponentially the present contribution of older gradients. This accounts for gradients being local linear approximations which lose their relevance as the iterate moves along the loss landscape. This work questions the use of a single EMA to accumulate past gradients and empirically demonstrates how this choice can be sub-optimal: a single EMA cannot simultaneously give a high weight to the immediate past, and a non-negligible weight to older gradients. Building on this observation, we propose AdEMAMix, a simple modification of the Adam optimizer with a mixture of two EMAs to better take advantage of past gradients. Our experiments on language modeling and image classification show -- quite surprisingly -- that gradients can stay relevant for tens of thousands of steps. They help to converge faster, and often to lower minima: e.g., a $1.3$B parameter AdEMAMix LLM trained on $101$B tokens performs comparably to an AdamW model trained on $197$B tokens ($+95\%$). Moreover, our method significantly slows-down model forgetting during training. Our work motivates further exploration of different types of functions to leverage past gradients, beyond EMAs.
翻訳日:2024-09-06 22:44:13 公開日:2024-09-05
# GraphEx: Advertiser Keyphrase Recommendationのためのグラフベースの抽出手法

GraphEx: A Graph-based Extraction Method for Advertiser Keyphrase Recommendation ( http://arxiv.org/abs/2409.03140v1 )

ライセンス: Link先を確認
Ashirbad Mishra, Soumik Dey, Marshall Wu, Jinyu Zhao, He Yu, Kaichen Ni, Binbin Li, Kamesh Madduri, (参考訳) オンライン販売者や広告主は、彼らのリストに記載されている商品のキーワードを推奨する。 このようなレコメンデーションを生成する一般的なパラダイムのひとつがExtreme Multi-Label Classification (XMC)である。 Eコマースプラットフォーム上でキーフレーズレコメンデーションに伝統的なアイテムクエリベースのタグ付けやマッピング技術を使用することの限界について概説する。 GraphExは、アイテムタイトルからトークンの置換を抽出することで、売り手に対してキーフレーズを推奨する、革新的なグラフベースのアプローチである。 さらに、精度/リコールのような従来のメトリクスに依存することは、現実のシナリオにおけるパフォーマンスを評価するためにメトリクスの組み合わせを必要とすることを実証する。 これらの指標は、キーフレーズのアイテムとの関係と買い手のアウトリーチの可能性を評価するために設計されている。 GraphExはeBayのプロダクションモデルより優れており、上記の目標を達成する。 リソース制約のあるプロダクション環境でほぼリアルタイムの推論をサポートし、何十億ものアイテムに対して効果的にスケールする。

Online sellers and advertisers are recommended keyphrases for their listed products, which they bid on to enhance their sales. One popular paradigm that generates such recommendations is Extreme Multi-Label Classification (XMC), which involves tagging/mapping keyphrases to items. We outline the limitations of using traditional item-query based tagging or mapping techniques for keyphrase recommendations on E-Commerce platforms. We introduce GraphEx, an innovative graph-based approach that recommends keyphrases to sellers using extraction of token permutations from item titles. Additionally, we demonstrate that relying on traditional metrics such as precision/recall can be misleading in practical applications, thereby necessitating a combination of metrics to evaluate performance in real-world scenarios. These metrics are designed to assess the relevance of keyphrases to items and the potential for buyer outreach. GraphEx outperforms production models at eBay, achieving the objectives mentioned above. It supports near real-time inferencing in resource-constrained production environments and scales effectively for billions of items.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 自律型サイバーセキュリティを目指して - 自律的侵入検知のためのインテリジェントなオートMLフレームワーク

Towards Autonomous Cybersecurity: An Intelligent AutoML Framework for Autonomous Intrusion Detection ( http://arxiv.org/abs/2409.03141v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami, (参考訳) 5Gから6Gへのモバイルネットワークの急速な進化は、Zero-Touch Networks (ZTNs)のような自律的なネットワーク管理システムの開発を必要としている。 しかし、これらのネットワークの複雑さと自動化が増大し、サイバーセキュリティのリスクもエスカレートした。 従来の機械学習(ML)技術を利用した既存の侵入検知システム(IDS)は、これらのリスクを軽減する効果を示してきたが、手作業や専門家の知識を必要とすることが多い。 これらの課題に対処するために,次世代ネットワークにおける自律サイバーセキュリティの実現に向けた,Automated Machine Learning (AutoML)ベースの自律IDSフレームワークを提案する。 自動侵入検出を実現するため、提案されたAutoMLフレームワークは、データ前処理、機能エンジニアリング、モデル選択、ハイパーパラメータチューニング、モデルアンサンブルを含む、データ分析パイプラインのすべての重要な手順を自動化する。 具体的には、自動データバランシングにタブラル変分自動エンコーダ(TVAE)法、自動特徴選択とベースモデル学習にツリーベースMLモデル、ハイパーパラメータ最適化にベイズ最適化(BO)法、自動モデルアンサンブルに最適化信頼ベースのスタックングアンサンブル(OCSE)法を用いる。 提案されたAutoMLベースのIDSは、CICIDS2017と5G-NIDDという2つの公開ベンチマークネットワークセキュリティデータセットで評価され、最先端のサイバーセキュリティ手法と比較してパフォーマンスが改善された。 この研究は、次世代ネットワークにおける完全自律型サイバーセキュリティへの重要な一歩であり、ネットワークセキュリティアプリケーションに革命をもたらす可能性がある。

The rapid evolution of mobile networks from 5G to 6G has necessitated the development of autonomous network management systems, such as Zero-Touch Networks (ZTNs). However, the increased complexity and automation of these networks have also escalated cybersecurity risks. Existing Intrusion Detection Systems (IDSs) leveraging traditional Machine Learning (ML) techniques have shown effectiveness in mitigating these risks, but they often require extensive manual effort and expert knowledge. To address these challenges, this paper proposes an Automated Machine Learning (AutoML)-based autonomous IDS framework towards achieving autonomous cybersecurity for next-generation networks. To achieve autonomous intrusion detection, the proposed AutoML framework automates all critical procedures of the data analytics pipeline, including data pre-processing, feature engineering, model selection, hyperparameter tuning, and model ensemble. Specifically, it utilizes a Tabular Variational Auto-Encoder (TVAE) method for automated data balancing, tree-based ML models for automated feature selection and base model learning, Bayesian Optimization (BO) for hyperparameter optimization, and a novel Optimized Confidence-based Stacking Ensemble (OCSE) method for automated model ensemble. The proposed AutoML-based IDS was evaluated on two public benchmark network security datasets, CICIDS2017 and 5G-NIDD, and demonstrated improved performance compared to state-of-the-art cybersecurity methods. This research marks a significant step towards fully autonomous cybersecurity in next-generation networks, potentially revolutionizing network security applications.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 非定常スパース遷移を用いた因果時間表現学習

Causal Temporal Representation Learning with Nonstationary Sparse Transition ( http://arxiv.org/abs/2409.03142v1 )

ライセンス: Link先を確認
Xiangchen Song, Zijian Li, Guangyi Chen, Yujia Zheng, Yewen Fan, Xinshuai Dong, Kun Zhang, (参考訳) Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。 既存のCtrlメソッドの成功にもかかわらず、ドメイン変数を直接観察するか、事前にMarkovを仮定する必要がある。 このような要件は、ドメイン変数に関するそのような事前の知識がなければ、現実のシナリオにおけるこれらのメソッドの適用を制限する。 この問題に対処するために、この研究は、直感的な人間の理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を示す。 特に,分散シフトを同定するモデルを構築することができる遷移の変動性の重要性について,どのような条件下で検討する。 理論的な結果に基づいて、遷移空間と条件独立性に関する制約を活用し、分布シフトと潜伏要因の両方を確実に識別する新しい枠組みCtrlNS(Causal Temporal Representation Learning with Nonstationary Sparse Transition)を導入する。 合成および実世界のデータセットに対する実験的な評価は、既存のベースラインよりも大幅に改善され、アプローチの有効性が強調された。

Causal Temporal Representation Learning (Ctrl) methods aim to identify the temporal causal dynamics of complex nonstationary temporal sequences. Despite the success of existing Ctrl methods, they require either directly observing the domain variables or assuming a Markov prior on them. Such requirements limit the application of these methods in real-world scenarios when we do not have such prior knowledge of the domain variables. To address this problem, this work adopts a sparse transition assumption, aligned with intuitive human understanding, and presents identifiability results from a theoretical perspective. In particular, we explore under what conditions on the significance of the variability of the transitions we can build a model to identify the distribution shifts. Based on the theoretical result, we introduce a novel framework, Causal Temporal Representation Learning with Nonstationary Sparse Transition (CtrlNS), designed to leverage the constraints on transition sparsity and conditional independence to reliably identify both distribution shifts and latent factors. Our experimental evaluations on synthetic and real-world datasets demonstrate significant improvements over existing baselines, highlighting the effectiveness of our approach.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 非エルミート二層グラフェンの例外トポロジー

Exceptional topology in Non-Hermitian Twisted Bilayer Graphene ( http://arxiv.org/abs/2409.03145v1 )

ライセンス: Link先を確認
Yingyi Huang, (参考訳) ツイストされた二層グラフェンは、マジックアングルで特別な電子特性を持ち、マジックアングルで孤立した平らなバンドを持つ。 しかし、ねじれた二層グラフェンの非エルミート現象は未解明のままである。 本研究では, 他の層に対してグラフェンがねじれた非エルミチアンTBGについて, ゲインとロスを伴って検討した。 ビストリッツァー・マクドナルド(BM)モデルの非エルミート一般化を用いて、非ハーミティティーの存在下で変形したモワール・ブリルアンゾーンのK'$角を中心とするディラックコーンが見つかる。 これはゲイン・アンド・ロスを持つ単層グラフェンとは違い、ブリルーオンゾーンのK$とK'$の角に例外的な点の環が現れる。 $\Gamma_M$点での例外環の一致は、系がゼロエネルギーと有限寿命を持つ平坦なバンドをホストする「例外魔法の角度」を特徴付ける。 より興味深いことに、モワール・ブリルアンゾーンの位相電荷は例外環の拡大と融合の間に保存され、ニールセン-二宮の定理に制約される二次元系には存在しない。 これらの発見は、現実的なコールド原子とメタマテリアルシステムで実証でき、ツイストロンの非エルミート現象に関するさらなる研究を刺激する。

Twisted bilayer graphene has extraordinary electronic properties at the magic angle along with an isolated flat band at magic angle. However, the non-Hermitian phenomena in twisted bilayer graphene remain unexplored. In this work, we study a non-Hermitian TBG formed by one-layer graphene twisted relative to another layer with gain and loss. Using a non-Hermitian generalization of Bistritzer-MacDonald(BM) model, we find Dirac cones centered at $K'$ corner of the moir\'e Brillouin zone deformed in the presence of non-Hermiticity. This is different from single layer graphene with gain and loss, where rings of exceptional points appear in both $K$ and $K'$ corners of the Brillouion zone. The coincident of exceptional rings at $\Gamma_M$ point characterizes an ``exceptional magic angle", at which the system hosts flat bands with zero energy and finite lifetime. More interestingly, we find that the topological charge in the moir\'e Brillouin zone is conserved during the expansion and fusion of the exceptional ring, which is absent in two-dimensional systems constraining by Nielsen-Ninomiya theorem. These findings can be demonstrated in realistic cold atom and metamaterial systems and will stimulate further study on non-Hermitian phenomena in twistronic.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 早期認知症検出におけるギャップへの対処--機械学習による診断モデルの改善に向けて

Addressing the Gaps in Early Dementia Detection: A Path Towards Enhanced Diagnostic Models through Machine Learning ( http://arxiv.org/abs/2409.03147v1 )

ライセンス: Link先を確認
Juan A. Berrios Moya, (参考訳) この急激な世界的な高齢化傾向は、アルツハイマー病を含む認知症患者の増加につながり、早期かつ正確な診断方法の必要性を浮き彫りにしている。 認知テスト、ニューロイメージング、バイオマーカー分析といった従来の診断技術は、特に初期の段階で、感度、アクセシビリティ、コストに重大な制限に直面している。 本研究では、認知アセスメント、ニューロイメージング、遺伝情報を含む複雑なマルチモーダルデータセットを解析・統合するためにMLモデルを活用することにより、早期認知症検出を強化するための機械学習(ML)の可能性を探る。 教師付き学習,深層学習,アンサンブル学習やトランスフォーマーモデルといった高度な技術,正確性,解釈可能性,臨床統合の可能性など,さまざまなMLモデルを評価するために,既存文献の総合的なレビューを行った。 この結果は、MLモデルが診断精度の向上と早期介入の実現に有意な可能性を示唆する一方で、その一般化可能性、解釈可能性、倫理的展開に課題が残っていることを示唆している。 本研究は、認知症検出におけるMLモデルの臨床的有用性向上を目的とした今後の方向性を概説し、アルツハイマー病などの認知症に対する早期発見・介入戦略を改善するための学際的協調と倫理的健全な枠組みを強調した。

The rapid global aging trend has led to an increase in dementia cases, including Alzheimer's disease, underscoring the urgent need for early and accurate diagnostic methods. Traditional diagnostic techniques, such as cognitive tests, neuroimaging, and biomarker analysis, face significant limitations in sensitivity, accessibility, and cost, particularly in the early stages. This study explores the potential of machine learning (ML) as a transformative approach to enhance early dementia detection by leveraging ML models to analyze and integrate complex multimodal datasets, including cognitive assessments, neuroimaging, and genetic information. A comprehensive review of existing literature was conducted to evaluate various ML models, including supervised learning, deep learning, and advanced techniques such as ensemble learning and transformer models, assessing their accuracy, interpretability, and potential for clinical integration. The findings indicate that while ML models show significant promise in improving diagnostic precision and enabling earlier interventions, challenges remain in their generalizability, interpretability, and ethical deployment. This research concludes by outlining future directions aimed at enhancing the clinical utility of ML models in dementia detection, emphasizing interdisciplinary collaboration and ethically sound frameworks to improve early detection and intervention strategies for Alzheimer's disease and other forms of dementia.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 深層逆強化学習を用いたマルチソースビッグデータによるサイクリストの街路視覚的嗜好の探索

Discovering Cyclists' Street Visual Preferences Through Multi-Source Big Data Using Deep Inverse Reinforcement Learning ( http://arxiv.org/abs/2409.03148v1 )

ライセンス: Link先を確認
Ren Kezhou, Gong Yongxi, (参考訳) サイクリングは、健康上の利益と都市へのポジティブな影響で世界的に人気を博している。 サイクリングを効果的に促進するために、初期の研究はサイクリング行動と環境要因、特にルート決定を行う際のサイクリストの嗜好との関係を幅広く研究してきた。 しかしながら、これらの研究はしばしばデータ制限のため、詳細なサイクリング手順を大規模に記述するのに苦労し、サイクリストの嗜好の複雑な性質を見落としてしまう傾向にある。 これらの課題に対処するために,提案手法は,最大エントロピー深部逆強化学習(MEDIRL)と説明可能な人工知能(XAI)を活用して,サイクリストのサイクリング記録からの複雑な道路視覚的嗜好を定量化し,解釈することを目的とした新しい枠組みを提案する。 深セン市Bantian Sub-districtで実装されたMEDIRLモデルを用いて,ドッキングレスバイクシェアリング(DBS)軌道とストリートビュー画像(SVIs)を統合し,ルーティング中の道路視覚環境に対するサイクリストの好みを表す。 さらに,自転車の道路視覚的嗜好の発見におけるMEDIRLの有効性と信頼性を実証した。 さらなる分析により、ストリートビジュアル要素の非線形かつインタラクティブな効果がサイクリストの嗜好に及ぼす影響を明らかにし、ストリートスケープデザインの全体像を提供する。 提案する枠組みは,自転車の嗜好を優先する街路景観を設計する都市プランナーに対して,個別のサイクリング行動の理解を深めるものである。

Cycling has gained global popularity for its health benefits and positive urban impacts. To effectively promote cycling, early studies have extensively investigated the relationship between cycling behaviors and environmental factors, especially cyclists' preferences when making route decisions. However, these studies often struggle to comprehensively describe detailed cycling procedures at a large scale due to data limitations, and they tend to overlook the complex nature of cyclists' preferences. To address these issues, we propose a novel framework aimed to quantify and interpret cyclists' complicated street visual preferences from cycling records by leveraging maximum entropy deep inverse reinforcement learning (MEDIRL) and explainable artificial intelligence (XAI). Implemented in Bantian Sub-district, Shenzhen, we adapt MEDIRL model for efficient estimation of cycling reward function by integrating dockless-bike-sharing (DBS) trajectory and street view images (SVIs), which serves as a representation of cyclists' preferences for street visual environments during routing. In addition, we demonstrate the feasibility and reliability of MEDIRL in discovering cyclists' street visual preferences. Further analysis reveals the nonlinear and interactive effects of street visual elements on cyclists' preferences, offering a holistic perspective on streetscape design. Our proposed framework advances the understanding of individual cycling behaviors and provides actionable insights for urban planners to design bicycle-friendly streetscapes that prioritize cyclists' preferences.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# スパイク・アンド・スラブ前の非定常・疎相関多出力ガウス過程

Non-stationary and Sparsely-correlated Multi-output Gaussian Process with Spike-and-Slab Prior ( http://arxiv.org/abs/2409.03149v1 )

ライセンス: Link先を確認
Wang Xinming, Li Yongxiang, Yue Xiaowei, Wu Jianguo, (参考訳) 多出力ガウス過程 (MGP) は、複数の出力間の情報を活用する伝達学習法として一般的に用いられる。 MGPの重要な利点は、予測のための不確実な定量化を提供することであり、これはその後の意思決定タスクにとって非常に重要である。 しかし、従来のMGPは、特に複雑な時間的相関を扱う場合、動的特性を持つ多変量データを扱うのに十分な柔軟性がないかもしれない。 さらに、いくつかの出力は相関が欠如している可能性があるため、それらの間の情報転送は負の転送につながる可能性がある。 これらの問題に対処するため,本研究では,出力間の動的相関とスパース相関の両方を捉えることができる非定常MGPモデルを提案する。 具体的には、MGPの共分散関数は、時間変化したカーネル関数の畳み込みを用いて構成される。 そして、動的スパイク・アンド・スラブ先行を相関パラメータ上に配置し、トレーニングプロセスにおいて、目標出力に対してどのソースが情報であるかを自動決定する。 効率的なモデルフィッティングのための予測最大化(EM)アルゴリズムを提案する。 数値解析と実例の両方が、動的およびスパース相関構造を捕捉し、高次元時系列データに対する負の移動を緩和する効果を実証している。 最後に、マウンテンカーの強化学習ケースは、意思決定問題における潜在的な応用を浮き彫りにする。

Multi-output Gaussian process (MGP) is commonly used as a transfer learning method to leverage information among multiple outputs. A key advantage of MGP is providing uncertainty quantification for prediction, which is highly important for subsequent decision-making tasks. However, traditional MGP may not be sufficiently flexible to handle multivariate data with dynamic characteristics, particularly when dealing with complex temporal correlations. Additionally, since some outputs may lack correlation, transferring information among them may lead to negative transfer. To address these issues, this study proposes a non-stationary MGP model that can capture both the dynamic and sparse correlation among outputs. Specifically, the covariance functions of MGP are constructed using convolutions of time-varying kernel functions. Then a dynamic spike-and-slab prior is placed on correlation parameters to automatically decide which sources are informative to the target output in the training process. An expectation-maximization (EM) algorithm is proposed for efficient model fitting. Both numerical studies and a real case demonstrate its efficacy in capturing dynamic and sparse correlation structure and mitigating negative transfer for high-dimensional time-series data. Finally, a mountain-car reinforcement learning case highlights its potential application in decision making problems.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 巨人の肩に立つ

Standing on the shoulders of giants ( http://arxiv.org/abs/2409.03151v1 )

ライセンス: Link先を確認
Lucas Felipe Ferraro Cardoso, José de Sousa Ribeiro Filho, Vitor Cirilo Araujo Santos, Regiane Silva Kawasaki Frances, Ronnie Cley de Oliveira Alves, (参考訳) 機械学習の進歩には基礎があるが、精度やF1といった混乱行列から抽出された古典的評価指標は限られている。 このようなメトリクスは、データの複雑さやヒットの品質を考慮せずに、モデルのパフォーマンスの定量的なビューのみを提供する。 これらの制限を克服するために、最近の研究では、アイテム反応理論(IRT)のような心理学的指標を導入し、インスタンスの潜伏特性のレベルの評価を可能にした。 この研究は、IRTの概念が、類似したパフォーマンスを持つオプションの中で、どのモデルが最も適しているかを特定するために、混乱行列を豊かにする方法について考察する。 調査では、IRTは代替ではなく、特定のインスタンスにおけるモデルの詳細な振る舞いを、新しい評価層と観察層を提供することによって、古典的なメトリクスを補完する。 また、IRTのスコアが分析された古典的メトリクスの66%と異なる貢献をしているという自信が97%あることも観察された。

Although fundamental to the advancement of Machine Learning, the classic evaluation metrics extracted from the confusion matrix, such as precision and F1, are limited. Such metrics only offer a quantitative view of the models' performance, without considering the complexity of the data or the quality of the hit. To overcome these limitations, recent research has introduced the use of psychometric metrics such as Item Response Theory (IRT), which allows an assessment at the level of latent characteristics of instances. This work investigates how IRT concepts can enrich a confusion matrix in order to identify which model is the most appropriate among options with similar performance. In the study carried out, IRT does not replace, but complements classical metrics by offering a new layer of evaluation and observation of the fine behavior of models in specific instances. It was also observed that there is 97% confidence that the score from the IRT has different contributions from 66% of the classical metrics analyzed.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# グラフに関する議論:大規模言語モデルのためのフレキシブルで信頼性の高い推論フレームワーク

Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models ( http://arxiv.org/abs/2409.03155v1 )

ライセンス: Link先を確認
Jie Ma, Zhitao Gao, Qi Chai, Wangchun Sun, Pinghui Wang, Hongbin Pei, Jing Tao, Lingyun Song, Jun Liu, Chen Zhang, Lizhen Cui, (参考訳) 大規模言語モデル(LLM)は、関連する知識の欠如により、現実世界の応用において幻覚に悩まされることがある。 対照的に知識グラフは、多くの記号的事実を格納する広範囲な多関係構造を包含する。 その結果,LLMと知識グラフの統合が広範に検討され,知識グラフ質問回答(KGQA)が統合の要点となっている。 このタスクでは、LLMが知識グラフから関連するトリプルを検索することで自然言語の質問に答える必要がある。 しかし、既存の手法は2つの大きな課題に直面している: \textit{excessively long reasoning paths distracting from the answer generation} と \textit{false- positive relations hindering the path refinement} である。 本稿では,LLMの対話型学習機能を活用して,グラフ上での推論と議論を行う,反復型対話型KGQAフレームワークを提案する。 具体的には、DoGはサブグラフ焦点機構を採用しており、LSMは各推論ステップの後に解答を試み、長大な推論パスの影響を軽減することができる。 一方、DoGは多極的討論チームを利用して、複雑な質問を徐々に単純化し、偽陽性関係の影響を減らしている。 この議論のメカニズムは、推論プロセスの信頼性を保証する。 5つの公開データセットの実験結果は、アーキテクチャの有効性と優位性を示している。 特に DoG は WebQuestions と GrailQA でそれぞれ 23.7 % と 9.1 % の精度で最先端のToG を上回ります。 さらに、前述のデータセット上の様々なLLMとの統合実験では、DoGの柔軟性が強調されている。 コードは \url{https://github.com/reml-group/DoG} で入手できる。

Large Language Models (LLMs) may suffer from hallucinations in real-world applications due to the lack of relevant knowledge. In contrast, knowledge graphs encompass extensive, multi-relational structures that store a vast array of symbolic facts. Consequently, integrating LLMs with knowledge graphs has been extensively explored, with Knowledge Graph Question Answering (KGQA) serving as a critical touchstone for the integration. This task requires LLMs to answer natural language questions by retrieving relevant triples from knowledge graphs. However, existing methods face two significant challenges: \textit{excessively long reasoning paths distracting from the answer generation}, and \textit{false-positive relations hindering the path refinement}. In this paper, we propose an iterative interactive KGQA framework that leverages the interactive learning capabilities of LLMs to perform reasoning and Debating over Graphs (DoG). Specifically, DoG employs a subgraph-focusing mechanism, allowing LLMs to perform answer trying after each reasoning step, thereby mitigating the impact of lengthy reasoning paths. On the other hand, DoG utilizes a multi-role debate team to gradually simplify complex questions, reducing the influence of false-positive relations. This debate mechanism ensures the reliability of the reasoning process. Experimental results on five public datasets demonstrate the effectiveness and superiority of our architecture. Notably, DoG outperforms the state-of-the-art method ToG by 23.7\% and 9.1\% in accuracy on WebQuestions and GrailQA, respectively. Furthermore, the integration experiments with various LLMs on the mentioned datasets highlight the flexibility of DoG. Code is available at \url{https://github.com/reml-group/DoG}.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# MaterialBENCH:大学レベルの物質科学評価-大規模言語モデルの解答能力

MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models ( http://arxiv.org/abs/2409.03161v1 )

ライセンス: Link先を確認
Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato, (参考訳) 材料科学分野における大規模言語モデル(LLM)のための大学レベルのベンチマークデータセットであるMaterialBENCHを構築した。 このデータセットは、大学教科書に基づく問題解決ペアで構成されている。 1つは自由応答型であり、もう1つは多重選択型である。 複数選択問題は、3つの誤った答えを正しい答えに選択することで構成され、LCMは4つのうちの1つを応答として選択できる。 自由応答型と複数選択型の問題のほとんどは、回答の形式を除いて重複している。 また、ChatGPT-3.5、ChatGPT-4、Bard(実験当時)、OpenAI APIによるGPT-3.5およびGPT-4など、LCM上でのMaterialBENCHを用いた実験を行った。 材料BENCHで測定したLLMの性能の相違と類似性について検討した。 また,同モデルにおける自由応答型と多重選択型の性能差と,マルチ選択問題に対するシステムマッサージの使用の影響についても検討した。 MaterialsBENCHは、より複雑な問題を解決する能力の推論においてLLMのさらなる発展を促進し、最終的には材料研究や発見に貢献することを期待している。

A college-level benchmark dataset for large language models (LLMs) in the materials science field, MaterialBENCH, is constructed. This dataset consists of problem-answer pairs, based on university textbooks. There are two types of problems: one is the free-response answer type, and the other is the multiple-choice type. Multiple-choice problems are constructed by adding three incorrect answers as choices to a correct answer, so that LLMs can choose one of the four as a response. Most of the problems for free-response answer and multiple-choice types overlap except for the format of the answers. We also conduct experiments using the MaterialBENCH on LLMs, including ChatGPT-3.5, ChatGPT-4, Bard (at the time of the experiments), and GPT-3.5 and GPT-4 with the OpenAI API. The differences and similarities in the performance of LLMs measured by the MaterialBENCH are analyzed and discussed. Performance differences between the free-response type and multiple-choice type in the same models and the influence of using system massages on multiple-choice problems are also studied. We anticipate that MaterialBENCH will encourage further developments of LLMs in reasoning abilities to solve more complicated problems and eventually contribute to materials research and discovery.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 木組分類器理解のためのスケーラブルマトリックス可視化

A Scalable Matrix Visualization for Understanding Tree Ensemble Classifiers ( http://arxiv.org/abs/2409.03164v1 )

ライセンス: Link先を確認
Zhen Li, Weikai Yang, Jun Yuan, Jing Wu, Changjian Chen, Yao Ming, Fan Yang, Hui Zhang, Shixia Liu, (参考訳) ツリーアンサンブル分類器の高性能化は、大きなルールセットの恩恵を受けるため、モデルを理解するのが難しくなる。 解釈性を改善するため,既存手法はモデル還元手法を用いて近似規則のサブセットを抽出する。 しかし、ルールセットの縮小に焦点を合わせることで、これらの手法はしばしば忠実さを失い、その頻度にもかかわらず現実世界のアプリケーションにおいて重要な役割を果たすような異常なルールを無視する。 本稿では,数万のルールを含む木アンサンブル分類法を説明するために,拡張性のある視覚解析手法を提案する。 鍵となる考え方は、ルールを階層として適応的に整理することで、忠実さを失う問題に対処することである。 異常規則の包含を保証するため,各階層レベルでこれらの規則を優先順位付けする異常バイアスモデル還元法を開発した。 この階層的なルールの組織と相まって、さまざまな詳細レベルでの探索を支援するために、行列ベースの階層的可視化を開発する。 我々の定量的実験とケーススタディは、我々の手法が一般的なルールと異常なルールの両方をより深く理解し、包括性を犠牲にすることなく解釈可能性を高めることを実証している。

The high performance of tree ensemble classifiers benefits from a large set of rules, which, in turn, makes the models hard to understand. To improve interpretability, existing methods extract a subset of rules for approximation using model reduction techniques. However, by focusing on the reduced rule set, these methods often lose fidelity and ignore anomalous rules that, despite their infrequency, play crucial roles in real-world applications. This paper introduces a scalable visual analysis method to explain tree ensemble classifiers that contain tens of thousands of rules. The key idea is to address the issue of losing fidelity by adaptively organizing the rules as a hierarchy rather than reducing them. To ensure the inclusion of anomalous rules, we develop an anomaly-biased model reduction method to prioritize these rules at each hierarchical level. Synergized with this hierarchical organization of rules, we develop a matrix-based hierarchical visualization to support exploration at different levels of detail. Our quantitative experiments and case studies demonstrate how our method fosters a deeper understanding of both common and anomalous rules, thereby enhancing interpretability without sacrificing comprehensiveness.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 対話による連続的スキルとタスク学習

Continual Skill and Task Learning via Dialogue ( http://arxiv.org/abs/2409.03166v1 )

ライセンス: Link先を確認
Weiwei Gu, Suresh Kondepudi, Lixiao Huang, Nakul Gopalan, (参考訳) ロボットが新しいスキルを習得し、サンプル効率で新しいタスクを恒久的に解くことを期待する人間にロボットが存在しているため、連続的かつ対話的なロボット学習は難しい問題である。 本研究では,人間との対話を通じて,ロボットがロボットのスキルとタスク関連情報をクエリし,学習するためのフレームワークを提案する。 従来のアプローチでは、エージェントに従う命令のパフォーマンスを改善することに注力するか、新しいスキルやコンセプトを受動的に学習する。 代わりに、ダイアログと言語スキルの接地埋め込みを組み合わせて、ユーザが要求するスキルやタスクをクエリしたり、確認したりしました。 この目的を達成するために,エージェントのための3つの異なるコンポーネントを開発し,統合した。 まず,既存の SoTA ACT モデルで数発の連続学習が可能となる,低ランク適応型視覚運動制御 ACT (ACT-LoRA) を提案する。 第2に,ユーザからの質問やデモをいつ行うかを知るために,スキルの具体化を越えて,共有埋め込みにデモを投影するアライメントモデルを開発する。 最後に,既存のLLMを統合し,人間のユーザと対話し,タスクを解くための対話型連続的スキル学習を行う。 我々のACT-LoRAモデルは、RLBenchデータセットにおいて、トレーニング済みスキルの74.75%の精度を維持しながら、新しいスキルの5つのデモでトレーニングされた場合に、100%の精度で新しい微調整スキルを学習する。 また,本フレームワークの連続学習能力を実証するため,被験者8名を対象に人体実験を行った。 本研究では,本手法を用いて非熟練ユーザとの対話から,ロボットが新しいスキルやタスク知識を学習できることを実証した参加者データから,実際のロボットによるサンドイッチ作成作業において,75%の成功率を達成する。

Continual and interactive robot learning is a challenging problem as the robot is present with human users who expect the robot to learn novel skills to solve novel tasks perpetually with sample efficiency. In this work we present a framework for robots to query and learn visuo-motor robot skills and task relevant information via natural language dialog interactions with human users. Previous approaches either focus on improving the performance of instruction following agents, or passively learn novel skills or concepts. Instead, we used dialog combined with a language-skill grounding embedding to query or confirm skills and/or tasks requested by a user. To achieve this goal, we developed and integrated three different components for our agent. Firstly, we propose a novel visual-motor control policy ACT with Low Rank Adaptation (ACT-LoRA), which enables the existing SoTA ACT model to perform few-shot continual learning. Secondly, we develop an alignment model that projects demonstrations across skill embodiments into a shared embedding allowing us to know when to ask questions and/or demonstrations from users. Finally, we integrated an existing LLM to interact with a human user to perform grounded interactive continual skill learning to solve a task. Our ACT-LoRA model learns novel fine-tuned skills with a 100% accuracy when trained with only five demonstrations for a novel skill while still maintaining a 74.75% accuracy on pre-trained skills in the RLBench dataset where other models fall significantly short. We also performed a human-subjects study with 8 subjects to demonstrate the continual learning capabilities of our combined framework. We achieve a success rate of 75% in the task of sandwich making with the real robot learning from participant data demonstrating that robots can learn novel skills or task knowledge from dialogue with non-expert users using our approach.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# InfraLib: 大規模インフラストラクチャ管理のための強化学習と意思決定の実現

InfraLib: Enabling Reinforcement Learning and Decision Making for Large Scale Infrastructure Management ( http://arxiv.org/abs/2409.03167v1 )

ライセンス: Link先を確認
Pranay Thangeda, Trevor S. Betz, Michael N. Grussing, Melkior Ornik, (参考訳) インフラシステムの効率的な管理は、経済の安定、持続可能性、公共の安全に不可欠である。 しかし, システムの大規模化, コンポーネントの確率的劣化, 部分観測可能性, 資源制約などにより, インフラ管理は困難である。 強化学習(RL)のようなデータ駆動型アプローチは、管理ポリシーを最適化するための有望な手段を提供するが、適切なシミュレーション環境が欠如しているため、インフラストラクチャへの適用は制限されてきた。 InfraLibはインフラ管理の問題をモデリングし分析するための総合的なフレームワークである。 InfraLibは階層的で確率的なアプローチを採用して、現実的にインフラシステムとその劣化をモデル化している。 コンポーネントの可用性のモデル化、周期的予算、破滅的な失敗など、実用的な機能をサポートしています。 研究を容易にするため、InfraLibは専門家データ収集、シミュレーション駆動分析、可視化のためのツールを提供している。 InfraLibの能力は、現実世界の道路ネットワークと10万のコンポーネントによる総合ベンチマークのケーススタディを通じて実証する。

Efficient management of infrastructure systems is crucial for economic stability, sustainability, and public safety. However, infrastructure management is challenging due to the vast scale of systems, stochastic deterioration of components, partial observability, and resource constraints. While data-driven approaches like reinforcement learning (RL) offer a promising avenue for optimizing management policies, their application to infrastructure has been limited by the lack of suitable simulation environments. We introduce InfraLib, a comprehensive framework for modeling and analyzing infrastructure management problems. InfraLib employs a hierarchical, stochastic approach to realistically model infrastructure systems and their deterioration. It supports practical functionality such as modeling component unavailability, cyclical budgets, and catastrophic failures. To facilitate research, InfraLib provides tools for expert data collection, simulation-driven analysis, and visualization. We demonstrate InfraLib's capabilities through case studies on a real-world road network and a synthetic benchmark with 100,000 components.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# MARAGS:マルチタスク検索のためのマルチアダプタシステム

MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering ( http://arxiv.org/abs/2409.03171v1 )

ライセンス: Link先を確認
Mitchell DeHaven, (参考訳) 本稿では,KDD CUP 2024 における Meta's Comprehensive RAG (CRAG) コンペティションのためのマルチアダプタ検索拡張システム (MARAGS) を提案する。 CRAGは、現実的な質問とRAG関連タスクに対する回答を目的とした3つのサブタスクを含む質問応答データセットである。 このシステムでは,処理されたWebページを使用して世代を生成するためのLLMのコンテキストを提供するとともに,追加情報としてAPIエンドポイントをクエリする。 また、MARAGSは複数の異なるアダプタを使用して、これらのタスクの様々な要件を解決する。 タスク1では2位,タスク2では3位となった。

In this paper we present a multi-adapter retrieval augmented generation system (MARAGS) for Meta's Comprehensive RAG (CRAG) competition for KDD CUP 2024. CRAG is a question answering dataset contains 3 different subtasks aimed at realistic question and answering RAG related tasks, with a diverse set of question topics, question types, time dynamic answers, and questions featuring entities of varying popularity. Our system follows a standard setup for web based RAG, which uses processed web pages to provide context for an LLM to produce generations, while also querying API endpoints for additional information. MARAGS also utilizes multiple different adapters to solve the various requirements for these tasks with a standard cross-encoder model for ranking candidate passages relevant for answering the question. Our system achieved 2nd place for Task 1 as well as 3rd place on Task 2.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 知覚歪みバランス画像超解法は多目的最適化問題である

Perceptual-Distortion Balanced Image Super-Resolution is a Multi-Objective Optimization Problem ( http://arxiv.org/abs/2409.03179v1 )

ライセンス: Link先を確認
Qiwen Zhu, Yanjie Wang, Shilv Cai, Liqun Chen, Jiahuan Zhou, Luxin Yan, Sheng Zhong, Xu Zou, (参考訳) 画素ベースの回帰損失を用いた単一画像超解法(SISR)モデルのトレーニングは、高歪みのメトリクススコア(例えば、PSNR、SSIM)が得られるが、高頻度の詳細の回復が不十分なため、しばしばぼやけた画像が得られる。 逆に、GANや知覚的損失を用いることで、高い知覚メトリックスコア(例えばLPIPS)を持つシャープなイメージを生成することができるが、アーティファクトや誤ったテクスチャを導入することもある。 この2つのタイプの損失のバランスをとることは、歪みと知覚の間のトレードオフを達成するのに役立ちますが、課題は損失関数の重みを調整することです。 そこで本研究では,Multi-Objective Optimization(MOO)をSISRモデルのトレーニングプロセスに組み込んで,知覚品質と歪みのバランスをとる手法を提案する。 我々は、損失重みと画像品質評価(IQA)メトリクスの関係を、多目的ベイズ最適化超解法(MOBOSR)フレームワークで最適化されるブラックボックス目的関数として概念化する。 このアプローチはハイパーパラメータチューニングプロセスを自動化し、全体的な計算コストを削減し、多数の損失関数を同時に使用可能にする。 広汎な実験により、MOBOSRは知覚品質と歪みの両方の観点から最先端の手法より優れており、知覚歪曲パレートフロンティアを著しく向上させることが示された。 我々の研究は、ほぼ全ての画像復元作業における知覚品質と忠実性のバランスに関する今後の研究の方向性を指している。 ソースコードと事前訓練されたモデルは、https://github.com/ZhuKeven/MOBOSR.comで入手できる。

Training Single-Image Super-Resolution (SISR) models using pixel-based regression losses can achieve high distortion metrics scores (e.g., PSNR and SSIM), but often results in blurry images due to insufficient recovery of high-frequency details. Conversely, using GAN or perceptual losses can produce sharp images with high perceptual metric scores (e.g., LPIPS), but may introduce artifacts and incorrect textures. Balancing these two types of losses can help achieve a trade-off between distortion and perception, but the challenge lies in tuning the loss function weights. To address this issue, we propose a novel method that incorporates Multi-Objective Optimization (MOO) into the training process of SISR models to balance perceptual quality and distortion. We conceptualize the relationship between loss weights and image quality assessment (IQA) metrics as black-box objective functions to be optimized within our Multi-Objective Bayesian Optimization Super-Resolution (MOBOSR) framework. This approach automates the hyperparameter tuning process, reduces overall computational cost, and enables the use of numerous loss functions simultaneously. Extensive experiments demonstrate that MOBOSR outperforms state-of-the-art methods in terms of both perceptual quality and distortion, significantly advancing the perception-distortion Pareto frontier. Our work points towards a new direction for future research on balancing perceptual quality and fidelity in nearly all image restoration tasks. The source code and pretrained models are available at: https://github.com/ZhuKeven/MOBOSR.
翻訳日:2024-09-06 22:33:03 公開日:2024-09-05
# 家庭内呼吸器疾患のモニタリングと呼吸評価のための機械学習アルゴリズム

Machine learning-based algorithms for at-home respiratory disease monitoring and respiratory assessment ( http://arxiv.org/abs/2409.03180v1 )

ライセンス: Link先を確認
Negar Orangi-Fard, Alexandru Bogdan, Hersh Sagreiya, (参考訳) 呼吸器疾患は世界的な健康に重大な負担を課し、現在の診断と管理の実践は主に専門的な臨床検査に依存している。 本研究の目的は,CPAP(Continuous positive airway pressure)治療中の患者の在宅呼吸器疾患のモニタリングと評価を容易にする機械学習ベースのアルゴリズムを開発することである。 健常成人30名を対象に,正常,汎発,深呼吸の3つの呼吸条件下での呼吸圧,血流,胸腹部周囲のダイナミックな計測を行った。 ランダムフォレスト分類器、ロジスティック回帰、サポートベクターマシン(SVM)など、さまざまな機械学習モデルをトレーニングし、呼吸タイプを予測する。 ランダム森林分類器は,特に呼吸速度を特徴とする場合に,最も高い精度を示した。 これらの知見は、臨床環境から在宅環境へ呼吸評価を移行し、アクセシビリティと患者の自律性を高めるAI駆動型呼吸監視システムの可能性を支持する。 今後の研究では、これらのモデルをより大きく多様な集団で検証し、追加の機械学習技術を模索する。

Respiratory diseases impose a significant burden on global health, with current diagnostic and management practices primarily reliant on specialist clinical testing. This work aims to develop machine learning-based algorithms to facilitate at-home respiratory disease monitoring and assessment for patients undergoing continuous positive airway pressure (CPAP) therapy. Data were collected from 30 healthy adults, encompassing respiratory pressure, flow, and dynamic thoraco-abdominal circumferential measurements under three breathing conditions: normal, panting, and deep breathing. Various machine learning models, including the random forest classifier, logistic regression, and support vector machine (SVM), were trained to predict breathing types. The random forest classifier demonstrated the highest accuracy, particularly when incorporating breathing rate as a feature. These findings support the potential of AI-driven respiratory monitoring systems to transition respiratory assessments from clinical settings to home environments, enhancing accessibility and patient autonomy. Future work involves validating these models with larger, more diverse populations and exploring additional machine learning techniques.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# DARCY防衛をバイパスする: 区別がつかないユニバーサル・ディバイサル・トリガー

Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers ( http://arxiv.org/abs/2409.03183v1 )

ライセンス: Link先を確認
Zuquan Peng, Yuanyuan He, Jianbing Ni, Ben Niu, (参考訳) 自然言語処理(NLP)のためのニューラルネットワーク(NN)分類モデルは、任意の入力に対して特定の予測を生成するためにモデルをトリガーするUniversal Adversarial Triggers(UAT)攻撃に対して脆弱である。 DARCYは"Honeypot"の概念を借りて複数のトラップドアを餌にし、UATが生み出す敵の例を効果的に検出する。 残念なことに、新しいUAT生成手法であるIndisUATはトリガ(トークン)を生成し、DARCYの検知層におけるランダムな長調カテゴリの良質な例と特徴分布が区別できない敵の例を作成する。 生成した逆数例は、DARCY保護モデルにおける予測結果の最大損失をもたらす。 一方、生成したトリガは、テキスト生成、テキスト推論、読解のためのブラックボックスモデルに有効である。 最後に、NLPタスクに対するNNモデルによる評価結果から、IndisUAT法はDARCYを効果的に回避し、他の防御を浸透させることができることを示す。 例えば、IndisUAT は DARCY の検出の正の確率を少なくとも 40.8% と 90.6% に下げ、それぞれ RNN と CNN のモデルで 33.3% と 51.6% の精度を下げることができる。 IndisUATはBERTの対角防御モデルの精度を少なくとも34.0%削減し、GPT-2言語モデルは非人種差別的文脈で条件付きであっても人種差別的出力を吐き出す。

Neural networks (NN) classification models for Natural Language Processing (NLP) are vulnerable to the Universal Adversarial Triggers (UAT) attack that triggers a model to produce a specific prediction for any input. DARCY borrows the "honeypot" concept to bait multiple trapdoors, effectively detecting the adversarial examples generated by UAT. Unfortunately, we find a new UAT generation method, called IndisUAT, which produces triggers (i.e., tokens) and uses them to craft adversarial examples whose feature distribution is indistinguishable from that of the benign examples in a randomly-chosen category at the detection layer of DARCY. The produced adversarial examples incur the maximal loss of predicting results in the DARCY-protected models. Meanwhile, the produced triggers are effective in black-box models for text generation, text inference, and reading comprehension. Finally, the evaluation results under NN models for NLP tasks indicate that the IndisUAT method can effectively circumvent DARCY and penetrate other defenses. For example, IndisUAT can reduce the true positive rate of DARCY's detection by at least 40.8% and 90.6%, and drop the accuracy by at least 33.3% and 51.6% in the RNN and CNN models, respectively. IndisUAT reduces the accuracy of the BERT's adversarial defense model by at least 34.0%, and makes the GPT-2 language model spew racist outputs even when conditioned on non-racial context.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# 量子流体中の定常乱流のレジーム

Regimes of Steady-State Turbulence in a Quantum Fluid ( http://arxiv.org/abs/2409.03184v1 )

ライセンス: Link先を確認
Tommy Z. Fischer, Ashton S. Bradley, (参考訳) 我々はGross-Pitaevskii方程式をシミュレートし、立方体箱電位に制限された量子流体における乱流の発生をモデル化し、一軸に沿って揺れることによって強制する。 異方性強制から広範囲の強制振幅に対する等方性乱流の発生を観察し, フーリエスペクトル, 渦分布, 空間相関による状態の特徴付けを行う。 弱い強制のために、定常波動スペクトルは、$k^{-3.5}$の波数$k$のスケーリングを示すが、さらに分解すると、圧縮可能な運動エネルギーと量子圧の両方において同じパワー則が明らかとなり、バルク超流動は相整合性であり、拡張渦から解放される。 強制エネルギーが化学ポテンシャルを超えると、拡張渦はバルクで発達し、$k^{-3.5}$スケールが破壊される。 その後、スペクトルは圧縮可能な運動エネルギーのみのための$k^{-7/3}$レギュレーションに遷移し、密度の渦乱流と位相コヒーレンスはヒーリング長に制限される。 強い強制機構は、小さな渦消滅によって駆動される圧縮可能エネルギーの逆カスケードと一致している。

We simulate the Gross-Pitaevskii equation to model the development of turbulence in a quantum fluid confined by a cuboid box potential, and forced by shaking along one axis. We observe the development of isotropic turbulence from anisotropic forcing for a broad range of forcing amplitudes, and characterise the states through their Fourier spectra, vortex distributions, and spatial correlations. For weak forcing the steady-state wave-action spectrum exhibits a $k^{-3.5}$ scaling over wavenumber $k$; further decomposition uncovers the same power law in both compressible kinetic energy and quantum pressure, while the bulk superfluid remains phase coherent and free from extended vortices. As the forcing energy exceeds the chemical potential, extended vortices develop in the bulk, disrupting the $k^{-3.5}$ scaling. The spectrum then transitions to a $k^{-7/3}$ regime for compressible kinetic energy only, associated with dense vortex turbulence, and phase coherence limited to the healing length. The strong forcing regime is consistent with an inverse cascade of compressible energy driven by small-scale vortex annihilation.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# DasAtom: 量子回路トランスフォーメーションのための分極的およびゆるやかな原子アプローチ

DasAtom: A Divide-and-Shuttle Atom Approach to Quantum Circuit Transformation ( http://arxiv.org/abs/2409.03185v1 )

ライセンス: Link先を確認
Yunqi Huang, Dingchao Gao, Shenggang Ying, Sanjiang Li, (参考訳) ニュートラル原子(NA)量子システムは量子計算の先駆的なプラットフォームとして登場し、超伝導回路やイオントラップと比較して、優れたまたは競合的な量子ビット数とゲート忠実性を提供する。 しかし、長距離相互作用、長い量子ビットコヒーレンス時間、量子ビットを物理的に移動させる能力など、NAデバイスのユニークな特徴は、量子回路のコンパイルにおいて異なる課題を示している。 本稿では,これらの機能を活用してNAデバイスに対する量子回路変換を最適化するために設計された,新しい分割・集束原子アプローチであるDasAtomを紹介する。 DasAtomは回路をサブ回路に分割し、それぞれにキュービットマッピングを関連付け、サブ回路内のすべてのゲートを直接実行できるようにする。 アルゴリズムは原子を1つのマッピングから次のマッピングへシームレスに遷移させ、実行効率と全体的な忠実度の両方を高める。 30量子フーリエ変換(QFT)のために、DasAtomは移動ベースのアルゴリズムであるEnolaよりも414倍、SWAPベースのアルゴリズムであるTetrisよりも10.6倍改善された。 特に、この改善は量子ビットの数とともに指数関数的に増加することが期待されており、DasAtomはNAプラットフォーム上で量子計算をスケールするための非常に有望なソリューションとして位置づけられている。

Neutral atom (NA) quantum systems are emerging as a leading platform for quantum computation, offering superior or competitive qubit count and gate fidelity compared to superconducting circuits and ion traps. However, the unique features of NA devices, such as long-range interactions, long qubit coherence time, and the ability to physically move qubits, present distinct challenges for quantum circuit compilation. In this paper, we introduce DasAtom, a novel divide-and-shuttle atom approach designed to optimise quantum circuit transformation for NA devices by leveraging these capabilities. DasAtom partitions circuits into subcircuits, each associated with a qubit mapping that allows all gates within the subcircuit to be directly executed. The algorithm then shuttles atoms to transition seamlessly from one mapping to the next, enhancing both execution efficiency and overall fidelity. For a 30-qubit Quantum Fourier Transform (QFT), DasAtom achieves a 414x improvement in fidelity over the move-based algorithm Enola and a 10.6x improvement over the SWAP-based algorithm Tetris. Notably, this improvement is expected to increase exponentially with the number of qubits, positioning DasAtom as a highly promising solution for scaling quantum computation on NA platforms.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# 線形リカレントネットワークにおける雑音がメモリに与える影響

How noise affects memory in linear recurrent networks ( http://arxiv.org/abs/2409.03187v1 )

ライセンス: Link先を確認
JingChuan Guan, Tomoyuki Kubota, Yasuo Kuniyoshi, Kohei Nakajima, (参考訳) 線形リカレントネットワークの記憶に及ぼす雑音の影響を理論的に検討した。 メモリは、前の入力をネットワークの瞬間的な状態に保存する能力によって特徴付けられる。 まず、ノイズによって低減されたメモリは、ノイズのパワースペクトル密度(PSD)によって一意に決定される。 第2に、PSDが特定の種類の分布(電力法則を含む)にある場合、ノイズ強度にかかわらずメモリは低下しない。 結果はヒト脳信号を用いて検証され、良好な一致を示した。

The effects of noise on memory in a linear recurrent network are theoretically investigated. Memory is characterized by its ability to store previous inputs in its instantaneous state of network, which receives a correlated or uncorrelated noise. Two major properties are revealed: First, the memory reduced by noise is uniquely determined by the noise's power spectral density (PSD). Second, the memory will not decrease regardless of noise intensity if the PSD is in a certain class of distribution (including power law). The results are verified using the human brain signals, showing good agreement.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# Ness-Helleseth関数の微分スペクトルについて

A note on the differential spectrum of the Ness-Helleseth function ( http://arxiv.org/abs/2409.03189v1 )

ライセンス: Link先を確認
Ketong Ren, Maosheng Xiong, Haode Yan, (参考訳) n\geqslant3$ を奇整数とし、$u$ を有限体 $\gf_{3^n}$ の元とする。 Ness-Helleseth 関数は二項 $f_u(x)=ux^{d_1}+x^{d_2}$ over $\gf_{3^n}$, ここで $d_1=\frac{3^n-1}{2}-1$ と $d_2=3^n-2$ である。 2007年、Ness and Helleseth は、$f_u$ が APN 関数であるとは、$\chi(u+1)=\chi(u-1)=\chi(u)$ が、$\chi(u+1)=\chi(u-1)\neq\chi(u)$ が微分可能で、$ \chi(u+1)\neq\chi(u-1)$ と $u\notin\gf_3$ が微分一様であることを証明した。 ここで$\chi(\cdot)$は$\gf_{3^n}$の二次文字を表す。 最近、Xiaらはすべての$u$に対して$f_u$の微分均一性を決定し、$u$に対して$f_u$の微分スペクトルを$\chi(u+1)=\chi(u-1)$または$u\in\gf_3$で計算した。 残りの問題は、$f_u$と$\chi(u+1)\neq\chi(u-1)$と$u\notin\gf_3$の微分スペクトルである。 本稿では,そのギャップを埋める。 ネッス=ヘレセス関数$f_u$から生じる微分方程式をより慎重に研究することにより、そのような$u$に対する微分スペクトルを2つの二次指標和の観点から表現する。 これはXia et al の以前の著作を補完する。

Let $n\geqslant3$ be an odd integer and $u$ an element in the finite field $\gf_{3^n}$. The Ness-Helleseth function is the binomial $f_u(x)=ux^{d_1}+x^{d_2}$ over $\gf_{3^n}$, where $d_1=\frac{3^n-1}{2}-1$ and $d_2=3^n-2$. In 2007, Ness and Helleseth showed that $f_u$ is an APN function when $\chi(u+1)=\chi(u-1)=\chi(u)$, is differentially $3$-uniform when $\chi(u+1)=\chi(u-1)\neq\chi(u)$, and has differential uniformity at most 4 if $ \chi(u+1)\neq\chi(u-1)$ and $u\notin\gf_3$. Here $\chi(\cdot)$ denotes the quadratic character on $\gf_{3^n}$. Recently, Xia et al. determined the differential uniformity of $f_u$ for all $u$ and computed the differential spectrum of $f_u$ for $u$ satisfying $\chi(u+1)=\chi(u-1)$ or $u\in\gf_3$. The remaining problem is the differential spectrum of $f_u$ with $\chi(u+1)\neq\chi(u-1)$ and $u\notin\gf_3$. In this paper, we fill in the gap. By studying differential equations arising from the Ness-Helleseth function $f_u$ more carefully, we express the differential spectrum of $f_u$ for such $u$ in terms of two quadratic character sums. This complements the previous work of Xia et al.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# PEPL:半監督学習における微細画像分類のための精度向上擬似ラベル

PEPL: Precision-Enhanced Pseudo-Labeling for Fine-Grained Image Classification in Semi-Supervised Learning ( http://arxiv.org/abs/2409.03192v1 )

ライセンス: Link先を確認
Bowen Tian, Songning Lai, Lujundong Li, Zhihao Shuai, Runwei Guan, Tian Wu, Yutao Yue, (参考訳) きめ細かい画像分類は、ディープラーニングとコンピュータビジョン技術の出現によって大きな進歩をみせた。 しかし、特に高品質なラベル付きデータを取得するのに時間を要するシナリオでは、詳細なアノテーションの不足は大きな課題である。 この制限に対処するために,半教師付き学習フレームワーク内でのきめ細かい画像分類に特化して設計されたPEPL(Precision-Enhanced Pseudo-Labeling)アプローチを提案する。 提案手法は, 初期擬似ラベル生成と意味混合擬似ラベル生成という2つの重要なフェーズを通じて, 改良された高品質な擬似ラベルを生成することによって, ラベルなしデータの豊富さを生かしている。 これらのフェーズでは、クラスアクティベーションマップ(CAM)を使用して、セマンティックコンテンツを正確に推定し、微粒な分類に必要な重要な詳細をキャプチャする洗練されたラベルを生成する。 提案手法は,意味レベルの情報に焦点をあてることで,重要なきめ細かな特徴の保存において,標準データ拡張と画像混合技術の限界を効果的に解決する。 我々のコードはhttps://github.com/TianSuya/SemiFG.comでオープンソース化された。

Fine-grained image classification has witnessed significant advancements with the advent of deep learning and computer vision technologies. However, the scarcity of detailed annotations remains a major challenge, especially in scenarios where obtaining high-quality labeled data is costly or time-consuming. To address this limitation, we introduce Precision-Enhanced Pseudo-Labeling(PEPL) approach specifically designed for fine-grained image classification within a semi-supervised learning framework. Our method leverages the abundance of unlabeled data by generating high-quality pseudo-labels that are progressively refined through two key phases: initial pseudo-label generation and semantic-mixed pseudo-label generation. These phases utilize Class Activation Maps (CAMs) to accurately estimate the semantic content and generate refined labels that capture the essential details necessary for fine-grained classification. By focusing on semantic-level information, our approach effectively addresses the limitations of standard data augmentation and image-mixing techniques in preserving critical fine-grained features. We achieve state-of-the-art performance on benchmark datasets, demonstrating significant improvements over existing semi-supervised strategies, with notable boosts in accuracy and robustness.Our code has been open sourced at https://github.com/TianSuya/SemiFG.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# RoomDiffusion: インテリアデザイン産業における特殊拡散モデル

RoomDiffusion: A Specialized Diffusion Model in the Interior Design Industry ( http://arxiv.org/abs/2409.03198v1 )

ライセンス: Link先を確認
Zhaowei Wang, Ying Hao, Hao Wei, Qing Xiao, Lulu Chen, Yulong Li, Yue Yang, Tianyi Li, (参考訳) テキスト・画像拡散モデルの最近の進歩は、視覚コンテンツ生成を著しく変化させてきたが、インテリアデザインなどの特殊分野への応用はいまだ検討されていない。 本稿では,インテリアデザイン産業に適した拡散モデルであるRoomDiffusionを紹介する。 まず最初に、データパイプライン全体をスクラッチから構築し、反復モデル最適化のためのデータを更新し、評価します。 その後、マルチアスペクトトレーニング、マルチステージファインチューン、モデル融合などの手法を適用し、生成した結果の視覚的魅力と精度を両立させる。 最後に, 遅延整合蒸留法を利用して, モデルを蒸留・抽出し, 最適効率を向上する。 一般的なシナリオに最適化された既存のモデルとは異なり、RoomDiffusionはファッションの欠如、家具の複製率の高さ、不正確なスタイルなど、インテリアデザインにおける特定の課題に対処している。 20人以上の専門家による総合的人的評価プロトコルを通じて、RoomDiffusionは、審美性、正確性、効率性の観点から業界をリードする性能を示し、安定した拡散やSDXLといった既存のオープンソースモデルをすべて上回っている。

Recent advancements in text-to-image diffusion models have significantly transformed visual content generation, yet their application in specialized fields such as interior design remains underexplored. In this paper, we present RoomDiffusion, a pioneering diffusion model meticulously tailored for the interior design industry. To begin with, we build from scratch a whole data pipeline to update and evaluate data for iterative model optimization. Subsequently, techniques such as multiaspect training, multi-stage fine-tune and model fusion are applied to enhance both the visual appeal and precision of the generated results. Lastly, leveraging the latent consistency Distillation method, we distill and expedite the model for optimal efficiency. Unlike existing models optimized for general scenarios, RoomDiffusion addresses specific challenges in interior design, such as lack of fashion, high furniture duplication rate, and inaccurate style. Through our holistic human evaluation protocol with more than 20 professional human evaluators, RoomDiffusion demonstrates industry-leading performance in terms of aesthetics, accuracy, and efficiency, surpassing all existing open source models such as stable diffusion and SDXL.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# アクティブフェイク:ディープフェイクカモフラージュ

Active Fake: DeepFake Camouflage ( http://arxiv.org/abs/2409.03200v1 )

ライセンス: Link先を確認
Pu Sun, Honggang Qi, Yuezun Li, (参考訳) DeepFakeの技術は、顔の特徴を高いリアリズムで操り、深刻な社会的関心を喚起する能力によって、大きな注目を集めている。 フェイススワップディープフェイクはこれらの技術の中でも最も有害であり、元の顔と合成顔とを交換することで振る舞いを創り出す。 既存の法医学的手法は、主にディープニューラルネットワーク(DNN)に基づいており、これらの操作を効果的に公開し、重要な認証指標となっている。 しかし、これらの手法は主にDeepFakeの顔のブレンド不整合を捉え、Active Fakeと呼ばれる新しいセキュリティ問題を提起する。 この戦術はディープフェイク・カモフラージュ(DeepFake Camouflage)と呼ばれる。 これを実現するために,混合不整合を発生させるDeepFake camouflageを作成するための新しいフレームワークを提案する。 このフレームワークは、敵対的な学習戦略によって最適化され、法医学的検出器を誤解させるには、理解できないが効果的な矛盾を解く。 大規模な実験により,本手法の有効性とロバスト性を実証し,アクティブフェイク検出におけるさらなる研究の必要性を浮き彫りにした。

DeepFake technology has gained significant attention due to its ability to manipulate facial attributes with high realism, raising serious societal concerns. Face-Swap DeepFake is the most harmful among these techniques, which fabricates behaviors by swapping original faces with synthesized ones. Existing forensic methods, primarily based on Deep Neural Networks (DNNs), effectively expose these manipulations and have become important authenticity indicators. However, these methods mainly concentrate on capturing the blending inconsistency in DeepFake faces, raising a new security issue, termed Active Fake, emerges when individuals intentionally create blending inconsistency in their authentic videos to evade responsibility. This tactic is called DeepFake Camouflage. To achieve this, we introduce a new framework for creating DeepFake camouflage that generates blending inconsistencies while ensuring imperceptibility, effectiveness, and transferability. This framework, optimized via an adversarial learning strategy, crafts imperceptible yet effective inconsistencies to mislead forensic detectors. Extensive experiments demonstrate the effectiveness and robustness of our method, highlighting the need for further research in active fake detection.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# 低リソース感性分類におけるデータ拡張のための拡散型LMの有効展開

An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification ( http://arxiv.org/abs/2409.03203v1 )

ライセンス: Link先を確認
Zhuowei Chen, Lianxi Wang, Yuben Wu, Xinfeng Liao, Yujia Tian, Junyang Zhong, (参考訳) 感性分類(SC)は、ドメイン固有のコンテキスト、不均衡なラベル分布、少数ショットシナリオなど、低リソースの課題に悩まされることが多い。 テキストデータ拡張(DA)のための拡散言語モデル(LM)の可能性は未解明のままであり、さらにテキストDA手法は、新しいサンプルの多様性と一貫性のバランスをとるのに苦労している。 ほとんどのDAメソッドは論理的な修正を行うか、言語モデルで元のシーケンスであまり重要でないトークンを言い換える。 SCの文脈では、強い感情的トークンはシーケンス全体の感情に批判的に作用する可能性がある。 そこで我々はDiffusionCLSを提案し,拡散LMを利用してドメイン内知識を抽出し,強力なラベル関連トークンを再構成して擬似サンプルを生成する。 このアプローチは、一貫性と多様性のバランスを確保し、ノイズの導入を避け、データセットの重要な機能を強化する。 拡散CLSはまた、モデルを一般化するための耐雑音性トレーニングの目的も備えている。 ドメイン固有問題やドメイン一般問題を含む様々な低リソースシナリオにおいて,本手法の有効性を示す実験を行った。 アブレーション研究は、我々のフレームワークのモジュールの有効性を確認し、可視化研究は最適な配置条件を強調し、結論を補強する。

Sentiment classification (SC) often suffers from low-resource challenges such as domain-specific contexts, imbalanced label distributions, and few-shot scenarios. The potential of the diffusion language model (LM) for textual data augmentation (DA) remains unexplored, moreover, textual DA methods struggle to balance the diversity and consistency of new samples. Most DA methods either perform logical modifications or rephrase less important tokens in the original sequence with the language model. In the context of SC, strong emotional tokens could act critically on the sentiment of the whole sequence. Therefore, contrary to rephrasing less important context, we propose DiffusionCLS to leverage a diffusion LM to capture in-domain knowledge and generate pseudo samples by reconstructing strong label-related tokens. This approach ensures a balance between consistency and diversity, avoiding the introduction of noise and augmenting crucial features of datasets. DiffusionCLS also comprises a Noise-Resistant Training objective to help the model generalize. Experiments demonstrate the effectiveness of our method in various low-resource scenarios including domain-specific and domain-general problems. Ablation studies confirm the effectiveness of our framework's modules, and visualization studies highlight optimal deployment conditions, reinforcing our conclusions.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# 機械学習アルゴリズムによるアメリカンオプションの価格設定

Pricing American Options using Machine Learning Algorithms ( http://arxiv.org/abs/2409.03204v1 )

ライセンス: Link先を確認
Prudence Djagba, Callixte Ndizihiwe, (参考訳) 本研究では,モンテカルロシミュレーションを用いて,機械学習アルゴリズムの適用,特にアメリカのオプションの価格設定について検討する。 Black-Scholes-Mertonフレームワークのような伝統的なモデルは、早期運動や非線形のペイオフ構造を含むアメリカの選択肢の複雑さに適切に対処できないことが多い。 モンテカルロ法を併用してLast Square Methodを機械学習に利用した。 本研究の目的は、オプション価格の精度と効率を改善することである。 この研究は、ニューラルネットワークや決定木など、いくつかの機械学習モデルを評価し、従来のアプローチを上回る可能性を強調している。 LSMに機械学習アルゴリズムを適用した結果、機械学習とモンテカルロシミュレーションを統合することで、価格の精度が向上し、より堅牢な予測が可能になることが示され、古典的な金融理論と現代の計算技術を組み合わせることで、量的金融に関する重要な洞察を提供する。 データセットは機能に分割され、ターゲット変数は入札価格を表し、80-20の列車価が割り振られた。 LSTMとGRUモデルは、TensorFlowのKeras APIを使用して構築され、それぞれに4つの隠されたレイヤ200のニューロンと入札価格予測用の出力層があり、AdamオプティマイザとMSE損失関数で最適化されている。 GRUモデルはLSTMモデルよりも優れており、平均絶対誤差、平均二乗誤差、ルート平均二乗誤差、トレーニングの安定性と効率が向上した。

This study investigates the application of machine learning algorithms, particularly in the context of pricing American options using Monte Carlo simulations. Traditional models, such as the Black-Scholes-Merton framework, often fail to adequately address the complexities of American options, which include the ability for early exercise and non-linear payoff structures. By leveraging Monte Carlo methods in conjunction Least Square Method machine learning was used. This research aims to improve the accuracy and efficiency of option pricing. The study evaluates several machine learning models, including neural networks and decision trees, highlighting their potential to outperform traditional approaches. The results from applying machine learning algorithm in LSM indicate that integrating machine learning with Monte Carlo simulations can enhance pricing accuracy and provide more robust predictions, offering significant insights into quantitative finance by merging classical financial theories with modern computational techniques. The dataset was split into features and the target variable representing bid prices, with an 80-20 train-validation split. LSTM and GRU models were constructed using TensorFlow's Keras API, each with four hidden layers of 200 neurons and an output layer for bid price prediction, optimized with the Adam optimizer and MSE loss function. The GRU model outperformed the LSTM model across all evaluated metrics, demonstrating lower mean absolute error, mean squared error, and root mean squared error, along with greater stability and efficiency in training.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# TC-LLaVA:時間的考察による画像から映像への変換の再考

TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations ( http://arxiv.org/abs/2409.03206v1 )

ライセンス: Link先を確認
Mingze Gao, Jingyu Liu, Mingda Li, Jiangtao Xie, Qingbin Liu, Bo Zhao, Xi Chen, Hui Xiong, (参考訳) MLLM(Multimodal Large Language Models)は、様々な画像言語アプリケーションのパフォーマンスを大幅に改善した。 近年,映像関連タスクに事前学習されたMLLMを適応させることへの関心が高まっている。 しかし、ほとんどの取り組みはビジョンエンコーダとプロジェクタコンポーネントの強化に集中しているが、中核部分であるLarge Language Models (LLMs) はいまだに未探索である。 本稿では,LLMにおける層間アテンション計算を改善することにより,映像理解タスクにおけるモデルの能力を高めるための2つの手法を提案する。 具体的には、時間的位置情報を導入し、視覚的およびテキスト的トークンの相対的位置関係を保ちながら、MLLMの時間的モデリング能力を強化する。 第2のアプローチは、フレームワイドブロック因果注意マスク(Frame-wise Block Causal Attention Mask)による注意マスクの強化である。 提案手法に基づいて,ビデオ理解タスクにLLaVAを適応させ,これをTC-LLaVA(Temporal-Considered LLaVA)と命名する。 TC-LLaVAは、ビデオ関連データセットに対して教師付き微調整(SFT)のみを施した、様々なビデオ理解ベンチマークにおいて、最先端のパフォーマンスを実現する。

Multimodal Large Language Models (MLLMs) have significantly improved performance across various image-language applications. Recently, there has been a growing interest in adapting image pre-trained MLLMs for video-related tasks. However, most efforts concentrate on enhancing the vision encoder and projector components, while the core part, Large Language Models (LLMs), remains comparatively under-explored. In this paper, we propose two strategies to enhance the model's capability in video understanding tasks by improving inter-layer attention computation in LLMs. Specifically, the first approach focuses on the enhancement of Rotary Position Embedding (RoPE) with Temporal-Aware Dual RoPE, which introduces temporal position information to strengthen the MLLM's temporal modeling capabilities while preserving the relative position relationships of both visual and text tokens. The second approach involves enhancing the Attention Mask with the Frame-wise Block Causal Attention Mask, a simple yet effective method that broadens visual token interactions within and across video frames while maintaining the causal inference mechanism. Based on these proposed methods, we adapt LLaVA for video understanding tasks, naming it Temporal-Considered LLaVA (TC-LLaVA). Our TC-LLaVA achieves new state-of-the-art performance across various video understanding benchmarks with only supervised fine-tuning (SFT) on video-related datasets.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# iSeg: トレーニングフリーセグメンテーションのための反復リファインメントベースのフレームワーク

iSeg: An Iterative Refinement-based Framework for Training-free Segmentation ( http://arxiv.org/abs/2409.03209v1 )

ライセンス: Link先を確認
Lin Sun, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang, (参考訳) 安定拡散は、テキスト記述を与える強力な画像合成能力を示し、オブジェクトをグループ化するための強力な意味的手がかりを含むことを示唆している。 これに触発された研究者らは、トレーニングフリーセグメンテーションに安定な拡散を利用する方法を模索してきた。 既存のアプローチのほとんどは、単にクロスアテンションマップを使用するか、自己アテンションマップによってそれを洗練して、セグメンテーションマスクを生成する。 私たちは、自己注意マップによる反復的な改善がより良い結果をもたらすと信じています。 しかし、このような改善は、複数の反復で横断地図を正確に精錬する無関係なグローバル情報を含む自己注意マップが原因で、準最適である可能性が経験的に実証されている。 そこで本研究では,非関係なグローバル情報に対応する弱応答を抑えるために,勾配勾配勾配法を用いて,非関連な自己アテンションマップのエントロピーを減少させるエントロピー還元型自己アテンションモジュールを備えた,iSegと呼ばれるトレーニングフリーセグメンテーションのための反復的改良フレームワークを提案する。 エントロピーを再現した自己アテンションモジュールを活用することで、iSegは反復的洗練による洗練された相互アテンションマップを安定的に改善する。 さらに,カテゴリ拡張型クロスアテンションモジュールを設計し,正確なクロスアテンションマップを生成する。 さまざまなデータセットと多様なセグメンテーションタスクにわたる大規模な実験は、提案されたコントリビューションのメリットを明らかにし、多様なセグメンテーションタスクにおいて有望なパフォーマンスをもたらす。 Cityscapesの教師なしセマンティックセマンティックセマンティクスでは,mIoUの3.8%の絶対ゲインを達成している。 さらに、提案したiSegは、異なる種類の画像とインタラクションによるセグメンテーションをサポートすることができる。

Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. Inspired by this, researchers have explored employing stable diffusion for trainingfree segmentation. Most existing approaches either simply employ cross-attention map or refine it by self-attention map, to generate segmentation masks. We believe that iterative refinement with self-attention map would lead to better results. However, we mpirically demonstrate that such a refinement is sub-optimal likely due to the self-attention map containing irrelevant global information which hampers accurately refining cross-attention map with multiple iterations. To address this, we propose an iterative refinement framework for training-free segmentation, named iSeg, having an entropy-reduced self-attention module which utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined crossattention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kind of images and interactions.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# ラベル不確実性を有するセンサフュージョン用二容量チョケット積分器

Bi-capacity Choquet Integral for Sensor Fusion with Label Uncertainty ( http://arxiv.org/abs/2409.03212v1 )

ライセンス: Link先を確認
Hersh Vakharia, Xiaoxiao Du, (参考訳) センサ融合は、複数のセンサソースからのデータを組み合わせて、信頼性、堅牢性、データの解釈精度を向上させる。 ファジィ積分(FI)、特にチョーケ積分(ChI)は、複数のセンサーをまたいだ融合のための強力な非線形アグリゲータとしてしばしば用いられる。 しかし、既存の教師付きChI学習アルゴリズムは、通常、入力データポイントごとに正確なトレーニングラベルを必要とする。 さらに、ChI融合に関する先行研究は、しばしば [0, 1] の間のファジィ測度を束縛する正規化ファジィ測度のみに基づいている。 これは入力データソースの下位スケールが双極子である場合(すなわち [-1, 1] の間)に制限される。 これらの課題に対処するため, バイポーラスケールで入力センサソースのサブセット同士の相互作用を表現するために, バイキャパシティを用いた, Bi-MIChI (bi-mi-kee) と呼ばれる新しいChoquet積分型核融合フレームワークを提案する。 これにより、センサソース間の非線形相互作用が拡張され、興味深い融合結果がもたらされる。 Bi-MIChIはまた、複数のインスタンス学習を通じてラベルの不確実性に対処する。 提案するBi-MIChIフレームワークは,ラベルの不確実性を伴うセンサ融合のための合成および実世界の両方の実験において,効果的な分類と検出性能を示す。 また,融合過程を示すファジィ対策の挙動を詳細に分析した。

Sensor fusion combines data from multiple sensor sources to improve reliability, robustness, and accuracy of data interpretation. The Fuzzy Integral (FI), in particular, the Choquet integral (ChI), is often used as a powerful nonlinear aggregator for fusion across multiple sensors. However, existing supervised ChI learning algorithms typically require precise training labels for each input data point, which can be difficult or impossible to obtain. Additionally, prior work on ChI fusion is often based only on the normalized fuzzy measures, which bounds the fuzzy measure values between [0, 1]. This can be limiting in cases where the underlying scales of input data sources are bipolar (i.e., between [-1, 1]). To address these challenges, this paper proposes a novel Choquet integral-based fusion framework, named Bi-MIChI (pronounced "bi-mi-kee"), which uses bi-capacities to represent the interactions between pairs of subsets of the input sensor sources on a bi-polar scale. This allows for extended non-linear interactions between the sensor sources and can lead to interesting fusion results. Bi-MIChI also addresses label uncertainty through Multiple Instance Learning, where training labels are applied to "bags" (sets) of data instead of per-instance. Our proposed Bi-MIChI framework shows effective classification and detection performance on both synthetic and real-world experiments for sensor fusion with label uncertainty. We also provide detailed analyses on the behavior of the fuzzy measures to demonstrate our fusion process.
翻訳日:2024-09-06 22:18:11 公開日:2024-09-05
# スパースポイントシーン再構成のための3次元ガウススプレイティングの最適化

Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction ( http://arxiv.org/abs/2409.03213v1 )

ライセンス: Link先を確認
Shen Chen, Jiale Zhou, Lei Li, (参考訳) 3D Gaussian Splatting (3DGS)は,Neural Radiance Fields (NeRF)と比較して計算オーバーヘッドを低減し,三次元シーン表現の有望なアプローチとして登場した。 しかし、3DGSは高周波のアーティファクトに感受性があり、スパース視点条件下での最適以下の性能を示すため、ロボット工学やコンピュータビジョンにおける適用性が制限される。 これらの制約に対処するために,3次元ガウススムースティングフィルタを統合してアーティファクトを抑圧する,スパースビューポイントシーン再構築のための新しいフレームワークであるSVS-GSを紹介する。 さらに,DGPP(Depth Gradient Profile Prior)損失と動的深度マスク(DGPP)損失を併用してエッジを鋭くし,Score Distillation Sampling(SDS)損失を2次元拡散することにより,新しいビュー合成における幾何整合性を高める。 MipNeRF-360とSeaThru-NeRFデータセットの実験的評価により、SVS-GSはスパースの観点から3D再構成を著しく改善し、ロボット工学やコンピュータビジョンアプリケーションにおけるシーン理解のための堅牢で効率的なソリューションを提供することが示された。

3D Gaussian Splatting (3DGS) has emerged as a promising approach for 3D scene representation, offering a reduction in computational overhead compared to Neural Radiance Fields (NeRF). However, 3DGS is susceptible to high-frequency artifacts and demonstrates suboptimal performance under sparse viewpoint conditions, thereby limiting its applicability in robotics and computer vision. To address these limitations, we introduce SVS-GS, a novel framework for Sparse Viewpoint Scene reconstruction that integrates a 3D Gaussian smoothing filter to suppress artifacts. Furthermore, our approach incorporates a Depth Gradient Profile Prior (DGPP) loss with a dynamic depth mask to sharpen edges and 2D diffusion with Score Distillation Sampling (SDS) loss to enhance geometric consistency in novel view synthesis. Experimental evaluations on the MipNeRF-360 and SeaThru-NeRF datasets demonstrate that SVS-GS markedly improves 3D reconstruction from sparse viewpoints, offering a robust and efficient solution for scene understanding in robotics and computer vision applications.
翻訳日:2024-09-06 21:57:05 公開日:2024-09-05
# xLAM:AIエージェントシステムを強化する大規模なアクションモデルのファミリー

xLAM: A Family of Large Action Models to Empower AI Agent Systems ( http://arxiv.org/abs/2409.03215v1 )

ライセンス: Link先を確認
Jianguo Zhang, Tian Lan, Ming Zhu, Zuxin Liu, Thai Hoang, Shirley Kokane, Weiran Yao, Juntao Tan, Akshara Prabhakar, Haolin Chen, Zhiwei Liu, Yihao Feng, Tulika Awalgaonkar, Rithesh Murthy, Eric Hu, Zeyuan Chen, Ran Xu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong, (参考訳) 大規模言語モデル(LLM)を利用した自律エージェントは、かなりの研究関心を集めている。 しかし、オープンソースコミュニティは、高品質なエージェントデータセットの不足とこの分野における標準プロトコルの欠如により、エージェントタスクの専門モデルを開発する上で、多くの課題に直面している。 我々は、AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMを紹介し、公開する。 xLAMシリーズには、1Bから8x22Bパラメータまで、AIエージェントの汎用性とさまざまな環境におけるパフォーマンスを高めるために、さまざまなデータセットを統一、拡張、合成するスケーラブルでフレキシブルなパイプラインを使用してトレーニングされた、5つのモデルが含まれている。 実験の結果、xLAMは複数のエージェント能力のベンチマークで常に例外的な性能を発揮しており、特にバークレー・ファンクション・カリング・リーダーボードにおける第1位を確保し、GPT-4、Claude-3、その他多くのモデルでツール使用率に優れていた。 xLAMシリーズのリリースにより、自律型AIエージェントのためのオープンソースのLLMの性能向上、進捗の加速、エージェントタスクのための高性能モデルへのアクセスの民主化を目標としています。 モデルはhttps://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4で利用可能である。

Autonomous agents powered by large language models (LLMs) have attracted significant research interest. However, the open-source community faces many challenges in developing specialized models for agent tasks, driven by the scarcity of high-quality agent datasets and the absence of standard protocols in this area. We introduce and publicly release xLAM, a series of large action models designed for AI agent tasks. The xLAM series includes five models with both dense and mixture-of-expert architectures, ranging from 1B to 8x22B parameters, trained using a scalable, flexible pipeline that unifies, augments, and synthesizes diverse datasets to enhance AI agents' generalizability and performance across varied environments. Our experimental results demonstrate that xLAM consistently delivers exceptional performance across multiple agent ability benchmarks, notably securing the 1st position on the Berkeley Function-Calling Leaderboard, outperforming GPT-4, Claude-3, and many other models in terms of tool use. By releasing the xLAM series, we aim to advance the performance of open-source LLMs for autonomous AI agents, potentially accelerating progress and democratizing access to high-performance models for agent tasks. Models are available at https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4
翻訳日:2024-09-06 21:57:05 公開日:2024-09-05
# 非対称性の実験的触媒増幅

Experimental Catalytic Amplification of Asymmetry ( http://arxiv.org/abs/2409.03217v1 )

ライセンス: Link先を確認
Chao Zhang, Xiao-Min Hu, Feng Ding, Xue-Yuan Hu, Yu Guo, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, (参考訳) 量子資源の操作と変換は量子力学の重要な部分である。 このうち、非対称性は、量子時計、量子力学、その他のタスクで広く使われている、最も有用な運用資源の1つである。 近年の研究では、量子状態の非対称性は有限次元補助体である関連触媒の助けを借りて著しく増幅できることが示されている。 実験では,触媒系と量子系からなる複合系上で,システム全体の非対称な資源が増加しないよう,翻訳不変な操作を行う。 実験の結果, 触媒反応後の系では, 0.0172\pm0.0022の非対称性増幅が認められた。 我々の研究は、量子触媒プロセスの可能性を示し、量子資源理論の分野におけるさらなる研究を促すことが期待されている。

The manipulation and transformation of quantum resources are key parts of quantum mechanics. Among them, asymmetry is one of the most useful operational resources, which is widely used in quantum clocks, quantum metrology, and other tasks. Recent studies have shown that the asymmetry of quantum states can be significantly amplified with the assistance of correlating catalysts which are finite-dimensional auxiliaries. In the experiment, we perform translationally invariant operations, ensuring that the asymmetric resources of the entire system remain non-increasing, on a composite system composed of a catalytic system and a quantum system. The experimental results demonstrate an asymmetry amplification of 0.0172\pm0.0022 in the system following the catalytic process. Our work showcases the potential of quantum catalytic processes and is expected to inspire further research in the field of quantum resource theories.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# デバイス性能のリアルタイム認識に関するアプリケーション研究

Application Research On Real-Time Perception Of Device Performance Status ( http://arxiv.org/abs/2409.03218v1 )

ライセンス: Link先を確認
Zhe Wang, Zhen Wang, Jianwen Wu, Wangzhong Xiao, Yidong Chen, Zihua Feng, Dian Yang, Hongchen Liu, Bo Liang, Jiaojiao Fu, (参考訳) モバイルデバイスの性能状況を正確に把握し,ユーザエクスペリエンスを微調整するために,エントロピー重み付けと時系列モデル構築を組み合わせたTOPSISに基づくリアルタイム性能評価手法を検討した。 各種モバイルデバイスの性能特性を収集した後,PCA(主成分分析)次元削減と記述時系列解析などの特徴工学的手法を用いて,デバイスの性能プロファイルを適用した。 ToPSIS法とマルチレベル重み付け処理を適用して,デバイスの性能特性とプロファイルをリアルタイムに記述する能力について検討した。 目標重み付けで設定した特徴に対して時系列モデルを構築し,実時間性能評価データと長期安定性能予測データを得るために,複数感度(リアルタイム,短期,長期)の性能評価結果を提案した。 最後に、動的AB実験の設定と微粒化電力削減戦略のオーバーレイにより、本手法のユーザビリティを検証し、ディメンタリティ低減時間時系列モデリング、TOPSIS法、エントロピー重み付け法、主観重み付け法、HMA法などのプロファイル特性と比較した。 その結果,正確な実時間性能認識結果がビジネス価値を大幅に向上させる可能性が示唆された。

In order to accurately identify the performance status of mobile devices and finely adjust the user experience, a real-time performance perception evaluation method based on TOPSIS (Technique for Order Preference by Similarity to Ideal Solution) combined with entropy weighting method and time series model construction was studied. After collecting the performance characteristics of various mobile devices, the device performance profile was fitted by using PCA (principal component analysis) dimensionality reduction and feature engineering methods such as descriptive time series analysis. The ability of performance features and profiles to describe the real-time performance status of devices was understood and studied by applying the TOPSIS method and multi-level weighting processing. A time series model was constructed for the feature set under objective weighting, and multiple sensitivity (real-time, short-term, long-term) performance status perception results were provided to obtain real-time performance evaluation data and long-term stable performance prediction data. Finally, by configuring dynamic AB experiments and overlaying fine-grained power reduction strategies, the usability of the method was verified, and the accuracy of device performance status identification and prediction was compared with the performance of the profile features including dimensionality reduction time series modeling, TOPSIS method and entropy weighting method, subjective weighting, HMA method. The results show that accurate real-time performance perception results can greatly enhance business value, and this research has application effectiveness and certain forward-looking significance.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# LLMによるコンテンツモデレーション:正確性から合法性へ

Content Moderation by LLM: From Accuracy to Legitimacy ( http://arxiv.org/abs/2409.03219v1 )

ライセンス: Link先を確認
Tao Huang, (参考訳) LLM(大規模言語モデル)のトレンドの1つは、オンラインプラットフォームにおけるコンテンツモデレーションに利用することである。 このアプリケーションに関する最近の研究は、LLMがコンテンツについて正しい判断を下す程度である精度の指標に焦点を当てている。 本論では, 難解なケースと難解なケースの区別や, 高い精度を達成するための必然的なトレードオフを把握できないため, 精度が不十分で誤解を招く。 より綿密な調査により、コンテンツモデレーションはプラットフォームガバナンスを構成する部分であり、その鍵は正当性を獲得し、向上することであることが明らかになった。 モデレーションの決定を正す代わりに、LLMの主な目標は、それらを合法化することです。 本稿では,LLMモデレータの性能を評価するための正当性に基づくフレームワークに,単一の精度ベンチマークからパラダイムシフトを提案する。 フレームワークは、簡単なケースでは、正確さ、スピード、透明性を保証するのが鍵であり、難しいケースでは、正当化とユーザの参加が重要となることを示唆している。 この枠組みの下では、LLMのモデレーションの本当のポテンシャルは精度の向上ではない。 LLMは、簡単なケースからハードケースのスクリーニングを実行し、モデレーション決定のための品質説明を提供すること、コンテキスト情報を得るための人間レビュアーを支援すること、よりインタラクティブな方法でユーザ参加を促進すること、の4つの側面によりよい貢献をすることができます。 法律・社会科学の規範的理論を用いて新たな技術応用を批判的に評価し、コンテンツモデレーションにおけるLLMの役割を再定義し、この分野の関連研究をリダイレクトする。

One trending application of LLM (large language model) is to use it for content moderation in online platforms. Most current studies on this application have focused on the metric of accuracy - the extent to which LLM makes correct decisions about content. This article argues that accuracy is insufficient and misleading, because it fails to grasp the distinction between easy cases and hard cases as well as the inevitable trade-offs in achieving higher accuracy. Closer examination reveals that content moderation is a constitutive part of platform governance, the key of which is to gain and enhance legitimacy. Instead of making moderation decisions correct, the chief goal of LLM is to make them legitimate. In this regard, this article proposes a paradigm shift from the single benchmark of accuracy towards a legitimacy-based framework of evaluating the performance of LLM moderators. The framework suggests that for easy cases, the key is to ensure accuracy, speed and transparency, while for hard cases, what matters is reasoned justification and user participation. Examined under this framework, LLM's real potential in moderation is not accuracy improvement. Rather, LLM can better contribute in four other aspects: to conduct screening of hard cases from easy cases, to provide quality explanations for moderation decisions, to assist human reviewers in getting more contextual information, and to facilitate user participation in a more interactive way. Using normative theories from law and social sciences to critically assess the new technological application, this article seeks to redefine LLM's role in content moderation and redirect relevant research in this field.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# FairQuant: ディープニューラルネットワークの検証と定量化

FairQuant: Certifying and Quantifying Fairness of Deep Neural Networks ( http://arxiv.org/abs/2409.03220v1 )

ライセンス: Link先を確認
Brian Hyeongseok Kim, Jingbo Wang, Chao Wang, (参考訳) 本稿では,ディープニューラルネットワーク(DNN)の個人的公正性を正式に証明し,定量化する手法を提案する。 個人的公正性は、法的に保護された属性(例えば、性別や人種)を除いて同一の2つの個人が同じ処置を受けることを保証している。 このような保証を提供する技術は存在するが、DNNのサイズや入力次元が大きくなるにつれてスケーラビリティや精度の欠如に悩まされる傾向がある。 本手法は, DNNのシンボル間隔に基づく解析に抽象化を適用し, そして, フェアネス特性に導かれる反復的改良を施すことにより, この制限を克服する。 さらに,本手法は,DNNが公平かどうかを判断するだけでなく,分類結果が妥当である個人の割合を計算することによって,従来の定性認証から定量的認証まで,記号間隔に基づく分析を引き上げている。 提案手法を実装し,4つの人気フェアネス研究データセットに基づいてトレーニングしたディープニューラルネットワーク上で評価を行った。 実験結果から,本手法は最先端技術よりも精度が高いだけでなく,桁違いに高速であることがわかった。

We propose a method for formally certifying and quantifying individual fairness of deep neural networks (DNN). Individual fairness guarantees that any two individuals who are identical except for a legally protected attribute (e.g., gender or race) receive the same treatment. While there are existing techniques that provide such a guarantee, they tend to suffer from lack of scalability or accuracy as the size and input dimension of the DNN increase. Our method overcomes this limitation by applying abstraction to a symbolic interval based analysis of the DNN followed by iterative refinement guided by the fairness property. Furthermore, our method lifts the symbolic interval based analysis from conventional qualitative certification to quantitative certification, by computing the percentage of individuals whose classification outputs are provably fair, instead of merely deciding if the DNN is fair. We have implemented our method and evaluated it on deep neural networks trained on four popular fairness research datasets. The experimental results show that our method is not only more accurate than state-of-the-art techniques but also several orders-of-magnitude faster.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# マンバはなぜ有効か?多モード画像融合のためのアウトプロイトリニアトランス-マンバネットワーク

Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion ( http://arxiv.org/abs/2409.03223v1 )

ライセンス: Link先を確認
Chenguang Zhu, Shan Gao, Huafeng Chen, Guangqian Guo, Chaowei Wang, Yaoxing Wang, Chen Shu Lei, Quanjiang Fan, (参考訳) 多モード画像融合は、異なるソースの画像の利点を統合し、高品質な融合画像をレンダリングすることを目的としている。 しかし、既存の特徴抽出と融合法は、推論(CNN)中に固有の局所還元バイアスと静的パラメータによって制約されるか、2次計算複雑性(Transformers)によって制限されるかのいずれかであり、効果的に特徴を抽出し、融合することができない。 この問題を解決するために,Tmambaと呼ばれる2分岐画像融合ネットワークを提案する。 線形トランスフォーマーとMambaで構成されており、線形複雑性を維持しながらグローバルなモデリング機能を備えている。 トランスフォーマー構造とマンバ構造の違いにより、2つの分岐によって抽出された特徴はそれぞれチャネル情報と位置情報を持っている。 T-M相互作用構造は,グローバルな学習可能なパラメータと畳み込み層を用いて,それぞれ位置とチャネル情報を伝達する。 さらに、注意レベルでの相互モーダルな相互作用を提案し、相互モーダルな注意を得る。 我々のTmambaは、赤外線可視画像融合や医用画像融合など、複数の融合タスクにおいて有望な結果が得られることを示す実験結果を得た。 チェックポイント付きのコードは、ピアレビュープロセス後に利用可能になる。

Multi-modality image fusion aims to integrate the merits of images from different sources and render high-quality fusion images. However, existing feature extraction and fusion methods are either constrained by inherent local reduction bias and static parameters during inference (CNN) or limited by quadratic computational complexity (Transformers), and cannot effectively extract and fuse features. To solve this problem, we propose a dual-branch image fusion network called Tmamba. It consists of linear Transformer and Mamba, which has global modeling capabilities while maintaining linear complexity. Due to the difference between the Transformer and Mamba structures, the features extracted by the two branches carry channel and position information respectively. T-M interaction structure is designed between the two branches, using global learnable parameters and convolutional layers to transfer position and channel information respectively. We further propose cross-modal interaction at the attention level to obtain cross-modal attention. Experiments show that our Tmamba achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. Code with checkpoints will be available after the peer-review process.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# チップの高次元絡み合った光子源について

On chip high-dimensional entangled photon sources ( http://arxiv.org/abs/2409.03224v1 )

ライセンス: Link先を確認
Tavshabad Kaur, Daniel Peace, Jacquiline Romero, (参考訳) 高次元量子絡み合いは、量子通信や量子計算のような新しい量子技術にとって重要な資源である。 メートル長の実験装置のスケーラビリティは、バルク光学における高次元の絡み合いを制限する。 光子源を含む再現可能で再構成可能な量子デバイスに対する量子技術ヒンジの進歩は、バルク光学を用いてスケーラブルな方法で達成することが困難である。 ナノテクノロジーとCMOS互換の統合技術の進歩により、ミリスケールチップ上での絡み合った光子の生成が可能になり、現実の量子アプリケーションに対するスケーラビリティ、安定性、複製性、小型化が大幅に向上した。 近年、多くの材料プラットフォーム上で、パス、周波数ビン、タイムビン、横モードを含む様々な自由度を持つチップスケールのデモがいくつか見られた。 完全量子フォトニック集積回路は量子ドットの生成、操作、検出を必要とし、さらに複雑さの程度を増大させる様々な能動的および受動的量子フォトニック成分を含む。 本稿では, オンチップ型高次元光子源および現在使用されている材料プラットフォームにおける非線形光学プロセスについて概説し, 紹介する。 我々は、オンチップ高次元光子源の様々な実装について論じ、応用を実証した。 次世代集積量子フォトニックチップのハイブリッド・ヘテロジニアス統合戦略における,個々の材料プラットフォームが制限されていること,将来の可能性など,現在の課題についてコメントする。

High-dimensional quantum entanglement is an important resource for emerging quantum technologies such as quantum communication and quantum computation. The scalability of metres-long experimental setups limits high-dimensional entanglement in bulk optics. Advancements in quantum technology hinge on reproducible, and reconfigurable quantum devices -- including photon sources, which are challenging to achieve in a scalable manner using bulk optics. Advances in nanotechnology and CMOS-compatible integration techniques have enabled the generation of entangled photons on millimeter-scale chips, significantly enhancing scalability, stability, replicability, and miniaturization for real-world quantum applications. In recent years we have seen several chip-scale demonstrations with different degrees of freedom including path, frequency-bin, time-bin, and transverse modes, on many material platforms. A complete quantum photonic integrated circuit requires the generation, manipulation, and detection of qudits, involving various active and passive quantum photonic components which further increase the degree of complexity. Here, we review and introduce the nonlinear optical processes that facilitate on-chip high-dimensional entangled photon sources and the currently used material platforms. We discuss a range of current implementations of on-chip high-dimensional entangled photon sources and demonstrated applications. We comment on the current challenges due to the limitations of individual material platforms and present future opportunities in hybrid and heterogeneous integration strategies for the next generation of integrated quantum photonic chips.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 非定型的プレゼンテーションリカレーションによる医療LLMトラストの強化

Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration ( http://arxiv.org/abs/2409.03225v1 )

ライセンス: Link先を確認
Jeremy Qin, Bang Liu, Quoc Dinh Nguyen, (参考訳) ブラックボックスの大規模言語モデル(LLM)は、様々な環境に展開されることが多く、特に高い状況において、これらのモデルが信頼性と不確実性を効果的に伝達することが不可欠である。 しかし、これらのモデルはしばしば過度に自信を示し、潜在的なリスクや誤った判断につながる。 LLMの信頼性を引き出して校正するための既存の技術は、一般的な推論データセットに重点を置いており、緩やかな改善しか得られていない。 正確なキャリブレーションは、情報的な意思決定と有害な結果の防止に不可欠であるが、これらのモデルが実行するタスクの複雑さと変動性のため、依然として困難である。 本研究では,医療環境におけるブラックボックスLSMの誤校正行動について検討する。 本稿では,非定型プレゼンテーションを利用してモデルの信頼度を推定する新しい手法である「textit{Atypical Presentations Recalibration」を提案する。 提案手法はキャリブレーションを著しく改善し,3つの医療質問応答データセットのキャリブレーション誤差を約60 %削減し,バニラ言語的信頼度やCoT言語的信頼度などの既存手法よりも優れている。 さらに、再校正フレームワークにおける非定型性の役割を詳細に分析する。

Black-box large language models (LLMs) are increasingly deployed in various environments, making it essential for these models to effectively convey their confidence and uncertainty, especially in high-stakes settings. However, these models often exhibit overconfidence, leading to potential risks and misjudgments. Existing techniques for eliciting and calibrating LLM confidence have primarily focused on general reasoning datasets, yielding only modest improvements. Accurate calibration is crucial for informed decision-making and preventing adverse outcomes but remains challenging due to the complexity and variability of tasks these models perform. In this work, we investigate the miscalibration behavior of black-box LLMs within the healthcare setting. We propose a novel method, \textit{Atypical Presentations Recalibration}, which leverages atypical presentations to adjust the model's confidence estimates. Our approach significantly improves calibration, reducing calibration errors by approximately 60\% on three medical question answering datasets and outperforming existing methods such as vanilla verbalized confidence, CoT verbalized confidence and others. Additionally, we provide an in-depth analysis of the role of atypicality within the recalibration framework.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 部分監督型マルチオーガン画像分割のためのラベル付き分布アライメント

Labeled-to-Unlabeled Distribution Alignment for Partially-Supervised Multi-Organ Medical Image Segmentation ( http://arxiv.org/abs/2409.03228v1 )

ライセンス: Link先を確認
Xixi Jiang, Dong Zhang, Xiang Li, Kangyi Liu, Kwang-Ting Cheng, Xin Yang, (参考訳) 部分教師付き多臓器画像セグメンテーションは、複数の部分ラベル付きデータセットを使用して、単一の臓器にラベルを提供する統一意味セグメンテーションモデルを開発することを目的としている。 しかし, ラベル付き前庭臓器が限られており, 背景からラベル付き前庭臓器を区別するための監督が欠如していることは, ラベル付画素とラベル付画素との分布ミスマッチを生じさせる重要な課題となっている。 既存の擬似ラベル方式はラベル付画素とラベル付画素の両方から学習することができるが、ラベル付画素とラベル付画素とが同じ分布を持つという仮定に依存するため、この課題では性能劣化が生じる傾向がある。 本稿では,分散ミスマッチの問題に対処するため,特徴分布の整列と識別能力の向上を目的としたラベル付きラベル付き分散アライメント(LTUDA)フレームワークを提案する。 具体的には,ラベル付き臓器とラベルなし臓器の領域レベルでの混合を行い,分布の相違を低減し,トレーニングセットを充実させるクロスセットデータ拡張戦略を提案する。 さらに,クラス内変動を暗黙的に低減し,ラベルのない前景と背景の分離を増大させる,プロトタイプベースの分布アライメント手法を提案する。 これは、2つのプロトタイプ分類器と線形分類器の出力の整合性を促進することで達成できる。 AbdomenCT-1Kデータセットと4つのベンチマークデータセット(LiTS, MSD-Spleen, KiTS, NIH82を含む)の融合による大規模な実験結果から,本手法は最先端部分教師手法よりもかなり優れており,完全に教師された手法よりも優れていることが示された。 ソースコードはhttps://github.com/xjiangmed/LTUDA.comで公開されている。

Partially-supervised multi-organ medical image segmentation aims to develop a unified semantic segmentation model by utilizing multiple partially-labeled datasets, with each dataset providing labels for a single class of organs. However, the limited availability of labeled foreground organs and the absence of supervision to distinguish unlabeled foreground organs from the background pose a significant challenge, which leads to a distribution mismatch between labeled and unlabeled pixels. Although existing pseudo-labeling methods can be employed to learn from both labeled and unlabeled pixels, they are prone to performance degradation in this task, as they rely on the assumption that labeled and unlabeled pixels have the same distribution. In this paper, to address the problem of distribution mismatch, we propose a labeled-to-unlabeled distribution alignment (LTUDA) framework that aligns feature distributions and enhances discriminative capability. Specifically, we introduce a cross-set data augmentation strategy, which performs region-level mixing between labeled and unlabeled organs to reduce distribution discrepancy and enrich the training set. Besides, we propose a prototype-based distribution alignment method that implicitly reduces intra-class variation and increases the separation between the unlabeled foreground and background. This can be achieved by encouraging consistency between the outputs of two prototype classifiers and a linear classifier. Extensive experimental results on the AbdomenCT-1K dataset and a union of four benchmark datasets (including LiTS, MSD-Spleen, KiTS, and NIH82) demonstrate that our method outperforms the state-of-the-art partially-supervised methods by a considerable margin, and even surpasses the fully-supervised methods. The source code is publicly available at https://github.com/xjiangmed/LTUDA.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 状態空間モデルは力学系に対する正確かつ効率的なニューラル演算子である

State-space models are accurate and efficient neural operators for dynamical systems ( http://arxiv.org/abs/2409.03231v1 )

ライセンス: Link先を確認
Zheyuan Hu, Nazanin Ahmadi Daryakenari, Qianli Shen, Kenji Kawaguchi, George Em Karniadakis, (参考訳) 物理インフォームド機械学習(PIML)は、動的システムを予測する古典的な方法の代替として、より高速でより一般化可能なソリューションとして登場した。 しかしながら、リカレントニューラルネットワーク(RNN)、トランスフォーマー、ニューラル演算子を含む既存のモデルでは、長時間の統合、長距離依存性、カオスダイナミクス、外挿といった課題に直面している。 そこで本研究では,Mambaで実装された動的システム演算子学習のための状態空間モデルを提案する。 Mambaは、長距離依存関係を動的にキャプチャし、再パラメータ化技術を通じて計算効率を向上させることで、既存のアーキテクチャの限界に対処する。 Mambaを広範囲にテストし、他の11のベースラインと比較するために、標準的な補間ベンチマークを超える厳密な補間テストベッドをいくつか導入する。 補間課題と補間課題の両方において,Mambaの優れた性能を示す。 マンバは最も低い計算コストと例外的な外挿能力を維持しながら、常に上位モデルにランクインしている。 さらに, 腫瘍増殖における薬物の有効性を評価するための定量的システム薬理学において, 実世界の応用に向けたMambaの優れた性能を示す。 まとめると、我々はマンバが動的システムモデリングにおける科学的機械学習を前進させる強力なツールとしての可能性を強調した。 (コードは受け入れ次第https://github.com/zheyuanhu01/State_Space_Model_Neural_Operatorで利用可能)。

Physics-informed machine learning (PIML) has emerged as a promising alternative to classical methods for predicting dynamical systems, offering faster and more generalizable solutions. However, existing models, including recurrent neural networks (RNNs), transformers, and neural operators, face challenges such as long-time integration, long-range dependencies, chaotic dynamics, and extrapolation, to name a few. To this end, this paper introduces state-space models implemented in Mamba for accurate and efficient dynamical system operator learning. Mamba addresses the limitations of existing architectures by dynamically capturing long-range dependencies and enhancing computational efficiency through reparameterization techniques. To extensively test Mamba and compare against another 11 baselines, we introduce several strict extrapolation testbeds that go beyond the standard interpolation benchmarks. We demonstrate Mamba's superior performance in both interpolation and challenging extrapolation tasks. Mamba consistently ranks among the top models while maintaining the lowest computational cost and exceptional extrapolation capabilities. Moreover, we demonstrate the good performance of Mamba for a real-world application in quantitative systems pharmacology for assessing the efficacy of drugs in tumor growth under limited data scenarios. Taken together, our findings highlight Mamba's potential as a powerful tool for advancing scientific machine learning in dynamical systems modeling. (The code will be available at https://github.com/zheyuanhu01/State_Space_Model_Neural_Operator upon acceptance.)
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# コンテキスト関連異常の解消:知識グラフを用いたシーン分離とヒューマン関連ビデオ異常検出のためのアクション

Unveiling Context-Related Anomalies: Knowledge Graph Empowered Decoupling of Scene and Action for Human-Related Video Anomaly Detection ( http://arxiv.org/abs/2409.03236v1 )

ライセンス: Link先を確認
Chenglizhao Chen, Xinyu Liu, Mengke Song, Luming Li, Xu Yu, Shanchen Pang, (参考訳) 人間の関連ビデオの異常を検出することは、監視アプリケーションにとって不可欠である。 現在の手法は主に外見に基づく技術とアクションに基づく技術を含んでいる。 外観に基づく手法は、色、テクスチャ、形状などの低レベルの視覚的特徴に依存している。 彼らは、トレーニング中に既知のシーンに関連する多くのピクセルパターンと特徴を学び、慣れ親しんだコンテキスト内の異常を検出するのに効果的である。 しかし、新しいシーンや著しく変化するシーン、すなわち未知のシーンに遭遇すると、既存のSOTA手法が行動と周囲のシーンを効果的に捉えていないため、しばしば失敗し、一般化が低くなる。 対照的に、アクションベースの手法は人間の行動の異常を検出することに重点を置いているが、通常、アクションとシーンの関係を見逃しがちなため、誤った検出につながる。 例えば、海浜で走る通常の出来事と、路上を走る異常な出来事は、風景情報が不足しているため、どちらも普通とみなすことができる。 要するに、現在の手法は、低レベルの視覚的および高レベルの行動特徴を統合するのに苦労している。 この課題に対処するため,人間関連ビデオ異常検出(DecoAD)のためのデカップリング型アーキテクチャを提案する。 DecoADは、シーンとアクションの分離とインターウィービングを通じて視覚的特徴とアクション特徴の統合を大幅に改善し、複雑な振る舞いとシーンをより直感的で正確に理解できるようにする。 DecoADは完全な教師付き、弱い教師付き、教師なしの設定をサポートする。

Detecting anomalies in human-related videos is crucial for surveillance applications. Current methods primarily include appearance-based and action-based techniques. Appearance-based methods rely on low-level visual features such as color, texture, and shape. They learn a large number of pixel patterns and features related to known scenes during training, making them effective in detecting anomalies within these familiar contexts. However, when encountering new or significantly changed scenes, i.e., unknown scenes, they often fail because existing SOTA methods do not effectively capture the relationship between actions and their surrounding scenes, resulting in low generalization. In contrast, action-based methods focus on detecting anomalies in human actions but are usually less informative because they tend to overlook the relationship between actions and their scenes, leading to incorrect detection. For instance, the normal event of running on the beach and the abnormal event of running on the street might both be considered normal due to the lack of scene information. In short, current methods struggle to integrate low-level visual and high-level action features, leading to poor anomaly detection in varied and complex scenes. To address this challenge, we propose a novel decoupling-based architecture for human-related video anomaly detection (DecoAD). DecoAD significantly improves the integration of visual and action features through the decoupling and interweaving of scenes and actions, thereby enabling a more intuitive and accurate understanding of complex behaviors and scenes. DecoAD supports fully supervised, weakly supervised, and unsupervised settings.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 倒産後のロバストQ-Learning

Robust Q-Learning under Corrupted Rewards ( http://arxiv.org/abs/2409.03237v1 )

ライセンス: Link先を確認
Sreejeet Maity, Aritra Mitra, (参考訳) 近年,モデルフリー強化学習アルゴリズムの非漸近的挙動解析への関心が高まっている。 しかし,非理想的環境,例えば腐敗した報酬の存在などにおいて,そのようなアルゴリズムの性能はよく理解されていない。 そこで,このギャップに乗じて,有望なQ-ラーニングアルゴリズムの強汚染攻撃モデルに対するロバスト性を検証し,敵が観測された報酬のごく一部を任意に摂動させることができることを示した。 このような攻撃によって、バニラQ学習アルゴリズムが任意に大きなエラーを発生させる可能性があることを証明することから始めます。 そこで我々は,歴史報酬データを用いて,各ステップで頑健な経験的ベルマン演算子を構築する,新しい頑健な同期Q-ラーニングアルゴリズムを開発した。 最後に、既知の最先端境界(攻撃がない場合)を、敵の汚職率$\varepsilon$とスケールする小さな避けられない$O(\varepsilon)$エラー項に一致させるアルゴリズムに対して有限時間収束率を証明する。 特に、真の報奨分布が無限に支持されたとしても、有界な第二モーメントを許容するならば、我々の結果は引き続き持続する。

Recently, there has been a surge of interest in analyzing the non-asymptotic behavior of model-free reinforcement learning algorithms. However, the performance of such algorithms in non-ideal environments, such as in the presence of corrupted rewards, is poorly understood. Motivated by this gap, we investigate the robustness of the celebrated Q-learning algorithm to a strong-contamination attack model, where an adversary can arbitrarily perturb a small fraction of the observed rewards. We start by proving that such an attack can cause the vanilla Q-learning algorithm to incur arbitrarily large errors. We then develop a novel robust synchronous Q-learning algorithm that uses historical reward data to construct robust empirical Bellman operators at each time step. Finally, we prove a finite-time convergence rate for our algorithm that matches known state-of-the-art bounds (in the absence of attacks) up to a small inevitable $O(\varepsilon)$ error term that scales with the adversarial corruption fraction $\varepsilon$. Notably, our results continue to hold even when the true reward distributions have infinite support, provided they admit bounded second moments.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 小型臨床エンティティ認識のためのBERTにおける経験的確率の保存

Preserving Empirical Probabilities in BERT for Small-sample Clinical Entity Recognition ( http://arxiv.org/abs/2409.03238v1 )

ライセンス: Link先を確認
Abdul Rehman, Jian Jun Zhang, Xiaosong Yang, (参考訳) 名前付きエンティティ認識(NER)は、特定のエンティティタイプが過剰に表現され、他のエンティティが実際のデータセットで不足している、アンバランスなラベルの課題に直面する。 この不均衡は、マイノリティエンティティクラスで不十分なバイアスモデルをもたらし、正確で公平なエンティティ認識を妨げる可能性がある。 本稿では,BERTをベースとした事前学習モデルの非バランスなエンティティラベルの効果について検討する。 ランダム化データセットにおけるトークン分類タスクにおける損失計算と損失伝播の異なるメカニズムを解析する。 次に,臨床エンティティ認識の高度不均衡課題に対するトークン分類の改善手法を提案する。

Named Entity Recognition (NER) encounters the challenge of unbalanced labels, where certain entity types are overrepresented while others are underrepresented in real-world datasets. This imbalance can lead to biased models that perform poorly on minority entity classes, impeding accurate and equitable entity recognition. This paper explores the effects of unbalanced entity labels of the BERT-based pre-trained model. We analyze the different mechanisms of loss calculation and loss propagation for the task of token classification on randomized datasets. Then we propose ways to improve the token classification for the highly imbalanced task of clinical entity recognition.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 物理インフォームドニューラルネットワークのためのDiffGrad

DiffGrad for Physics-Informed Neural Networks ( http://arxiv.org/abs/2409.03239v1 )

ライセンス: Link先を確認
Jamshaid Ul Rahman, Nimra, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式に基づく高非線形問題に対処するための最先端のツールであると考えられている。 その幅広い応用にもかかわらず、PINNは効率性、計算コストの最小化、精度の向上など、いくつかのパフォーマンス上の課題に直面している。 バーガースの方程式(英: Burgers' equation)は流体力学の基本方程式であり、PINNで広く使われているが、過去の勾配を考慮しないアダム最適化器を用いて柔軟な結果を与える。 本稿では,DiffGradをPINNに組み込むことでバーガースの方程式を解く新しい手法を提案する。 Adam, Adamax, RMSprop, DiffGradなどのオプティマイザを用いて総合的な計算解析を行い, その有効性を評価し, 比較する。 提案手法は,ネットワークの精度を示すために,様々な時間間隔で空間上の解を可視化することを含む。 その結果、DiffGradはソリューションの精度を向上するだけでなく、他のオプティマイザと比較してトレーニング時間を短縮することがわかった。

Physics-Informed Neural Networks (PINNs) are regarded as state-of-the-art tools for addressing highly nonlinear problems based on partial differential equations. Despite their broad range of applications, PINNs encounter several performance challenges, including issues related to efficiency, minimization of computational cost, and enhancement of accuracy. Burgers' equation, a fundamental equation in fluid dynamics that is extensively used in PINNs, provides flexible results with the Adam optimizer that does not account for past gradients. This paper introduces a novel strategy for solving Burgers' equation by incorporating DiffGrad with PINNs, a method that leverages the difference between current and immediately preceding gradients to enhance performance. A comprehensive computational analysis is conducted using optimizers such as Adam, Adamax, RMSprop, and DiffGrad to evaluate and compare their effectiveness. Our approach includes visualizing the solutions over space at various time intervals to demonstrate the accuracy of the network. The results show that DiffGrad not only improves the accuracy of the solution but also reduces training time compared to the other optimizers.
翻訳日:2024-09-06 21:57:04 公開日:2024-09-05
# 数値流体力学のための変分量子線形解法のスケーラビリティと精度の実証

Demonstration of Scalability and Accuracy of Variational Quantum Linear Solver for Computational Fluid Dynamics ( http://arxiv.org/abs/2409.03241v1 )

ライセンス: Link先を確認
Ferdin Sagai Don Bosco, Dhamotharan S, Rut Lineswala, Abhishek Chopra, (参考訳) 非線型複素偏微分方程式(PDE)の解は、方程式の線形系を生成する数値近似によって達成される。 このアプローチはCFD(Computational Fluid Dynamics)で広く用いられているが、メッシュの解像度が大きくなると線形システムの解が計算可能になるため、メッシュサイズが制限される。 ハイパフォーマンスコンピュータ(HPC)がこれらの要件をスケールアップし、満たす能力に頼っていることは、ミオピックである。 本稿では,このような大規模方程式系を高精度に解くことを目的とした量子方法論の探索について述べる。 量子線形ソルバーアルゴリズム(QLSA)とHPCにおける量子シミュレーションに適した変分アルゴリズムの最近の研究を活用し、我々はハイブリッド量子古典フレームワーク上で解決可能なCFD関連問題の境界を推し進めることを目指している。 この目的のために, 2次元, 過渡的, 非圧縮的, 粘性, 非線形結合バーガース方程式を試験問題とし, 一般最小回帰法(GMRES)のような古典線形方程式解法と比較することにより, 提案手法の精度を検証した。 厳密な試験により、我々の量子法は従来の手法に匹敵する精度で結果が得られることを示した。 さらに、量子法の正確性、スケーラビリティ、一貫性を実証する。 最後に、量子アルゴリズムが20億近いメッシュポイントを持つシステムを解くために必要なリソースの洞察に富んだ見積もりを示す。

The solution for non-linear, complex partial differential Equations (PDEs) is achieved through numerical approximations, which yield a linear system of equations. This approach is prevalent in Computational Fluid Dynamics (CFD), but it restricts the mesh size since the solution of the linear system becomes computationally intractable when the mesh resolution increases. The reliance on the ability of High-Performance Computers (HPC) to scale up and meet these requirements is myopic; such very high-fidelity simulations require a paradigm shift in computing. This paper presents an exploration of quantum methodologies aimed at achieving high accuracy in solving such a large system of equations. Leveraging recent works in Quantum Linear Solver Algorithms (QLSA) and variational algorithms suitable for Quantum Simulation in HPC, we aspire to push the boundaries of CFD-relevant problems that can be solved on hybrid quantum-classical framework. To this end, we consider the 2D, transient, incompressible, viscous, non-linear coupled Burgers equation as a test problem and investigate the accuracy of our approach by comparing results with a classical linear system of equation solvers, such as the Generalized Minimal RESidual method (GMRES). Through rigorous testing, our findings demonstrate that our quantum methods yield results comparable in accuracy to traditional approaches. Additionally, we demonstrate the accuracy, scalability, and consistency of our quantum method. Lastly, we present an insightful estimation of the resources our quantum algorithm needs to solve systems with nearly 2 billion mesh points.
翻訳日:2024-09-06 21:40:48 公開日:2024-09-05
# UAV (Unmanned Aerial Vehicles): セグメンテーション、分類、検出、追跡におけるUAVデータセットの多用途化

UAV (Unmanned Aerial Vehicles): Diverse Applications of UAV Datasets in Segmentation, Classification, Detection, and Tracking ( http://arxiv.org/abs/2409.03245v1 )

ライセンス: Link先を確認
Md. Mahfuzur Rahman, Sunzida Siddique, Marufa Kamal, Rakib Hossain Rifat, Kishor Datta Gupta, (参考訳) 無人航空機(UAV)は、さまざまな研究領域におけるデータの収集と分析のプロセスを大きく革新させ、適合性と有効性を提供してきた。 本稿では,無人航空機(UAV)データセットの徹底的な検討を行い,その適用範囲と進歩を強調した。 UAVデータセットは、衛星画像、ドローンが撮影した画像、ビデオなど、さまざまな種類のデータで構成されている。 これらのデータセットは、ユニモーダルまたはマルチモーダルに分類され、広範囲の詳細な情報と包括的な情報を提供する。 これらのデータセットは、災害被害評価、航空監視、物体認識、追跡において重要な役割を果たす。 セマンティックセグメンテーション、ポーズ推定、車両の再識別、ジェスチャー認識といったタスクのための洗練されたモデルの開発を容易にする。 UAVデータセットを利用することで、研究者はコンピュータビジョンモデルの能力を大幅に向上し、テクノロジーを進歩させ、空中から見た複雑な動的環境の理解を向上させることができる。 このレビューは、UAVデータセットの多面的ユーティリティをカプセル化することを目的としており、イノベーションの推進における彼らの重要な役割と、複数のドメインにおける実践的応用を強調している。

Unmanned Aerial Vehicles (UAVs), have greatly revolutionized the process of gathering and analyzing data in diverse research domains, providing unmatched adaptability and effectiveness. This paper presents a thorough examination of Unmanned Aerial Vehicle (UAV) datasets, emphasizing their wide range of applications and progress. UAV datasets consist of various types of data, such as satellite imagery, images captured by drones, and videos. These datasets can be categorized as either unimodal or multimodal, offering a wide range of detailed and comprehensive information. These datasets play a crucial role in disaster damage assessment, aerial surveillance, object recognition, and tracking. They facilitate the development of sophisticated models for tasks like semantic segmentation, pose estimation, vehicle re-identification, and gesture recognition. By leveraging UAV datasets, researchers can significantly enhance the capabilities of computer vision models, thereby advancing technology and improving our understanding of complex, dynamic environments from an aerial perspective. This review aims to encapsulate the multifaceted utility of UAV datasets, emphasizing their pivotal role in driving innovation and practical applications in multiple domains.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# タスクトランスと適応混合戦略を用いた複数の気象画像の復元

Multiple weather images restoration using the task transformer and adaptive mixup strategy ( http://arxiv.org/abs/2409.03249v1 )

ライセンス: Link先を確認
Yang Wen, Anyu Lai, Bo Qian, Hao Wang, Wuzhen Shi, Wenming Cao, (参考訳) 厳しい天候の除去における現在の最先端は、雨の除去、ヘイズ除去、雪の除去といったシングルタスクの応用に主に焦点が当てられている。 しかし、現実の気象条件は、しばしばいくつかの気象タイプが混在しており、自律運転シナリオにおける気象混合の程度は未だ不明である。 複雑で多様な気象条件が存在する場合、単一気象除去モデルは、厳しい気象画像から鮮明な画像を生成する際の課題にしばしば遭遇する。 したがって、混在した気象条件を効果的に処理し、自律運転シナリオにおける画質を向上させるマルチタスクの厳しい天候除去モデルの開発が必要である。 本稿では,複雑な気象条件を適応的に効果的に処理できる,マルチタスクの厳しい天候除去モデルを提案する。 本モデルでは,気象タスクシークエンスジェネレータを組み込んで,気象タイプに特有な特徴に選択的に注目する自己認識機構を実現する。 気象劣化の広範囲を修復する課題を解決するため,FFC(Fast Fourier Convolution)を導入し,受容場を拡大する。 さらに,気象情報と背景画像の特徴の両方を,関連情報を選択的に保持することにより効果的に処理する適応的なアップサンプリング手法を提案する。 提案モデルでは,公開データセット上での最先端のパフォーマンスを実現している。

The current state-of-the-art in severe weather removal predominantly focuses on single-task applications, such as rain removal, haze removal, and snow removal. However, real-world weather conditions often consist of a mixture of several weather types, and the degree of weather mixing in autonomous driving scenarios remains unknown. In the presence of complex and diverse weather conditions, a single weather removal model often encounters challenges in producing clear images from severe weather images. Therefore, there is a need for the development of multi-task severe weather removal models that can effectively handle mixed weather conditions and improve image quality in autonomous driving scenarios. In this paper, we introduce a novel multi-task severe weather removal model that can effectively handle complex weather conditions in an adaptive manner. Our model incorporates a weather task sequence generator, enabling the self-attention mechanism to selectively focus on features specific to different weather types. To tackle the challenge of repairing large areas of weather degradation, we introduce Fast Fourier Convolution (FFC) to increase the receptive field. Additionally, we propose an adaptive upsampling technique that effectively processes both the weather task information and underlying image features by selectively retaining relevant information. Our proposed model has achieved state-of-the-art performance on the publicly available dataset.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# Dual-TSST:脳波復号のための2分岐時間スペクトル空間変換器モデル

Dual-TSST: A Dual-Branch Temporal-Spectral-Spatial Transformer Model for EEG Decoding ( http://arxiv.org/abs/2409.03251v1 )

ライセンス: Link先を確認
Hongqi Li, Haodong Zhang, Yitong Chen, (参考訳) 脳波(EEG)信号の復号化は、人間と機械の相互作用の分野において重要な役割を果たすユーザ意図へのアクセスを可能にする。 マルチチャネルEEGの十分な特性を効果的に抽出するために,デュアルブランチ時空間変換器(Dual-TSST)を用いた新しいデコードアーキテクチャネットワークを提案する。 具体的には、異なるブランチ上の畳み込みニューラルネットワーク(CNN)を利用することで、提案した処理ネットワークは、それぞれウェーブレット変換によって変換された時間周波数領域データの時間空間的特徴と時間空間的特徴を抽出する。 これらの特徴は特徴融合ブロックによって統合され、非定常脳波に含まれるグローバルな長距離依存関係をキャプチャする変換器の入力として機能し、グローバル平均プーリングと多層パーセプトロンブロックによって分類される。 提案手法の有効性を評価するため,BCI IV 2a,BCI IV 2b,SEEDの3つの公開データセットを用いて,他の10以上の最先端手法の頭と頭の比較実験を行った。 その結果,BCI IV 2aでは平均精度80.67%,BCI IV 2bでは88.64%,SEEDでは96.65%という有望な脳波分類性能が得られた。 また,Dual-TSSTと比較ベースラインモデルによる大規模なアブレーション実験により,提案手法の各モジュールによるデコード性能の向上が示された。 本研究は,高性能脳波デコーディングへの新たなアプローチを提供するとともに,将来のCNN-Transformerベースのアプリケーションにも大きな可能性を秘めている。

The decoding of electroencephalography (EEG) signals allows access to user intentions conveniently, which plays an important role in the fields of human-machine interaction. To effectively extract sufficient characteristics of the multichannel EEG, a novel decoding architecture network with a dual-branch temporal-spectral-spatial transformer (Dual-TSST) is proposed in this study. Specifically, by utilizing convolutional neural networks (CNNs) on different branches, the proposed processing network first extracts the temporal-spatial features of the original EEG and the temporal-spectral-spatial features of time-frequency domain data converted by wavelet transformation, respectively. These perceived features are then integrated by a feature fusion block, serving as the input of the transformer to capture the global long-range dependencies entailed in the non-stationary EEG, and being classified via the global average pooling and multi-layer perceptron blocks. To evaluate the efficacy of the proposed approach, the competitive experiments are conducted on three publicly available datasets of BCI IV 2a, BCI IV 2b, and SEED, with the head-to-head comparison of more than ten other state-of-the-art methods. As a result, our proposed Dual-TSST performs superiorly in various tasks, which achieves the promising EEG classification performance of average accuracy of 80.67% in BCI IV 2a, 88.64% in BCI IV 2b, and 96.65% in SEED, respectively. Extensive ablation experiments conducted between the Dual-TSST and comparative baseline model also reveal the enhanced decoding performance with each module of our proposed method. This study provides a new approach to high-performance EEG decoding, and has great potential for future CNN-Transformer based applications.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# Gr-IoU:3次元幾何制約付きロバスト多物体追跡のための接地区間

Gr-IoU: Ground-Intersection over Union for Robust Multi-Object Tracking with 3D Geometric Constraints ( http://arxiv.org/abs/2409.03252v1 )

ライセンス: Link先を確認
Keisuke Toida, Naoki Kato, Osamu Segawa, Takeshi Nakamura, Kazuhiro Hotta, (参考訳) マルチオブジェクト追跡におけるデータ関連問題に対処するため,Gr-IoU(Gr-IoU)を提案する。 カメラによって検出されたオブジェクトを追跡する場合、同じオブジェクトが連続したフレームで異なるIDに割り当てられることが多い。 この問題に対処するために,シーンの3次元構造を考慮したGr-IoUを紹介する。 Gr-IoUは、従来の境界ボックスを画像空間から、消滅点幾何学を用いて地上面に変換する。 これらの変換されたバウンディングボックスで計算したIoUは、オブジェクトの前後の関係により敏感であり、データの関連性を改善し、IDスイッチを削減する。 我々は,MOT17およびMOT20データセットのGr-IoU法について検討した。 実験の結果,Gr-IoUは外観特徴のない従来のリアルタイム手法よりも優れていた。

We propose a Ground IoU (Gr-IoU) to address the data association problem in multi-object tracking. When tracking objects detected by a camera, it often occurs that the same object is assigned different IDs in consecutive frames, especially when objects are close to each other or overlapping. To address this issue, we introduce Gr-IoU, which takes into account the 3D structure of the scene. Gr-IoU transforms traditional bounding boxes from the image space to the ground plane using the vanishing point geometry. The IoU calculated with these transformed bounding boxes is more sensitive to the front-to-back relationships of objects, thereby improving data association accuracy and reducing ID switches. We evaluated our Gr-IoU method on the MOT17 and MOT20 datasets, which contain diverse tracking scenarios including crowded scenes and sequences with frequent occlusions. Experimental results demonstrated that Gr-IoU outperforms conventional real-time methods without appearance features.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# SpinMultiNet: マルチタスク学習によるスピン自由度を考慮したニューラルネットワークの可能性

SpinMultiNet: Neural Network Potential Incorporating Spin Degrees of Freedom with Multi-Task Learning ( http://arxiv.org/abs/2409.03253v1 )

ライセンス: Link先を確認
Koki Ueno, Satoru Ohuchi, Kazuhide Ichikawa, Kei Amii, Kensuke Wakasugi, (参考訳) ニューラルネットワークポテンシャル(NNP)は密度汎関数理論(DFT)計算の高速化手法として注目されている。 しかしながら、従来のNPモデルは一般にスピン自由度を含まないため、スピン状態が遷移金属酸化物などの物質特性に重要な影響を及ぼすシステムに適用性を制限する。 本研究では、マルチタスク学習を通じてスピン自由度を統合する新しいNNPモデルであるSpinMultiNetを紹介する。 SpinMultiNetはDFT計算から得られた正しいスピン値に頼ることなく正確な予測を行う。 代わりに、最初のスピン推定を入力として利用し、マルチタスク学習を利用してスピン潜在表現を最適化し、$E(3)$と時間反転等式の両方を維持している。 遷移金属酸化物のデータセット上での検証は、SpinMultiNetの高い予測精度を示す。 このモデルは、超交換相互作用から生じる安定なスピン配置のエネルギー秩序を再現し、岩塩構造の六面体歪みを正確に捉える。 これらの結果は、スピン自由度を考慮した材料シミュレーションの新たな可能性の道を開くものであり、磁気材料を含む様々な材料システムの大規模シミュレーションに将来的な応用が期待できる。

Neural Network Potentials (NNPs) have attracted significant attention as a method for accelerating density functional theory (DFT) calculations. However, conventional NNP models typically do not incorporate spin degrees of freedom, limiting their applicability to systems where spin states critically influence material properties, such as transition metal oxides. This study introduces SpinMultiNet, a novel NNP model that integrates spin degrees of freedom through multi-task learning. SpinMultiNet achieves accurate predictions without relying on correct spin values obtained from DFT calculations. Instead, it utilizes initial spin estimates as input and leverages multi-task learning to optimize the spin latent representation while maintaining both $E(3)$ and time-reversal equivariance. Validation on a dataset of transition metal oxides demonstrates the high predictive accuracy of SpinMultiNet. The model successfully reproduces the energy ordering of stable spin configurations originating from superexchange interactions and accurately captures the rhombohedral distortion of the rocksalt structure. These results pave the way for new possibilities in materials simulations that consider spin degrees of freedom, promising future applications in large-scale simulations of various material systems, including magnetic materials.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# ラベル雑音による学習における深部CNNの粒界表現学習

Granular-ball Representation Learning for Deep CNN on Learning with Label Noise ( http://arxiv.org/abs/2409.03254v1 )

ライセンス: Link先を確認
Dawei Dai, Hao Zhu, Shuyin Xia, Guoyin Wang, (参考訳) 実際のシナリオでは、手動でアノテートするか、自動でアノテートするかにかかわらず、ラベルノイズはトレーニングデータに必然的に生成され、ディープCNNモデルの有効性に影響を与える可能性がある。 一般的なソリューションは、間違ったラベル付きデータでデータを罰するために、データのクリーニングや追加の最適化設計を必要とし、それによってモデルの堅牢性を高める。 しかし、これらの手法は、トレーニングプロセス中にデータを弱めたり、失ったりするコストがかかる。 私たちが知っているように、コンテンツはアノテーションの変更で変化しないイメージの固有の属性です。 本研究では, CNNモデルに組み込むことが可能な一般粒界計算(GBC)モジュールを提案し, 分類器は個々のサンプルの代わりに粒界(gb$)のラベルを最終的に予測する。 具体的には,(1)フォワードプロセスにおいて,入力サンプルを機能レベルで$gb$のサンプルとして分割し,各サンプルが異なる数を持つ複数のサンプルに対応して1つのラベルを共有すること,(2)バックプロパゲーションプロセスにおいて,GBCモジュールの勾配アロケーション戦略を変更して正常に伝搬すること,(3)トレーニングプロセスの安定性を確保するためのエクスペリエンスリプレイポリシを開発すること,である。 実験により,提案手法は追加データや最適化を伴わずにCNNモデルのロバスト性を向上させることができることが示された。

In actual scenarios, whether manually or automatically annotated, label noise is inevitably generated in the training data, which can affect the effectiveness of deep CNN models. The popular solutions require data cleaning or designing additional optimizations to punish the data with mislabeled data, thereby enhancing the robustness of models. However, these methods come at the cost of weakening or even losing some data during the training process. As we know, content is the inherent attribute of an image that does not change with changes in annotations. In this study, we propose a general granular-ball computing (GBC) module that can be embedded into a CNN model, where the classifier finally predicts the label of granular-ball ($gb$) samples instead of each individual samples. Specifically, considering the classification task: (1) in forward process, we split the input samples as $gb$ samples at feature-level, each of which can correspond to multiple samples with varying numbers and share one single label; (2) during the backpropagation process, we modify the gradient allocation strategy of the GBC module to enable it to propagate normally; and (3) we develop an experience replay policy to ensure the stability of the training process. Experiments demonstrate that the proposed method can improve the robustness of CNN models with no additional data or optimization.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# E2CL: 身体的エージェントの探索に基づく誤り訂正学習

E2CL: Exploration-based Error Correction Learning for Embodied Agents ( http://arxiv.org/abs/2409.03256v1 )

ライセンス: Link先を確認
Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li, (参考訳) 言語モデルは、知識利用と推論の能力が増大している。 しかし、具体的環境においてエージェントとして適用された場合、本質的な知識と環境的な知識の相違に悩まされることがしばしばあり、実行不可能な行動を引き起こす。 専門的軌道の教師付き学習や強化学習といった従来の環境アライメント手法は,それぞれ,環境知識をカバーし,効率的な収束を達成する上での限界に直面している。 人間の学習にインスパイアされた探索型誤り訂正学習(E2CL)を提案する。 E2CLは、環境フィードバックを収集し、誤った行動を正すために、教師誘導と教師なしの探索を取り入れている。 エージェントはフィードバックと自己修正を提供することを学び、それによってターゲット環境への適応性を高める。 バーチャルホーム環境における評価は、E2CL訓練エージェントがベースライン法で訓練されたエージェントよりも優れ、優れた自己補正能力を示すことを示している。

Language models are exhibiting increasing capability in knowledge utilization and reasoning. However, when applied as agents in embodied environments, they often suffer from misalignment between their intrinsic knowledge and environmental knowledge, leading to infeasible actions. Traditional environment alignment methods, such as supervised learning on expert trajectories and reinforcement learning, face limitations in covering environmental knowledge and achieving efficient convergence, respectively. Inspired by human learning, we propose Exploration-based Error Correction Learning (E2CL), a novel framework that leverages exploration-induced errors and environmental feedback to enhance environment alignment for LM-based agents. E2CL incorporates teacher-guided and teacher-free exploration to gather environmental feedback and correct erroneous actions. The agent learns to provide feedback and self-correct, thereby enhancing its adaptability to target environments. Evaluations in the Virtualhome environment demonstrate that E2CL-trained agents outperform those trained by baseline methods and exhibit superior self-correction capabilities.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# 縦断的研究を通してLLM開発を理解する:オープンなKo-LLMリーダーボードから

Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard ( http://arxiv.org/abs/2409.03257v1 )

ライセンス: Link先を確認
Chanjun Park, Hyeonwoo Kim, (参考訳) 本論文は,観測期間を制限した実験的な研究に頼っていたOpen Ko-LLM Leaderboardの先行研究の限界に対処するため,11ヶ月にわたる縦断的研究を行った。 分析期間を延長することにより,韓国の大規模言語モデル(LLM)の進展をより包括的に理解することを目指す。 1) Open Ko-LLM Leaderboard の様々なタスクにおいて LLM のパフォーマンスを改善する上で,どのような課題があるのか? 2) モデルサイズは各種ベンチマークにおけるタスクパフォーマンスの相関にどのように影響しますか? (3) Open Ko-LLM Leaderboardにおいて,リーダボードランキングのパターンは時間とともにどのように変化したか? と。 この期間に1,769モデルを解析することにより,LLMの進展と評価フレームワークの進化の性質を総合的に検証する。

This paper conducts a longitudinal study over eleven months to address the limitations of prior research on the Open Ko-LLM Leaderboard, which have relied on empirical studies with restricted observation periods of only five months. By extending the analysis duration, we aim to provide a more comprehensive understanding of the progression in developing Korean large language models (LLMs). Our study is guided by three primary research questions: (1) What are the specific challenges in improving LLM performance across diverse tasks on the Open Ko-LLM Leaderboard over time? (2) How does model size impact task performance correlations across various benchmarks? (3) How have the patterns in leaderboard rankings shifted over time on the Open Ko-LLM Leaderboard?. By analyzing 1,769 models over this period, our research offers a comprehensive examination of the ongoing advancements in LLMs and the evolving nature of evaluation frameworks.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# GraphInsight: グラフ構造理解のための大規模言語モデルのロック解除

GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding ( http://arxiv.org/abs/2409.03258v1 )

ライセンス: Link先を確認
Yukun Cao, Shuo Han, Zengyi Gao, Zezhong Ding, Xike Xie, S. Kevin Zhou, (参考訳) 大規模言語モデル(LLM)はグラフ処理の可能性を実証しているが、グラフサイズが大きくなるにつれてグラフ記述シーケンスのプロンプトを通じてグラフィカル構造情報の理解に苦慮している。 この課題は「位置バイアス」と呼ばれるグラフ記述配列の異なる位置におけるLLMの不均一メモリ性能に起因する。 そこで我々は,マクロおよびマイクロレベルのグラフィカル情報に対するLLMの理解を改善するための新しいフレームワークであるGraphInsightを提案する。 GraphInsightには2つの重要な戦略がある。 1)LCMがより強力なメモリ性能を示す位置に重要なグラフィカル情報を配置し、 2)検索強化世代(RAG)にインスパイアされた,メモリ性能の低い領域に対する軽量な外部知識ベースの検討。 さらに、GraphInsightは、これらの2つの戦略を多段階推論を必要とする複合グラフタスクのLLMエージェントプロセスに統合することを検討している。 幅広い評価タスクを持つベンチマークに関する広範な実証研究により、グラフインサイトは他のグラフ記述手法(例えば、様々な大きさのグラフ構造を理解する上でのテクニックや並べ替え戦略)を著しく上回っていることが示されている。

Although Large Language Models (LLMs) have demonstrated potential in processing graphs, they struggle with comprehending graphical structure information through prompts of graph description sequences, especially as the graph size increases. We attribute this challenge to the uneven memory performance of LLMs across different positions in graph description sequences, known as ''positional biases''. To address this, we propose GraphInsight, a novel framework aimed at improving LLMs' comprehension of both macro- and micro-level graphical information. GraphInsight is grounded in two key strategies: 1) placing critical graphical information in positions where LLMs exhibit stronger memory performance, and 2) investigating a lightweight external knowledge base for regions with weaker memory performance, inspired by retrieval-augmented generation (RAG). Moreover, GraphInsight explores integrating these two strategies into LLM agent processes for composite graph tasks that require multi-step reasoning. Extensive empirical studies on benchmarks with a wide range of evaluation tasks show that GraphInsight significantly outperforms all other graph description methods (e.g., prompting techniques and reordering strategies) in understanding graph structures of varying sizes.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# 木を探索する:探索によるブラックボックスシステムのための決定的トレーポリシー合成

In Search of Trees: Decision-Tree Policy Synthesis for Black-Box Systems via Search ( http://arxiv.org/abs/2409.03260v1 )

ライセンス: Link先を確認
Emir Demirović, Christian Schilling, Anna Lukina, (参考訳) 決定木はその解釈可能性のため、(力学)システムの制御ポリシーとして魅力的である。 残念ながら、このようなポリシーの構築や合成は難しい作業です。 従来のアプローチでは、ニューラルネットワークポリシーを模倣し、形式的な合成、強化学習の利用、あるいは混合整数線形プログラムとして問題をモデル化することで得られる表形式のポリシーを近似する。 しかし、これらの研究は、(形式的な合成に至らず)確固たる政策や環境の形式的なモデルにアクセスできる必要があり、最終ツリーポリシーの品質やサイズを保証できないかもしれない。 対照的に、ブラックボックス環境と仕様が与えられた最適決定木ポリシーと、その目標を達成するためのステップの数に関して最適性を定義する木述語の離散化を合成するアプローチを提案する。 我々のアプローチは、与えられた離散化の下で決定木の(指数的に大きい)空間を体系的に探索する特殊探索アルゴリズムである。 鍵となるコンポーネントは、検索スペースを大幅に削減する新しいプルーニング機構である。 提案手法は,ブラックボックス仕様のブラックボックス環境であっても,最適性を保証する小さな決定ツリーポリシーを合成する方法として,概念的に新しいものである。

Decision trees, owing to their interpretability, are attractive as control policies for (dynamical) systems. Unfortunately, constructing, or synthesising, such policies is a challenging task. Previous approaches do so by imitating a neural-network policy, approximating a tabular policy obtained via formal synthesis, employing reinforcement learning, or modelling the problem as a mixed-integer linear program. However, these works may require access to a hard-to-obtain accurate policy or a formal model of the environment (within reach of formal synthesis), and may not provide guarantees on the quality or size of the final tree policy. In contrast, we present an approach to synthesise optimal decision-tree policies given a black-box environment and specification, and a discretisation of the tree predicates, where optimality is defined with respect to the number of steps to achieve the goal. Our approach is a specialised search algorithm which systematically explores the (exponentially large) space of decision trees under the given discretisation. The key component is a novel pruning mechanism that significantly reduces the search space. Our approach represents a conceptually novel way of synthesising small decision-tree policies with optimality guarantees even for black-box environments with black-box specifications.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# 骨は三角形ではあり得ない:協調的誤り修正による高精度で効率的な頂点推定

Bones Can't Be Triangles: Accurate and Efficient Vertebrae Keypoint Estimation through Collaborative Error Revision ( http://arxiv.org/abs/2409.03261v1 )

ライセンス: Link先を確認
Jinhee Kim, Taesung Kim, Jaegul Choo, (参考訳) 近年の対話型キーポイント推定手法の進歩により,ユーザの介入を最小限に抑えつつ精度が向上している。 しかし、これらの手法では、不正確なキーポイントが密集している場合や重複している場合、脊椎のキーポイント推定にコストがかかるエラー訂正のためにユーザ入力が必要である。 ユーザリビジョンに似た,既存モデルの重要かつ典型的なエラーを特定し,修正するための,新しいアプローチであるKeyBotを導入する。 典型的なエラータイプを特徴付け、トレーニングにシミュレートされたエラーを使用することで、KeyBotはこれらのエラーを効果的に修正し、ユーザのワークロードを大幅に削減する。 3つの公開データセットの総合的定量的および定性的な評価により、KeyBotは既存の手法を著しく上回り、インタラクティブな脊椎のキーポイント推定において最先端のパフォーマンスを達成することが確認された。 ソースコードとデモビデオは、https://ts-kim.github.io/KeyBot/.com/で公開されている。

Recent advances in interactive keypoint estimation methods have enhanced accuracy while minimizing user intervention. However, these methods require user input for error correction, which can be costly in vertebrae keypoint estimation where inaccurate keypoints are densely clustered or overlap. We introduce a novel approach, KeyBot, specifically designed to identify and correct significant and typical errors in existing models, akin to user revision. By characterizing typical error types and using simulated errors for training, KeyBot effectively corrects these errors and significantly reduces user workload. Comprehensive quantitative and qualitative evaluations on three public datasets confirm that KeyBot significantly outperforms existing methods, achieving state-of-the-art performance in interactive vertebrae keypoint estimation. The source code and demo video are available at: https://ts-kim.github.io/KeyBot/
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# No Man is a Island: コード検索、コード生成、プログラム修復による完全な自動プログラミングを目指す

No Man is an Island: Towards Fully Automatic Programming by Code Search, Code Generation and Program Repair ( http://arxiv.org/abs/2409.03267v1 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Ye Shang, Tongke Zhang, Shengcheng Yu, Zhenyu Chen, (参考訳) 自動プログラミングは、実行可能なコード生成に対する人間の介入を最小限に抑えようと試みており、ソフトウェア工学コミュニティでは長年にわたって挑戦されてきた。 1)外部データベースから既存のコードスニペットを再利用するコード検索,(2)自然言語から新しいコードスニペットを生成するコード生成,(3)検出されたバグを修正することで既存のコードスニペットを洗練するプログラム修復,である。 大幅な進歩にもかかわらず、検索されたコードの使いやすさや生成されたコードの正確性など、最先端技術の有効性はまだ限られている。 本研究では,最近の大規模言語モデル (LLM) を活用した自動プログラミングフレームワークである \toolname{} を提案し,これらの3つの研究領域を統合して,固有の制約に対処する。 特に,このフレームワークでは,まず異なるコード検索手法を用いて類似のコードスニペットを検索し,LLMのコード生成プロセスをさらにガイドする。 本フレームワークは,コンパイラやテストケースによって生成されたコードの品質をさらに検証し,修正プロンプトを構築して,正しいパッチを生成するためのLCMをクエリする。 CodeLlamaは62.53\%の改善で267のプログラミング問題を解決するのに役立ちます。 一般的なフレームワークとして、 \toolname{}は、様々なコード検索、生成、修復ツールを統合することができ、これら3つの研究領域を初めて組み合わせることができる。 さらに重要なのは、従来のSEツールを使用して、自動プログラミングにおけるLLMのユーザビリティを高める可能性を示している。

Automatic programming attempts to minimize human intervention in the generation of executable code, and has been a long-standing challenge in the software engineering community. To advance automatic programming, researchers are focusing on three primary directions: (1) code search that reuses existing code snippets from external databases; (2) code generation that produces new code snippets from natural language; and (3) program repair that refines existing code snippets by fixing detected bugs. Despite significant advancements, the effectiveness of state-of-the-art techniques is still limited, such as the usability of searched code and the correctness of generated code. Motivated by the real-world programming process, where developers usually use various external tools to aid their coding processes, such as code search engines and code testing tools, in this work, we propose \toolname{}, an automatic programming framework that leverages recent large language models (LLMs) to integrate the three research areas to address their inherent limitations. In particular, our framework first leverages different code search strategies to retrieve similar code snippets, which are then used to further guide the code generation process of LLMs. Our framework further validates the quality of generated code by compilers and test cases, and constructs repair prompts to query LLMs for generating correct patches. We conduct preliminary experiments to demonstrate the potential of our framework, \eg helping CodeLlama solve 267 programming problems with an improvement of 62.53\%. As a generic framework, \toolname{} can integrate various code search, generation, and repair tools, combining these three research areas together for the first time. More importantly, it demonstrates the potential of using traditional SE tools to enhance the usability of LLMs in automatic programming.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# SVP: 頭部拡散モデルに基づくスタイル強化型ヴィヴィッド・ポートレート

SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model ( http://arxiv.org/abs/2409.03270v1 )

ライセンス: Link先を確認
Weipeng Tan, Chuming Lin, Chengming Xu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu, (参考訳) トーキングヘッドジェネレーション(THG)は、一般的にオーディオによって駆動される、デジタル人間、映画制作、バーチャルリアリティーといった様々な分野の幅広い応用分野において、重要かつ困難な課題である。 拡散モデルに基づくTHG法は、高品質で安定したコンテンツ生成を提供するが、ビデオの発話習慣や表情などのパーソナライズされた特徴を含む本質的なスタイルをしばしば見落としている。 その結果、生成されたビデオコンテンツは多様性と鮮明さに欠けており、現実のシナリオでは制限される。 これらの課題に対処するため,我々はTHGのスタイル関連情報を完全に活用するStyle-Enhanced Vivid Portrait (SVP) という新しいフレームワークを提案する。 具体的には,まず,表情と音声の埋め込みを用いたガウス分布として固有のスタイルをモデル化するために,新しい確率的スタイルを学習前に導入する。 分布はコントラスト的目的によって学習され、各ビデオのダイナミックなスタイル情報を効果的にキャプチャする。 次に、事前学習された安定拡散(SD)モデルを微調整し、クロスアテンションによる制御信号として学習固有のスタイルを注入する。 実験により,本モデルは,本質的なスタイルを柔軟に制御できる多種多様で鮮明で高品質なビデオを生成し,既存の最先端の手法よりも優れていることが示された。

Talking Head Generation (THG), typically driven by audio, is an important and challenging task with broad application prospects in various fields such as digital humans, film production, and virtual reality. While diffusion model-based THG methods present high quality and stable content generation, they often overlook the intrinsic style which encompasses personalized features such as speaking habits and facial expressions of a video. As consequence, the generated video content lacks diversity and vividness, thus being limited in real life scenarios. To address these issues, we propose a novel framework named Style-Enhanced Vivid Portrait (SVP) which fully leverages style-related information in THG. Specifically, we first introduce the novel probabilistic style prior learning to model the intrinsic style as a Gaussian distribution using facial expressions and audio embedding. The distribution is learned through the 'bespoked' contrastive objective, effectively capturing the dynamic style information in each video. Then we finetune a pretrained Stable Diffusion (SD) model to inject the learned intrinsic style as a controlling signal via cross attention. Experiments show that our model generates diverse, vivid, and high-quality videos with flexible control over intrinsic styles, outperforming existing state-of-the-art methods.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# ストラテジックチェーン・オブ・ワット:戦略緩和によるLCMの高精度推論の誘導

Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation ( http://arxiv.org/abs/2409.03271v1 )

ライセンス: Link先を確認
Yu Wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu, (参考訳) CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力を向上するための重要なアプローチとして登場した。 しかし、広く採用され成功しているにもかかわらず、CoT法は、生成した推論パスの品質を一貫して保証できないため、しばしば不安定性を示し、準最適推論性能をもたらす。 この課題に対処するために、中間的推論ステップを生成する前に戦略知識を統合することによってLCM性能を洗練させる新しい手法である、textbf{Strategic Chain-of-Thought} (SCoT)を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。 Llama3-8bモデルを用いて、GSM8Kデータセットの21.05\%、Tracking\_Objectsデータセットの24.13\%などの8つの挑戦的推論データセットに対する実験により、大幅な改善が示された。 さらに、SCoTフレームワークを拡張して、自動的に一致したデモを含む数ショットの手法を開発し、さらに強力な結果をもたらす。 これらの知見は, 複雑な推論タスクにおいて, LLM性能を著しく向上させる可能性を強調し, SCoTの有効性を裏付けるものである。

The Chain-of-Thought (CoT) paradigm has emerged as a critical approach for enhancing the reasoning capabilities of large language models (LLMs). However, despite their widespread adoption and success, CoT methods often exhibit instability due to their inability to consistently ensure the quality of generated reasoning paths, leading to sub-optimal reasoning performance. To address this challenge, we propose the \textbf{Strategic Chain-of-Thought} (SCoT), a novel methodology designed to refine LLM performance by integrating strategic knowledge prior to generating intermediate reasoning steps. SCoT employs a two-stage approach within a single prompt: first eliciting an effective problem-solving strategy, which is then used to guide the generation of high-quality CoT paths and final answers. Our experiments across eight challenging reasoning datasets demonstrate significant improvements, including a 21.05\% increase on the GSM8K dataset and 24.13\% on the Tracking\_Objects dataset, respectively, using the Llama3-8b model. Additionally, we extend the SCoT framework to develop a few-shot method with automatically matched demonstrations, yielding even stronger results. These findings underscore the efficacy of SCoT, highlighting its potential to substantially enhance LLM performance in complex reasoning tasks.
翻訳日:2024-09-06 21:40:47 公開日:2024-09-05
# OccLLaMA: 自律運転のための職業・言語・行動生成世界モデル

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving ( http://arxiv.org/abs/2409.03272v1 )

ライセンス: Link先を確認
Julong Wei, Shanshuai Yuan, Pengfei Li, Qingda Hu, Zhongxue Gan, Wenchao Ding, (参考訳) MLLM(Multi-modal large language model)の台頭により、自律運転への応用が加速した。 近年のMLLMに基づく手法は、知覚から行動への直接マッピングを学習し、世界のダイナミクスや行動と世界ダイナミクスの関係を無視して行動を実行する。 対照的に、人間は3次元の視覚的表現と計画行動に基づいて将来の状態をシミュレートできる世界モデルを持っている。 この目的のために,OccLLaMAを提案する。OccLLaMAは,意味的占有度を一般的な視覚表現として利用し,自己回帰モデルを用いて視覚言語行動(VLA)モダリティを統一する。 具体的には,VQVAEのようなシーントークンを導入し,その空間性とクラス不均衡を考慮した意味的占有シーンを効率的に識別・再構成する。 そして、視覚、言語、行動のための統合されたマルチモーダル語彙を構築する。 さらに、LLM(特にLLaMA)を拡張し、統合語彙の次のトークン/シーン予測を行い、自律運転における複数のタスクを完了させる。 大規模な実験により、OccLLaMAは4D占有率予測、運動計画、視覚的質問応答など、複数のタスクにわたる競争性能を達成し、自動運転の基礎モデルとしての可能性を示している。

The rise of multi-modal large language models(MLLMs) has spurred their applications in autonomous driving. Recent MLLM-based methods perform action by learning a direct mapping from perception to action, neglecting the dynamics of the world and the relations between action and world dynamics. In contrast, human beings possess world model that enables them to simulate the future states based on 3D internal visual representation and plan actions accordingly. To this end, we propose OccLLaMA, an occupancy-language-action generative world model, which uses semantic occupancy as a general visual representation and unifies vision-language-action(VLA) modalities through an autoregressive model. Specifically, we introduce a novel VQVAE-like scene tokenizer to efficiently discretize and reconstruct semantic occupancy scenes, considering its sparsity and classes imbalance. Then, we build a unified multi-modal vocabulary for vision, language and action. Furthermore, we enhance LLM, specifically LLaMA, to perform the next token/scene prediction on the unified vocabulary to complete multiple tasks in autonomous driving. Extensive experiments demonstrate that OccLLaMA achieves competitive performance across multiple tasks, including 4D occupancy forecasting, motion planning, and visual question answering, showcasing its potential as a foundation model in autonomous driving.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 大規模言語モデルの攻撃・防衛手法の最近の進歩

Recent Advances in Attack and Defense Approaches of Large Language Models ( http://arxiv.org/abs/2409.03274v1 )

ライセンス: Link先を確認
Jing Cui, Yishi Xu, Zhewei Huang, Shuchang Zhou, Jianbin Jiao, Junge Zhang, (参考訳) 大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。 しかし、その広範な展開は、重大な安全性と信頼性の懸念を引き起こしている。 深層ニューラルネットワークの脆弱性は、新たな脅威モデルと相まって、セキュリティ評価を妥協し、誤ったセキュリティ感覚を生み出す可能性がある。 LLMのセキュリティ分野における広範な研究を考えると、現状の要約は、研究コミュニティが現在の景観をよりよく理解し、今後の発展を知らせるのに役立つと信じている。 本稿では,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代の防衛機構の有効性を評価する。 我々は攻撃ベクトルとモデル弱点に関する最近の研究を分析し、攻撃機構と進化する脅威景観に関する洞察を提供する。 また、現在の防衛戦略についても検討し、その強みと限界を強調します。 攻撃・防衛手法の進歩とは対照的に,我々は研究のギャップを識別し,LLMの安全性を高めるための今後の方向性を提案する。 我々の目標は、LLMの安全性の課題の理解を深め、より堅牢なセキュリティ対策の開発を指導することである。

Large Language Models (LLMs) have revolutionized artificial intelligence and machine learning through their advanced text processing and generating capabilities. However, their widespread deployment has raised significant safety and reliability concerns. Established vulnerabilities in deep neural networks, coupled with emerging threat models, may compromise security evaluations and create a false sense of security. Given the extensive research in the field of LLM security, we believe that summarizing the current state of affairs will help the research community better understand the present landscape and inform future developments. This paper reviews current research on LLM vulnerabilities and threats, and evaluates the effectiveness of contemporary defense mechanisms. We analyze recent studies on attack vectors and model weaknesses, providing insights into attack mechanisms and the evolving threat landscape. We also examine current defense strategies, highlighting their strengths and limitations. By contrasting advancements in attack and defense methodologies, we identify research gaps and propose future directions to enhance LLM security. Our goal is to advance the understanding of LLM safety challenges and guide the development of more robust security measures.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# オンラインガウス過程回帰のためのテンソルネットワーク平方根カルマンフィルタ

Tensor network square root Kalman filter for online Gaussian process regression ( http://arxiv.org/abs/2409.03276v1 )

ライセンス: Link先を確認
Clara Menzen, Manon Kok, Kim Batselier, (参考訳) 最先端テンソルネットワークKalmanフィルタは、高次元再帰的推定問題に対する次元の呪いを持ち上げる。 しかし、必要な丸め操作は、共分散行列の正定値の欠如によるフィルタのばらつきを引き起こす可能性がある。 我々は、テンソルネットワークの平方根カルマンフィルタを初めて開発し、それを高次元オンラインガウス過程回帰に適用することによって、この問題を解決する。 実験では,本手法がフルランクテンソルネットワークを選択する場合,従来のカルマンフィルタと等価であることを示す。 さらに,本手法を実生活システム同定問題に適用し,標準ラップトップ上でのパラメータを4〜14ドルと見積もる。 推定モデルは、予測精度と不確実性定量化の観点から、最先端テンソルネットワークKalmanフィルタより優れている。

The state-of-the-art tensor network Kalman filter lifts the curse of dimensionality for high-dimensional recursive estimation problems. However, the required rounding operation can cause filter divergence due to the loss of positive definiteness of covariance matrices. We solve this issue by developing, for the first time, a tensor network square root Kalman filter, and apply it to high-dimensional online Gaussian process regression. In our experiments, we demonstrate that our method is equivalent to the conventional Kalman filter when choosing a full-rank tensor network. Furthermore, we apply our method to a real-life system identification problem where we estimate $4^{14}$ parameters on a standard laptop. The estimated model outperforms the state-of-the-art tensor network Kalman filter in terms of prediction accuracy and uncertainty quantification.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# ChartMoE: 高度なチャート理解のためのエキスパートコネクタの混合

ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding ( http://arxiv.org/abs/2409.03277v1 )

ライセンス: Link先を確認
Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo, (参考訳) コンテンツ理解と文書解析には,自動チャート理解が不可欠である。 マルチモーダル大言語モデル(MLLM)は、ドメイン固有のアライメントと微調整によるチャート理解において顕著な能力を示した。 しかし、チャート領域におけるアライメントトレーニングの適用については、まだ未定である。 そこで我々は,従来の線形プロジェクタを代替してモダリティギャップを埋めるために,専門家(MoE)アーキテクチャを混合したChartMoEを提案する。 具体的には、異なるアライメントタスクを通じて複数のリニアコネクタをトレーニングし、異なる専門家の基本的な初期化パラメータとして活用する。 さらに、900K以上のチャートテーブル-JSONコードの4倍数を持つデータセットであるChartMoE-Alignを導入し、3つのアライメントタスク(chart-table/JSON/code)を実行する。 バニラコネクタと組み合わせて、異なる専門家を4つの異なる方法で初期化し、高品質な知識学習を採用して、MoEコネクタとLLMパラメータをさらに洗練する。 大規模な実験では、ChartQAベンチマークの80.48%から84.64%に、MoEコネクタとChartMoEの初期化戦略の有効性を実証している。

Automatic chart understanding is crucial for content comprehension and document parsing. Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in chart understanding through domain-specific alignment and fine-tuning. However, the application of alignment training within the chart domain is still underexplored. To address this, we propose ChartMoE, which employs the mixture of expert (MoE) architecture to replace the traditional linear projector to bridge the modality gap. Specifically, we train multiple linear connectors through distinct alignment tasks, which are utilized as the foundational initialization parameters for different experts. Additionally, we introduce ChartMoE-Align, a dataset with over 900K chart-table-JSON-code quadruples to conduct three alignment tasks (chart-table/JSON/code). Combined with the vanilla connector, we initialize different experts in four distinct ways and adopt high-quality knowledge learning to further refine the MoE connector and LLM parameters. Extensive experiments demonstrate the effectiveness of the MoE connector and our initialization strategy, e.g., ChartMoE improves the accuracy of the previous state-of-the-art from 80.48% to 84.64% on the ChartQA benchmark.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 長距離消滅を伴う吸収状態遷移

Absorbing state transitions with long-range annihilation ( http://arxiv.org/abs/2409.03280v1 )

ライセンス: Link先を確認
Nicholas O'Dea, Sayak Bhattacharjee, Sarang Gopalakrishnan, Vedika Khemani, (参考訳) 分枝および長距離消滅中の拡散粒子をパリティ制約の存在下で記述した古典的確率過程のファミリを紹介する。 対消滅事象の確率は、調整可能な指数を持つ粒子間距離におけるパワーローとして崩壊する。 このような長距離過程は、長距離電磁相互作用を持つ試薬を含む化学反応など、様々な古典的な環境で自然に発生する。 彼らはまた、量子力学の研究において、ある量子プロトコルを古典的確率過程と長距離相互作用でマッピングする役割を担っている。例えば、状態準備やエラー補正プロセスは、グローバルな測定結果のセットに条件付けられた非局所的なフィードバック操作を通じてペア内の点のような励起を取り除くことを必要とする順序付き基底状態の準備を目的としている。 我々は,この古典モデル群における吸収相と相転移の特徴を,より大きく,より広い距離で対消滅するものとして解析的,数値的に記述する。 特に、2つの正準吸収状態普遍性クラス (direct-percolation) とパリティ保存クラス (parity-conserving) は、連続的に補間的な臨界指数を持つ普遍性クラスの一行の終点である。

We introduce a family of classical stochastic processes describing diffusive particles undergoing branching and long-range annihilation in the presence of a parity constraint. The probability for a pair-annihilation event decays as a power-law in the distance between particles, with a tunable exponent. Such long-range processes arise naturally in various classical settings, such as chemical reactions involving reagents with long-range electromagnetic interactions. They also increasingly play a role in the study of quantum dynamics, in which certain quantum protocols can be mapped to classical stochastic processes with long-range interactions: for example, state preparation or error correction processes aim to prepare ordered ground states, which requires removing point-like excitations in pairs via non-local feedback operations conditioned on a global set of measurement outcomes. We analytically and numerically describe features of absorbing phases and phase transitions in this family of classical models as pairwise annihilation is performed at larger and larger distances. Notably, we find that the two canonical absorbing-state universality classes -- directed-percolation and parity-conserving -- are endpoints of a line of universality classes with continuously interpolating critical exponents.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# リカレントおよび非リカレント条件下での時系列予測のための専門家の解釈可能な混合

Interpretable mixture of experts for time series prediction under recurrent and non-recurrent conditions ( http://arxiv.org/abs/2409.03282v1 )

ライセンス: Link先を確認
Zemian Ke, Haocheng Duan, Sean Qian, (参考訳) インシデントによる非リカレント条件は、周期的なパターンに従うリカレント条件とは異なる。 既存の交通速度予測研究はインシデントに依存しず、1つのモデルを用いて、これらの非常に多様な状況から可能なすべてのパターンを学習する。 本研究では,2つの異なる条件下での交通速度予測(リカレントと非リカレント(インシデントと無インシデント)を改善するための,新しいMixture of Experts(MoE)モデルを提案する。 MoEは、個別のリカレントおよび非リカレントエキスパートモデル(テンポラルフュージョントランスフォーマー)を活用して、各トラフィック条件の異なるパターンをキャプチャする。 さらに、リカレントでないモデルに対して、限られたデータ問題を改善するためのトレーニングパイプラインを提案する。 我々のモデルをトレーニングするために、交通速度、インシデントレポート、気象データを含むマルチソースデータセットを統合し、情報的特徴として処理する。 実際の道路ネットワーク上での評価は、MoEが他のベンチマークアルゴリズムと比較して低い誤差を達成していることを示している。 モデル予測は、時間的依存関係と各条件における変数の重要性の観点から解釈され、繰り返し条件と非繰り返し条件の差に光を当てる。

Non-recurrent conditions caused by incidents are different from recurrent conditions that follow periodic patterns. Existing traffic speed prediction studies are incident-agnostic and use one single model to learn all possible patterns from these drastically diverse conditions. This study proposes a novel Mixture of Experts (MoE) model to improve traffic speed prediction under two separate conditions, recurrent and non-recurrent (i.e., with and without incidents). The MoE leverages separate recurrent and non-recurrent expert models (Temporal Fusion Transformers) to capture the distinct patterns of each traffic condition. Additionally, we propose a training pipeline for non-recurrent models to remedy the limited data issues. To train our model, multi-source datasets, including traffic speed, incident reports, and weather data, are integrated and processed to be informative features. Evaluations on a real road network demonstrate that the MoE achieves lower errors compared to other benchmark algorithms. The model predictions are interpreted in terms of temporal dependencies and variable importance in each condition separately to shed light on the differences between recurrent and non-recurrent conditions.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# iText2KG:大規模言語モデルを用いたインクリメンタル知識グラフの構築

iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models ( http://arxiv.org/abs/2409.03284v1 )

ライセンス: Link先を確認
Yassir Lairgi, Ludovic Moncla, Rémy Cazabet, Khalid Benabdeslem, Pierre Cléau, (参考訳) ほとんどの利用可能なデータは構造化されておらず、貴重な情報にアクセスすることは困難である。 知識グラフ(KG)の自動構築は、データを構造化し、アクセスしやすくするために不可欠である。 KGは洞察、推論、推論を促進する。 名前付きエンティティ認識や関係抽出などの従来のNLP手法は、事前定義されたエンティティタイプの使用や教師付き学習の必要性など、情報検索において重要な要素であるが、対面制限である。 現在の研究では、ゼロショット学習や少数ショット学習など、大きな言語モデルの能力を活用している。 しかし、未解決かつセマンティックに複製されたエンティティや関係は依然として問題を引き起こし、一貫性のないグラフと広範な後処理を必要とする。 さらに、ほとんどのアプローチはトピックに依存しています。 本稿では,ポストプロセッシングを使わずに,段階的かつトピックに依存しないKG構築手法iText2KGを提案する。 このプラグイン・アンド・プレイのゼロショット方式は、幅広いKG構成シナリオに適用可能であり、Document Distiller, Incremental Entity Extractor, Incremental Relation Extractor, Graph Integrator and Visualizationの4つのモジュールからなる。 提案手法は,科学論文をグラフに変換する,Webサイトをグラフに変換する,CVをグラフに変換する,という3つのシナリオにまたがるベースライン手法と比較して,優れた性能を示す。

Most available data is unstructured, making it challenging to access valuable information. Automatically building Knowledge Graphs (KGs) is crucial for structuring data and making it accessible, allowing users to search for information effectively. KGs also facilitate insights, inference, and reasoning. Traditional NLP methods, such as named entity recognition and relation extraction, are key in information retrieval but face limitations, including the use of predefined entity types and the need for supervised learning. Current research leverages large language models' capabilities, such as zero- or few-shot learning. However, unresolved and semantically duplicated entities and relations still pose challenges, leading to inconsistent graphs and requiring extensive post-processing. Additionally, most approaches are topic-dependent. In this paper, we propose iText2KG, a method for incremental, topic-independent KG construction without post-processing. This plug-and-play, zero-shot method is applicable across a wide range of KG construction scenarios and comprises four modules: Document Distiller, Incremental Entity Extractor, Incremental Relation Extractor, and Graph Integrator and Visualization. Our method demonstrates superior performance compared to baseline methods across three scenarios: converting scientific papers to graphs, websites to graphs, and CVs to graphs.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# LLM検出器はいまだに現実に足りていない:LLMで作られた短いニュース風ポストを例に

LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts ( http://arxiv.org/abs/2409.03291v1 )

ライセンス: Link先を確認
Henrique Da Silva Gameiro, Andrei Kucharavy, Ljiljana Dolamic, (参考訳) 大規模言語モデル (LLM) によって生成された偽情報が, 広く普及する強力なLLMの出現に伴い, 主要な関心事となっている。 歴史的に、LSM検出器は解法として評価されてきたが、現実世界での有効性はまだ証明されていない。 本稿では,適度に洗練された攻撃者による短いニュースのような投稿を,情報操作における重要な設定に焦点をあてる。 既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。 全ての試験されたゼロショット検出器は、以前のベンチマークと矛盾なく動作し、サンプリング温度の増加に対して非常に脆弱である。 LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。 前者はドメイン固有のベンチマークが必要であることを示し、後者は、対立回避のレジリエンスと参照する人文への過度な適合のトレードオフを示唆し、どちらもベンチマークでの評価が必要であり、現在は欠落している。 これは、現在のLLM検出器のベンチマーク手法を再検討し、動的に拡張可能なベンチマークを提供することを示唆している(https://github.com/Reliable-Information-Lab-HEVS/dynamic_llm_detector_benchmark)。

With the emergence of widely available powerful LLMs, disinformation generated by large Language Models (LLMs) has become a major concern. Historically, LLM detectors have been touted as a solution, but their effectiveness in the real world is still to be proven. In this paper, we focus on an important setting in information operations -- short news-like posts generated by moderately sophisticated attackers. We demonstrate that existing LLM detectors, whether zero-shot or purpose-trained, are not ready for real-world use in that setting. All tested zero-shot detectors perform inconsistently with prior benchmarks and are highly vulnerable to sampling temperature increase, a trivial attack absent from recent benchmarks. A purpose-trained detector generalizing across LLMs and unseen attacks can be developed, but it fails to generalize to new human-written texts. We argue that the former indicates domain-specific benchmarking is needed, while the latter suggests a trade-off between the adversarial evasion resilience and overfitting to the reference human text, with both needing evaluation in benchmarks and currently absent. We believe this suggests a re-consideration of current LLM detector benchmarking approaches and provides a dynamically extensible benchmark to allow it (https://github.com/Reliable-Information-Lab-HEVS/dynamic_llm_detector_benchmark).
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 言語モデリングのためのN-gram予測と単語差分表現

N-gram Prediction and Word Difference Representations for Language Modeling ( http://arxiv.org/abs/2409.03295v1 )

ライセンス: Link先を確認
DongNyeong Heo, Daniela Noemi Rim, Heeyoul Choi, (参考訳) 因果言語モデリング(CLM)は、最近の大規模言語モデル(LLM)の顕著な成功を支える基盤となるフレームワークである。 その成功にもかかわらず、次の単語予測のためのトレーニングアプローチは、モデルが文内の局所的な依存関係に過度にフォーカスするリスクをもたらす可能性がある。 将来のN単語を同時に予測するために先行研究が導入されたが、主にマスク言語モデリング(MLM)やニューラルマシン翻訳(NMT)といったタスクに適用された。 本研究では,CLMタスクのための単純なN-gram予測フレームワークを提案する。 さらに,N-gram予測フレームワークに基づくモデルトレーニングにおいて,単語差分表現(WDR)を代理的かつ文脈化されたターゲット表現として導入する。 そこで我々は,次の単語予測の精度をさらに高めるために,将来のN単語予測結果を組み込んだアンサンブル手法を提案する。 CLM と NMT タスクを含む複数のベンチマークデータセットに対する実証評価は,提案手法が従来の CLM よりも有益であることを示す。

Causal language modeling (CLM) serves as the foundational framework underpinning remarkable successes of recent large language models (LLMs). Despite its success, the training approach for next word prediction poses a potential risk of causing the model to overly focus on local dependencies within a sentence. While prior studies have been introduced to predict future N words simultaneously, they were primarily applied to tasks such as masked language modeling (MLM) and neural machine translation (NMT). In this study, we introduce a simple N-gram prediction framework for the CLM task. Moreover, we introduce word difference representation (WDR) as a surrogate and contextualized target representation during model training on the basis of N-gram prediction framework. To further enhance the quality of next word prediction, we propose an ensemble method that incorporates the future N words' prediction results. Empirical evaluations across multiple benchmark datasets encompassing CLM and NMT tasks demonstrate the significant advantages of our proposed methods over the conventional CLM.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 超軽量MDS行列の構成について

On the construction of ultra-light MDS matrices ( http://arxiv.org/abs/2409.03298v1 )

ライセンス: Link先を確認
Yu Tian, Xiutao Feng, Guangrong Li, (参考訳) 近年、置換置換ネットワークは対称鍵暗号を構成するための重要な構造として出現している。 主に線形行列と非線形Sボックスで構成され、暗号セキュリティの堅牢な基盤を提供する。 線形行列の暗号特性を評価するために用いられる様々な指標のうち、分岐数は特に重要な指標である。 最適な分岐数を持つ行列はMDS行列と呼ばれ、暗号の分野で高い評価を受けている。 本稿では,軽量MDS行列の構築について検討する。 我々は,MDS行列の実装ツリーを起動し,それらの実装を理解し,操作するための重要なツールであり,その表現に基づいて,最も軽量なMDS行列を効率的に列挙するアルゴリズムを提案する。 その結果,超軽量な4ドルのMDS行列,35個のXOR演算を持つ4ビット入力MDS行列,67個のXOR演算を持つ8ビット入力DS行列が得られた。 これらの行列は、現在利用可能な最も包括的な軽量MDS行列を表している。 さらに、68個のXORゲートを持つ4ドル4セントのMDS行列も作っています。 高次MDS行列の分野では、それぞれ114と128のXORゲートを持つ5ドル5セントと6ドル6セントの行列を構築した。 これらの結果は現在の最先端よりも優れていた。

In recent years, the Substitution-Permutation Network has emerged as a crucial structure for constructing symmetric key ciphers. Composed primarily of linear matrices and nonlinear S-boxes, it offers a robust foundation for cryptographic security. Among the various metrics used to assess the cryptographic properties of linear matrices, the branch number stands out as a particularly important index. Matrices with an optimal branch number are referred to as MDS matrices and are highly prized in the field of cryptography. In this paper we delve into the construction of lightweight MDS matrices. We commence implementation trees of MDS matrices, which is a vital tool for understanding and manipulating their implementations, and then present an algorithm that efficiently enumerates all the lightest MDS matrices based on the word representation. As results, we obtain a series of ultra-lightweight $4\times 4$ MDS matrices, remarkably, 4-bit input MDS matrices with 35 XOR operations and 8-bit input ones with 67 XOR operations . These matrices represent the most comprehensive lightweight MDS matrices available to date. Furthermore, we craft some involution $4\times 4$ MDS matrices with a mere 68 XOR gates.To our best knowledge, they are the best up to date. In the realm of higher-order MDS matrices, we have successfully constructed $5\times 5$ and $6\times 6$ matrices with 114 and 148 XOR gates respectively. These findings outperform the current state-of-the-art.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# SCARAロボットにRT-1-Xファンデーションモデルを導入する

Bringing the RT-1-X Foundation Model to a SCARA robot ( http://arxiv.org/abs/2409.03299v1 )

ライセンス: Link先を確認
Jonathan Salzer, Arnoud Visser, (参考訳) 従来のロボットシステムは、タスク、環境、ロボットフォームごとに特定のトレーニングデータを必要とする。 機械学習の最近の進歩により、モデルが新しいタスクや環境をまたいで一般化できるようになったが、これらのモデルを完全に新しい設定に適合させることの難しさは、まだ明らかにされていない。 本研究は, RT-1-Xロボット基礎モデルの, UMI-RTXのSCARAロボットのトレーニング中に見つからない種類のロボットへの一般化能力について検討することによって, この問題に対処する。 最初の実験では、RT-1-Xがゼロショットを見えないタイプのロボットに一般化しないことが判明した。 しかし、RT-1-Xモデルのデモによる微調整により、ロボットは基礎モデルの一部であるピックアップタスクを学習することができる。 ロボットに基礎モデルに含まれるが微調整データセットには含まれていないオブジェクトが提示されると、そのスキルだけが、オブジェクト固有の知識ではないことが示される。

Traditional robotic systems require specific training data for each task, environment, and robot form. While recent advancements in machine learning have enabled models to generalize across new tasks and environments, the challenge of adapting these models to entirely new settings remains largely unexplored. This study addresses this by investigating the generalization capabilities of the RT-1-X robotic foundation model to a type of robot unseen during its training: a SCARA robot from UMI-RTX. Initial experiments reveal that RT-1-X does not generalize zero-shot to the unseen type of robot. However, fine-tuning of the RT-1-X model by demonstration allows the robot to learn a pickup task which was part of the foundation model (but learned for another type of robot). When the robot is presented with an object that is included in the foundation model but not in the fine-tuning dataset, it demonstrates that only the skill, but not the object-specific knowledge, has been transferred.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# ELO-Rated Sequence Rewards: 強化学習モデルの強化

ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models ( http://arxiv.org/abs/2409.03301v1 )

ライセンス: Link先を確認
Qi Ju, Falin Hei, Zhemei Fang, Yunfeng Luo, (参考訳) 強化学習(RL)は報酬関数の精巧な設計に依存している。 しかし、LTRL(Long-Term RL)課題における各状態-作用対に報酬を正確に割り当てることは、困難である。 その結果、RLエージェントは主に専門家の指導で訓練される。 本稿では, 経済における一般効用理論の原理を基礎として, ELO-Rating based RL (ERRL) という新たな報酬推定アルゴリズムを提案する。 このアプローチは2つの主要な特徴によって区別される。 第一に、各軌道のELO評価を報酬として計算するために、基準報酬(ユーティリティ)の代わりにトラジェクトリよりも専門家の選好を利用する。 次に、固定アンカー報酬がない場合のトレーニングのボラティリティを軽減するために、新たな報奨再分配アルゴリズムを導入する。 提案手法は,従来のRLアルゴリズムがフェールする長期シナリオ(最大5000ステップまで)において,複数の主要なベースラインよりも優れた性能を示す。 さらに、専門家の好みが結果にどのように影響するかを徹底的に分析する。

Reinforcement Learning (RL) is highly dependent on the meticulous design of the reward function. However, accurately assigning rewards to each state-action pair in Long-Term RL (LTRL) challenges is formidable. Consequently, RL agents are predominantly trained with expert guidance. Drawing on the principles of ordinal utility theory from economics, we propose a novel reward estimation algorithm: ELO-Rating based RL (ERRL). This approach is distinguished by two main features. Firstly, it leverages expert preferences over trajectories instead of cardinal rewards (utilities) to compute the ELO rating of each trajectory as its reward. Secondly, a new reward redistribution algorithm is introduced to mitigate training volatility in the absence of a fixed anchor reward. Our method demonstrates superior performance over several leading baselines in long-term scenarios (extending up to 5000 steps), where conventional RL algorithms falter. Furthermore, we conduct a thorough analysis of how expert preferences affect the outcomes.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 量子スピン系のダイナミクス学習のためのフーリエニューラル演算子

Fourier Neural Operators for Learning Dynamics in Quantum Spin Systems ( http://arxiv.org/abs/2409.03302v1 )

ライセンス: Link先を確認
Freya Shah, Taylor L. Patti, Julius Berner, Bahareh Tolooshams, Jean Kossaifi, Anima Anandkumar, (参考訳) フーリエニューラル演算子(FNO)は、偏微分方程式から派生したものなど、関数データを用いたタスクを抽出する。 このような特性は、量子波動関数の時間発展をシミュレートするための効果的なアプローチであり、これは計算的に困難だが量子系を理解するための包括的タスクである。 本書では、FNOを用いてランダム量子スピン系の進化をモデル化するので、その代表となる量子力学と最小対称性により選択される。 我々は2つの異なるFNOアーキテクチャを探索し、ランダムな入力状態と低エネルギーの入力状態の両方を用いて学習と時間の進化を予測する。 さらに、FNOは2^n$の量子波動関数ではなく、コンパクトなハミルトニアンの観測可能な集合($\sim\text{poly}(n)$)に適用される。 さらに、このハミルトン可観測法は、FNOsが高次元空間から低次元空間への情報を効果的に蒸留できることを証明している。 これは、現代の量子アーキテクチャのコヒーレンス時間と、トラクタブルテンソルネットワークの回路深度の両方を経た量子システムのシミュラビリティを根本的に向上させるためである。

Fourier Neural Operators (FNOs) excel on tasks using functional data, such as those originating from partial differential equations. Such characteristics render them an effective approach for simulating the time evolution of quantum wavefunctions, which is a computationally challenging, yet coveted task for understanding quantum systems. In this manuscript, we use FNOs to model the evolution of random quantum spin systems, so chosen due to their representative quantum dynamics and minimal symmetry. We explore two distinct FNO architectures and examine their performance for learning and predicting time evolution using both random and low-energy input states. Additionally, we apply FNOs to a compact set of Hamiltonian observables ($\sim\text{poly}(n)$) instead of the entire $2^n$ quantum wavefunction, which greatly reduces the size of our inputs and outputs and, consequently, the requisite dimensions of the resulting FNOs. Moreover, this Hamiltonian observable-based method demonstrates that FNOs can effectively distill information from high-dimensional spaces into lower-dimensional spaces. The extrapolation of Hamiltonian observables to times later than those used in training is of particular interest, as this stands to fundamentally increase the simulatability of quantum systems past both the coherence times of contemporary quantum architectures and the circuit-depths of tractable tensor networks.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# 多目的最適化による複数スパージャ相関に対するロバスト性の改善

Improving Robustness to Multiple Spurious Correlations by Multi-Objective Optimization ( http://arxiv.org/abs/2409.03303v1 )

ライセンス: Link先を確認
Nayeong Kim, Juwon Kang, Sungsoo Ahn, Jungseul Ok, Suha Kwak, (参考訳) 複数のバイアスを持つデータセットを与えられた非バイアスで正確なモデルでトレーニングする問題について検討する。 この問題は、複数のバイアスがトレーニング中に複数の望ましくないショートカットを引き起こします。 本稿では,この課題に対処するための新しいトレーニング手法を提案する。 提案手法はまず,異なるグループに異なるショートカットを誘導するようにデータをグループ化し,その重み付けを動的に調整してグループ単位での損失の線形結合を最適化し,グループ間の衝突を軽減する。 また、現実的かつ挑戦的なシナリオ下での偏りのあるトレーニング手法を評価するために、MultiCelebAと呼ばれる複数のバイアスを持つ新しいベンチマークを提示する。 提案手法は,複数のバイアスを持つ3つのデータセットにおいて最良であり,従来の単一バイアスデータセットよりも優れた性能を示した。

We study the problem of training an unbiased and accurate model given a dataset with multiple biases. This problem is challenging since the multiple biases cause multiple undesirable shortcuts during training, and even worse, mitigating one may exacerbate the other. We propose a novel training method to tackle this challenge. Our method first groups training data so that different groups induce different shortcuts, and then optimizes a linear combination of group-wise losses while adjusting their weights dynamically to alleviate conflicts between the groups in performance; this approach, rooted in the multi-objective optimization theory, encourages to achieve the minimax Pareto solution. We also present a new benchmark with multiple biases, dubbed MultiCelebA, for evaluating debiased training methods under realistic and challenging scenarios. Our method achieved the best on three datasets with multiple biases, and also showed superior performance on conventional single-bias datasets.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# ハイブリッド勾配計算によるデジタル型アナログブロックの学習に向けて

Towards training digitally-tied analog blocks via hybrid gradient computation ( http://arxiv.org/abs/2409.03306v1 )

ライセンス: Link先を確認
Timothy Nest, Maxence Ernoult, (参考訳) 電力効率は、AIトレーニングのコストを削減するために、新しいハードウェア、モデル、アルゴリズムを必要とするような、標準的なデジタルエレクトロニクス領域で高められている。 エネルギーベースのアナログ回路とEquilibrium Propagation (EP)アルゴリズムの組み合わせは、ニューラルネットワークの勾配に基づく最適化のための、魅力的な代替計算パラダイムとなっている。 しかし、既存のアナログハードウェアアクセラレータは、通常、デジタル回路を組み込んで、補助的な非定常動作を維持し、アナログデバイス欠陥を緩和し、既存のデジタルアクセラレーションを活用する。 本稿では,フィードフォワードとエネルギーベースブロックを組み合わせたハイブリッドモデルであるFeedforward-tied Energy-based Models (ff-EBMs)を紹介する。 フィードフォワードとエネルギーベースのパーツをそれぞれバックプロパゲートし、eqプロパゲートし、EPをより柔軟でリアルなアーキテクチャに適用することで、FF-EBMのエンドツーエンド勾配を計算する新しいアルゴリズムを導出する。 本稿では,Deep Hopfield Networks (DHN) をエネルギーベースブロックとして利用する ff-EBM に対する提案手法の有効性を実験的に示す。 まず、標準DHNを任意の均一なサイズに任意に分割し、性能を維持できることを示す。 次に、ImageNet32でff-EBMをトレーニングし、EP文学(46 Top-1 %)で新しいSOTAパフォーマンスを確立します。 我々のアプローチは、自己学習可能なアナログ計算プリミティブを既存のデジタルアクセラレータに徐々に統合する、原則的でスケーラブルで漸進的なロードマップを提供する。

Power efficiency is plateauing in the standard digital electronics realm such that novel hardware, models, and algorithms are needed to reduce the costs of AI training. The combination of energy-based analog circuits and the Equilibrium Propagation (EP) algorithm constitutes one compelling alternative compute paradigm for gradient-based optimization of neural nets. Existing analog hardware accelerators, however, typically incorporate digital circuitry to sustain auxiliary non-weight-stationary operations, mitigate analog device imperfections, and leverage existing digital accelerators.This heterogeneous hardware approach calls for a new theoretical model building block. In this work, we introduce Feedforward-tied Energy-based Models (ff-EBMs), a hybrid model comprising feedforward and energy-based blocks accounting for digital and analog circuits. We derive a novel algorithm to compute gradients end-to-end in ff-EBMs by backpropagating and "eq-propagating" through feedforward and energy-based parts respectively, enabling EP to be applied to much more flexible and realistic architectures. We experimentally demonstrate the effectiveness of the proposed approach on ff-EBMs where Deep Hopfield Networks (DHNs) are used as energy-based blocks. We first show that a standard DHN can be arbitrarily split into any uniform size while maintaining performance. We then train ff-EBMs on ImageNet32 where we establish new SOTA performance in the EP literature (46 top-1 %). Our approach offers a principled, scalable, and incremental roadmap to gradually integrate self-trainable analog computational primitives into existing digital accelerators.
翻訳日:2024-09-06 21:30:40 公開日:2024-09-05
# AIデータ透明性:AIインシデントのレンズを通しての探索

AI data transparency: an exploration through the lens of AI incidents ( http://arxiv.org/abs/2409.03307v1 )

ライセンス: Link先を確認
Sophia Worth, Ben Snaith, Arunav Das, Gefion Thuermer, Elena Simperl, (参考訳) AIシステム構築に使用されるデータについて知ることは、さまざまな利害関係者が責任と適切なデプロイメントと使用を確実にする役割を担えるようにする上で、非常に重要です。 一方、2023年のレポートでは、一般的なファンデーションモデルにおいて、データ透明性はAIの他の領域よりも大幅に遅れている。 本研究では,これらの知見に基づいて,AIシステム内のデータプラクティスに関する公開資料の公開状況を探究する。 さらに、モデルレベルとシステムレベルでの透明性と説明可能性の問題が、AIシステムに関する公的な懸念に対処するために、データの透明性情報を調べる障壁を生じさせることを示した。 我々は、AIシステムタイプの多様性を考慮した、AIデータ透明性の監視方法の体系的な開発の必要性を強調し、データ透明性情報の提供と使用の両方のニーズのさらなる理解の構築に努める。

Knowing more about the data used to build AI systems is critical for allowing different stakeholders to play their part in ensuring responsible and appropriate deployment and use. Meanwhile, a 2023 report shows that data transparency lags significantly behind other areas of AI transparency in popular foundation models. In this research, we sought to build on these findings, exploring the status of public documentation about data practices within AI systems generating public concern. Our findings demonstrate that low data transparency persists across a wide range of systems, and further that issues of transparency and explainability at model- and system- level create barriers for investigating data transparency information to address public concerns about AI systems. We highlight a need to develop systematic ways of monitoring AI data transparency that account for the diversity of AI system types, and for such efforts to build on further understanding of the needs of those both supplying and using data transparency information.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# フィリピン大学オープン大学大規模オープンオンラインコースにおけるゲーミフィケーションの展開と評価

Innovation in Education: Developing and Assessing Gamification in the University of the Philippines Open University Massive Open Online Courses ( http://arxiv.org/abs/2409.03309v1 )

ライセンス: Link先を確認
Cecille Moldez, Mari Anjeli Crisanto, Ma Gian Rose Cerdeña, Diego S. Maranan, Roberto Figueroa, (参考訳) フィリピンオープン大学は、知識とスキルギャップに対処する大規模なオープンオンラインコースを提供し、教育をアクセスし、社会的目標に貢献することを目的としている。 フィリピンオープン大学のMassive Open Online Coursesの1つにゲーミフィケーションを取り入れ、これらの側面に対する影響を評価することで、学生のエンゲージメントと完成率の課題を認識した。 ゲーミフィケーションは、ゲーム要素を統合することでユーザを動機付け、エンゲージメントさせる。 本研究では,バッジ,リーダボード,プログレッシブバーなどのMoodle要素の組み入れについて検討した。 この研究はMoodle分析を利用して、学生のエンゲージメント、ビュー、投稿をトラックし、ゲーミフィケーションがユーザーの行動に与える影響に関する貴重な洞察を提供する。 さらに、評価後の調査を通じて参加者からのフィードバックを掘り下げ、ゲーミフィケーション・コース・デザインでの経験を包括的に理解した。 28.86%の完成率とポジティブな参加者受け入れで、ゲーミフィケーションは学習者のモチベーション、参加、全体的な満足度を高めることができると結論付けた。 本研究は,フィリピンなどにおけるインタラクティブで影響力のあるオンライン学習体験の創出の道として,ゲーミフィケーションを将来性のある道と位置づけた,革新的な教育方法に関する議論の継続に寄与する。

The University of the Philippines Open University has been at the forefront of providing Massive Open Online Courses to address knowledge and skill gaps, aiming to make education accessible and contributing to societal goals. Recognising challenges in student engagement and completion rates within Massive Open Online Courses, the authors conducted a study by incorporating gamification into one of the University of the Philippines Open University's Massive Open Online Courses to assess its impact on these aspects. Gamification involves integrating game elements to motivate and engage users. This study explored the incorporation of Moodle elements such as badges, leaderboards, and progress bars. Using Moodle analytics, the study also tracked student engagement, views, and posts throughout the course, offering valuable insights into the influence of gamification on user behaviour. Furthermore, the study delved into participant feedback gathered through post-evaluation surveys, providing a comprehensive understanding of their experiences with the gamified course design. With a 28.86% completion rate and positive participant reception, the study concluded that gamification can enhance learner motivation, participation, and overall satisfaction. This research contributes to the ongoing discourse on innovative educational methods, positioning gamification as a promising avenue for creating interactive and impactful online learning experiences in the Philippines and beyond.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# 関数の凸性テストのための量子アルゴリズム

Quantum Algorithm For Testing Convexity of Function ( http://arxiv.org/abs/2409.03312v1 )

ライセンス: Link先を確認
Nhat A. Nghiem, Tzu-Chieh Wei, (参考訳) 関数は数学の基本的な対象であり、異なる分野への無数の応用を持ち、通常、それらの領域や画像から特定の性質に基づいて分類される。 実数値函数の重要な性質は凸性であり、熱力学や幾何学など多くの分野で非常に重要な役割を果たす。 量子計算の最近の進歩と量子優位性の探求により、最適化、機械学習、物理学など、複数の文脈で頻繁に現れる多項式関数の凸性をテストするための量子アルゴリズムを提供する。 量子コンピュータは、変数の数に関して、古典的コンピュータよりも極端に高速な凸性を明らかにすることができることを示す。 結論として、Rebentrost et al [New J. Phys] の初期の研究で構築された量子ニュートン法について、大幅な改善と拡張を提供する。 \textbf{21} 073023 (2019)] さらに、多様体の幾何学的構造の研究への潜在的な応用、変分量子アルゴリズムのトレーニングランドスケープのテスト、勾配降下/ニュートンの最適化など、より広い文脈で我々のアルゴリズムを議論する。

Functions are a fundamental object in mathematics, with countless applications to different fields, and are usually classified based on certain properties, given their domains and images. An important property of a real-valued function is its convexity, which plays a very crucial role in many areas, such as thermodynamics and geometry. Motivated by recent advances in quantum computation as well as the quest for quantum advantage, we give a quantum algorithm for testing convexity of polynomial functions, which appears frequently in multiple contexts, such as optimization, machine learning, physics, etc. We show that quantum computers can reveal the convexity property superpolynomially faster than classical computers with respect to number of variables. As a corollary, we provide a significant improvement and extension on quantum Newton's method constructed in earlier work of Rebentrost et al [New J. Phys. \textbf{21} 073023 (2019)]. We further discuss our algorithm in a broader context, such as potential application in the study of geometric structure of manifold, testing training landscape of variational quantum algorithm and also gradient descent/Newton's method for optimization.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# 自動走行におけるクルーズ制御のためのヨロPPAに基づく効率的な交通信号検出

YOLO-PPA based Efficient Traffic Sign Detection for Cruise Control in Autonomous Driving ( http://arxiv.org/abs/2409.03320v1 )

ライセンス: Link先を確認
Jingyu Zhang, Wenqing Zhang, Chaoyi Tan, Xiangtian Li, Qianyi Sun, (参考訳) 自律運転システムにおいて,交通標識を効率的にかつ正確に検出することが重要である。 しかし、距離が遠くなるほど、交通量も小さくなる。 既存の物体検出アルゴリズムでは、これらの小さな標識を検出できないため、車載装置の性能は検出モデルの規模を制限し、これらの課題に対処するために、YOLO PPAベースの交通標識検出アルゴリズムを提案し、GTSDBデータセットの実験結果から、提案手法は元のYOLOと比較して、推論効率を11.2%向上させることを示した。 mAP 50も93.2%改善され、提案されたYOLO PPAの有効性が示された。

It is very important to detect traffic signs efficiently and accurately in autonomous driving systems. However, the farther the distance, the smaller the traffic signs. Existing object detection algorithms can hardly detect these small scaled signs.In addition, the performance of embedded devices on vehicles limits the scale of detection models.To address these challenges, a YOLO PPA based traffic sign detection algorithm is proposed in this paper.The experimental results on the GTSDB dataset show that compared to the original YOLO, the proposed method improves inference efficiency by 11.2%. The mAP 50 is also improved by 93.2%, which demonstrates the effectiveness of the proposed YOLO PPA.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# トポロジカル量子誤差補正における非均一ノイズ速度とグリフィス相

Non-Uniform Noise Rates and Griffiths Phases in Topological Quantum Error Correction ( http://arxiv.org/abs/2409.03325v1 )

ライセンス: Link先を確認
Adithya Sriram, Nicholas O'Dea, Yaodong Li, Tibor Rakovszky, Vedika Khemani, (参考訳) 量子誤り訂正(QEC)符号の性能は時空間的に均一な誤り率を仮定してしばしば研究される。 一方、実験的な実装はほとんどの場合、不完全な製造や宇宙線などの効果により、空間または時間において、不均一なエラー率を生成する。 したがって、QECが質的な方法において、その存在がQECのパフォーマンスにどのように影響するかを理解することが重要である。 本研究では,1次元反復符号と2次元トーリック符号の代表的な例における非一様誤差率の影響について検討し,時空間相関を拡張した場合に着目した。 これらの効果はデコードのための対応する統計力学モデルで説明でき、誤り率の長距離相関によりより弱い結合領域が拡張される。 希少な領域が線形な1次元繰り返し符号では、符号距離に比例して論理的故障率が指数関数的に減衰する従来の順序相と、破壊率をパラメトリック的に大きくし、拡張指数として減衰する希少領域支配のグリフィス相の2つの相が存在する。 特に、希少領域の誤差率がバルクしきい値以上である場合、後者相が存在する。 稀な領域が平面である2Dトーリック符号では、デオード可能なグリフィス位相は見つからない: バルクしきい値を超えるエラー率を上昇させる稀な事象は、漸近的に閾値が失われ、復号できない。 障害機構を解き放つことは、繰り返し発生するまれな事象(介入なしに統計的に高い確率で存在している)の列を抑える技術が、トーリックコードでQECにとって重要であることを意味している。

The performance of quantum error correcting (QEC) codes are often studied under the assumption of spatio-temporally uniform error rates. On the other hand, experimental implementations almost always produce heterogeneous error rates, in either space or time, as a result of effects such as imperfect fabrication and/or cosmic rays. It is therefore important to understand if and how their presence can affect the performance of QEC in qualitative ways. In this work, we study effects of non-uniform error rates in the representative examples of the 1D repetition code and the 2D toric code, focusing on when they have extended spatio-temporal correlations; these may arise, for instance, from rare events (such as cosmic rays) that temporarily elevate error rates over the entire code patch. These effects can be described in the corresponding statistical mechanics models for decoding, where long-range correlations in the error rates lead to extended rare regions of weaker coupling. For the 1D repetition code where the rare regions are linear, we find two distinct decodable phases: a conventional ordered phase in which logical failure rates decay exponentially with the code distance, and a rare-region dominated Griffiths phase in which failure rates are parametrically larger and decay as a stretched exponential. In particular, the latter phase is present when the error rates in the rare regions are above the bulk threshold. For the 2D toric code where the rare regions are planar, we find no decodable Griffiths phase: rare events which boost error rates above the bulk threshold lead to an asymptotic loss of threshold and failure to decode. Unpacking the failure mechanism implies that techniques for suppressing extended sequences of repeated rare events (which, without intervention, will be statistically present with high probability) will be crucial for QEC with the toric code.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# ユーザ中心のプライバシ保護を強化する - 拡散モデルと機械学習による対話型フレームワーク

Enhancing User-Centric Privacy Protection: An Interactive Framework through Diffusion Models and Machine Unlearning ( http://arxiv.org/abs/2409.03326v1 )

ライセンス: Link先を確認
Huaxi Huang, Xin Yuan, Qiyu Liao, Dadong Wang, Tongliang Liu, (参考訳) マルチメディアデータ分析の領域では、画像データセットの広範な使用が、そのようなデータ内のプライバシ保護に関する懸念をエスカレートしている。 現在の研究は、主にデータ共有または訓練された機械学習モデルのリリースにおけるプライバシー保護に焦点を当てている。 本研究は,データ共有とモデル公開の間,画像データのプライバシーを同時に保護する包括的プライバシー保護フレームワークのパイオニアである。 本稿では、生成機械学習モデルを用いて属性レベルで画像情報を修正するインタラクティブな画像プライバシ保護フレームワークを提案し、モデルパラメータのプライバシ保護に機械学習アルゴリズムを用いる。 ユーザインタラクションフレームワークは、生成された画像に対するユーザのフィードバックに基づいて、プライバシ保護強度の調整を可能にし、最大プライバシ保護とモデルパフォーマンスのバランスを損なう。 本フレームワークでは、画像中の属性情報を保護する差分プライバシー拡散モデルと、修正された画像データセット上でトレーニングされたモデルの効率的な更新を行う特徴未学習アルゴリズムの2つのモジュールをインスタンス化する。 提案手法は,様々な属性分類における顔データセットの既存手法よりも優れていた。

In the realm of multimedia data analysis, the extensive use of image datasets has escalated concerns over privacy protection within such data. Current research predominantly focuses on privacy protection either in data sharing or upon the release of trained machine learning models. Our study pioneers a comprehensive privacy protection framework that safeguards image data privacy concurrently during data sharing and model publication. We propose an interactive image privacy protection framework that utilizes generative machine learning models to modify image information at the attribute level and employs machine unlearning algorithms for the privacy preservation of model parameters. This user-interactive framework allows for adjustments in privacy protection intensity based on user feedback on generated images, striking a balance between maximal privacy safeguarding and maintaining model performance. Within this framework, we instantiate two modules: a differential privacy diffusion model for protecting attribute information in images and a feature unlearning algorithm for efficient updates of the trained model on the revised image dataset. Our approach demonstrated superiority over existing methods on facial datasets across various attribute classifications.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# ウイルスマシンのノーマルフォーム

Normal forms in Virus Machines ( http://arxiv.org/abs/2409.03327v1 )

ライセンス: Link先を確認
A. Ramírez-de-Arellano, F. G. C. Cabarle, D. Orellana-Martín, M. J. Pérez-Jiménez, (参考訳) 本稿では,ウイルスマシン(VM)の計算能力について検討する。 VMはウイルスの伝達と複製ネットワークにインスパイアされたコンピューティングパラダイムを提供する。 VMは、弧がチャネルと呼ばれる有向グラフと、ホスト間のウイルスオブジェクトの伝達を制御する命令グラフによって構成されるプロセス単位(ホストと呼ばれる)から構成される。 本研究は、正規形式を導入することで、VMの計算能力の理解を補完するものであり、これらの表現は、与えられた計算モデルの特徴を制限する。 私たちが通常の形式で制限しているいくつかの特徴には、 (a)ホストの数 (b)指示数、及び (c)各ホスト内のウイルスオブジェクトの個数。 VMの計算能力に関するいくつかの既知の結果を思い出した後、ネットワーク内のループのサイズ、有限集合、半線形集合、NREといった集合の族を新たに特徴づけることなど、通常の形式を与えます。

In the present work, we further study the computational power of virus machines (VMs in short). VMs provide a computing paradigm inspired by the transmission and replication networks of viruses. VMs consist of process units (called hosts) structured by a directed graph whose arcs are called channels and an instruction graph that controls the transmissions of virus objects among hosts. The present work complements our understanding of the computing power of VMs by introducing normal forms; these expressions restrict the features in a given computing model. Some of the features that we restrict in our normal forms include (a) the number of hosts, (b) the number of instructions, and (c) the number of virus objects in each host. After we recall some known results on the computing power of VMs we give our normal forms, such as the size of the loops in the network, proving new characterisations of family of sets, such as the finite sets, semilinear sets, or NRE.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# Pareto Set Prediction Assisted Bilevel Multi-Objective Optimization (特集:情報ネットワーク)

Pareto Set Prediction Assisted Bilevel Multi-objective Optimization ( http://arxiv.org/abs/2409.03328v1 )

ライセンス: Link先を確認
Bing Wang, Hemant K. Singh, Tapabrata Ray, (参考訳) 両レベル最適化問題は、制約として下位レベル最適化タスクを含む上位レベル最適化タスクを構成する。 進化的計算を用いて、両レベルでの単一目的による二段階問題の解法に特化して研究されているが、両レベルでの多目的問題(BLMOP)に対処する作業は比較的少ない。 ブラックボックスの BLMOP の場合、既存の進化的手法はネストされた探索を利用するのが一般的である。 そこで本研究では, 最適化をスクラッチから行うのではなく, 候補の上層解に対して設定した低レベルParetoを直接予測することで, コストを削減することを提案する。 このような予測は、一対多のマッピングシナリオを含むため、BLMOPにとって非常に難しい。 我々は、ヘルパー変数を使用してデータセットを補完し、ニューラルネットワークを構築することで、このボトルネックを解決する。 次に、この初期化を、Pareto集合予測支援進化的二段階多目的最適化(PSP-BLEMO)と呼ばれる二段階最適化フレームワークに組み込む。 既存の最先端手法によるシステム実験を行い、その利点を実証する。 実験により, 提案手法は, 知覚的問題と非知覚的問題の両方を含む, 様々な問題に対して競合することを示した。

Bilevel optimization problems comprise an upper level optimization task that contains a lower level optimization task as a constraint. While there is a significant and growing literature devoted to solving bilevel problems with single objective at both levels using evolutionary computation, there is relatively scarce work done to address problems with multiple objectives (BLMOP) at both levels. For black-box BLMOPs, the existing evolutionary techniques typically utilize nested search, which in its native form consumes large number of function evaluations. In this work, we propose to reduce this expense by predicting the lower level Pareto set for a candidate upper level solution directly, instead of conducting an optimization from scratch. Such a prediction is significantly challenging for BLMOPs as it involves one-to-many mapping scenario. We resolve this bottleneck by supplementing the dataset using a helper variable and construct a neural network, which can then be trained to map the variables in a meaningful manner. Then, we embed this initialization within a bilevel optimization framework, termed Pareto set prediction assisted evolutionary bilevel multi-objective optimization (PSP-BLEMO). Systematic experiments with existing state-of-the-art methods are presented to demonstrate its benefit. The experiments show that the proposed approach is competitive across a range of problems, including both deceptive and non-deceptive problems
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# 半教師付きスパースガウス分類:ラベルなしデータの有益性

Semi-Supervised Sparse Gaussian Classification: Provable Benefits of Unlabeled Data ( http://arxiv.org/abs/2409.03335v1 )

ライセンス: Link先を確認
Eyar Azar, Boaz Nadler, (参考訳) 半教師付き学習(SSL)の前提は、ラベル付きデータとラベルなしデータを組み合わせることで、より正確なモデルが得られることである。 経験的な成功にもかかわらず、SSLの理論的理解はまだ完成には程遠い。 本研究では,高次元スパースガウス分類のためのSSLについて検討する。 正確な分類器を構築するために、キータスクは特徴選択であり、2つのクラスを分離する少数の変数を検出する。 % このSSL設定では, 精度の高い特徴選択のための情報理論的下界と計算的下界を, 低次度硬度予想を仮定して解析する。 % 我々の重要な貢献は、SSLが分類に有利であることが保証されている問題パラメータ(寸法、疎度、ラベル付きサンプル数、ラベルなしサンプル数)における状態の同定である。 具体的には、正確なSSL分類器を多項式時間で構築できる体制が存在する。 しかし、ラベル付きまたはラベルなしのデータのみを別々に使用する計算効率のよい教師なしまたは教師なしの学習スキームは失敗する。 我々の研究は、ラベル付きデータとラベルなしデータを組み合わせて高次元の特徴選択を行うという、証明可能な利点を強調している。 理論的解析を補完するシミュレーションを提案する。

The premise of semi-supervised learning (SSL) is that combining labeled and unlabeled data yields significantly more accurate models. Despite empirical successes, the theoretical understanding of SSL is still far from complete. In this work, we study SSL for high dimensional sparse Gaussian classification. To construct an accurate classifier a key task is feature selection, detecting the few variables that separate the two classes. % For this SSL setting, we analyze information theoretic lower bounds for accurate feature selection as well as computational lower bounds, assuming the low-degree likelihood hardness conjecture. % Our key contribution is the identification of a regime in the problem parameters (dimension, sparsity, number of labeled and unlabeled samples) where SSL is guaranteed to be advantageous for classification. Specifically, there is a regime where it is possible to construct in polynomial time an accurate SSL classifier. However, % any computationally efficient supervised or unsupervised learning schemes, that separately use only the labeled or unlabeled data would fail. Our work highlights the provable benefits of combining labeled and unlabeled data for {classification and} feature selection in high dimensions. We present simulations that complement our theoretical analysis.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# 超音波エコーによる屋内シーン深度マップの推定

Eetimating Indoor Scene Depth Maps from Ultrasonic Echoes ( http://arxiv.org/abs/2409.03336v1 )

ライセンス: Link先を確認
Junpei Honma, Akisato Kimura, Go Irie, (参考訳) 屋内シーンの3次元幾何学的構造を測定するには専用の深度センサーが必要であるが、必ずしも利用できない。 エコーに基づく深度推定は、最近、有望な代替ソリューションとして研究されている。 過去の研究はすべて、可聴域におけるエコーの使用を前提としている。 しかし、1つの大きな問題は、可聴エコーが静かな空間や、可聴音の生成が禁止されている他の状況では使用できないことである。 本稿では,難聴エコーを用いたエコーに基づく深度推定について考察する。 超音波は理論上高い測定精度を提供するが、ノイズに敏感で減衰しにくいため、超音波を用いた場合の実際の深さ推定精度は未定である。 まず、音源の周波数を高周波帯域に制限した場合の深さ推定精度について検討し、周波数を超音波範囲に制限した場合の精度が低下することを確認した。 そこで本研究では,訓練中のみの補助データとして可聴エコーを用いた超音波エコーによる深度推定の精度を向上させるための新しい深度学習法を提案する。 パブリックデータセットによる実験結果から,提案手法は推定精度を向上することが示された。

Measuring 3D geometric structures of indoor scenes requires dedicated depth sensors, which are not always available. Echo-based depth estimation has recently been studied as a promising alternative solution. All previous studies have assumed the use of echoes in the audible range. However, one major problem is that audible echoes cannot be used in quiet spaces or other situations where producing audible sounds is prohibited. In this paper, we consider echo-based depth estimation using inaudible ultrasonic echoes. While ultrasonic waves provide high measurement accuracy in theory, the actual depth estimation accuracy when ultrasonic echoes are used has remained unclear, due to its disadvantage of being sensitive to noise and susceptible to attenuation. We first investigate the depth estimation accuracy when the frequency of the sound source is restricted to the high-frequency band, and found that the accuracy decreased when the frequency was limited to ultrasonic ranges. Based on this observation, we propose a novel deep learning method to improve the accuracy of ultrasonic echo-based depth estimation by using audible echoes as auxiliary data only during training. Experimental results with a public dataset demonstrate that our method improves the estimation accuracy.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# ダイヤモンド中の窒素空孔中心とナノスケール電子核二重共鳴の4次電力低減

Four-order power reduction in nanoscale electron-nuclear double resonance with a nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2409.03339v1 )

ライセンス: Link先を確認
Zhiyi Hu, Fengjian Jiang, Jingyan He, Yulin Dai, Ya Wang, Nanyang Xu, Jiangfeng Du, (参考訳) 単一窒素空力(NV)中心を用いた核スピンの検出は、ナノスケールの科学と工学において特に重要であるが、スピン操作のためのマイクロ波の加熱効果に悩まされることが多い。 ここでは、位相変調電子-核二重共鳴法によるエネルギー効率の良いナノスピン検出を実現する。 マイクロ波場は以前の要件の1/250に還元でき、対応する電力は4桁以上減少する。 一方、マイクロ波によるスペクトルの線幅の拡大は著しくキャンセルされ、1840Gsの磁場下で分解能を2.1kHzまで下げた核スピンスペクトルが得られる。 実験的な制御精度を向上することにより、スペクトル分解能をさらに向上させることができる。 このスキームはマイクロ波場を感知するのにも使用でき、将来的には幅広い用途に拡張される。

Detecting nuclear spins using single Nitrogen-Vacancy (NV) centers is of particular importance in nano-scale science and engineering, but often suffers from the heating effect of microwave fields for spin manipulation, especially under high magnetic fields. Here, we realize an energy-efficient nano-scale nuclear-spin detection using a phase-modulation electron-nuclear double resonance scheme. The microwave field can be reduced to 1/250 of previous requirements and the corresponding power is over four orders lower. Meanwhile, the microwave-induced broadening to the line-width of the spectroscopy is significantly canceled and we achieve a nuclear-spin spectrum with a resolution down to 2.1 kHz under a magnetic field at 1840 Gs. The spectral resolution can be further improved by upgrading the experimental control precision. This scheme can also be used in sensing microwave fields and extended to a wide range of applications in the future.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# 光子アーリバル時間解析によるダイヤモンド中の窒素-原子価ハイブリッドスピン量子レジスタの直接読み出し

Direct Readout of Nitrogen-Vacancy Hybrid-Spin Quantum Register in Diamond by Photon Arrival Time Analysis ( http://arxiv.org/abs/2409.03341v1 )

ライセンス: Link先を確認
Jingyan He, Yu Tian, Zhiyi Hu, Runchuan Ye, Xiangyu Wang, Dawei Lu, Nanyang Xu, (参考訳) 量子状態の読み出しは、量子技術において重要な役割を担い、センシング、計算、セキュアな通信の用途にまたがる。 本研究では, ダイヤモンドの窒素空孔中心におけるハイブリットスピン状態の集団を, 励起状態レベルの反交差機構を約500Gsで利用し, 効率よく読み取る方法を提案する。 このアプローチを通じてスピン状態の集団を読むことは、従来の量子状態対角線トモグラフィと同等の結果を得るが、忠実性を維持しながら実験時間を桁違いに減少させる。 さらに、このアプローチは全状態トモグラフィを包含するように拡張することができ、これにより、一連のスピン操作の要求を回避し、手続き全体を通してデコヒーレンスによって引き起こされるエラーを軽減できる。

Quantum state readout plays a pivotal role in quantum technologies, spanning applications in sensing, computation, and secure communication. In this work, we introduce a new approach for efficiently reading populations of hybrid-spin states in the nitrogen-vacancy center of diamond using a single laser pulse, which utilizes the excited state level anti-crossing mechanism at around 500 Gs. Reading spin state populations through this approach achieves the same outcome as traditional quantum state diagonal tomography but significantly reduces the experimental time by an order of magnitude while maintaining fidelity. Moreover, this approach may be extended to encompass full-state tomography, thereby obviating the requirement for a sequence of spin manipulations and mitigating errors induced by decoherence throughout the procedure.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# DPトレーニングの知識を生かしたプライバシ・ユーティリティのトレードオフ再考

Rethinking Improved Privacy-Utility Trade-off with Pre-existing Knowledge for DP Training ( http://arxiv.org/abs/2409.03344v1 )

ライセンス: Link先を確認
Yu Zheng, Wenchao Zhang, Yonggang Zhang, Wei Song, Kai Zhou, Bo Han, (参考訳) 差分プライバシー(DP)は、プライバシーに敏感なデータセット上でランダムなメカニズムをカスタマイズすることで個人を保護するための証明可能なフレームワークを提供する。 ディープラーニングモデルは、メンバーシップレベルのプライバシリークを意図せずに記録する確立した学習モデルとして、モデル露出におけるプライバシリスクを実証している。 バックプロパゲーションの勾配更新にランダムなガウスノイズを加えることにより、個人を保護するための個人的確率勾配降下(DP-SGD)が提案されている。 DP-SGDは、注入された均質ノイズが各イテレーションで計算された勾配更新を変更するため、一般的に実用的損失を引き起こす。 すなわち、モデルパラメータの更新の重要性にかかわらず、勾配内のすべての要素が汚染される。 本研究は, 入射騒音の均一性に起因する実用性損失について論じる。 そこで本研究では,その特性を抽象化する異種ランダム機構を定義することによって,異種ノイズ(DP-Hero)を持つ一般微分プライバシーフレームワークを提案する。 DP-Heroの洞察は、事前訓練されたモデルに符号化された知識を活用して、その後のノイズの不均一性の配分を誘導し、統計的摂動を活用し、有効性を向上させることである。 DP-Hero上では、勾配に注入されたノイズが不均一であり、予め確立されたモデルパラメータによって誘導されるDP-SGDの異種バージョンをインスタンス化する。 提案するDP-Heroの有効性を検証・説明するための総合的な実験を行い,最新技術と比較するとトレーニング精度が向上した。 筆者らは,事前学習モデルに符号化された既存の漏洩知識からノイズガイダンスを学習し,実用性向上型DPトレーニングの理解の異なる視点を示すことにより,プライバシユーティリティ空間の改善に光を当てた。

Differential privacy (DP) provides a provable framework for protecting individuals by customizing a random mechanism over a privacy-sensitive dataset. Deep learning models have demonstrated privacy risks in model exposure as an established learning model unintentionally records membership-level privacy leakage. Differentially private stochastic gradient descent (DP- SGD) has been proposed to safeguard training individuals by adding random Gaussian noise to gradient updates in the backpropagation. Researchers identify that DP-SGD typically causes utility loss since the injected homogeneous noise alters the gradient updates calculated at each iteration. Namely, all elements in the gradient are contaminated regardless of their importance in updating model parameters. In this work, we argue that the utility loss mainly results from the homogeneity of injected noise. Consequently, we propose a generic differential privacy framework with heterogeneous noise (DP-Hero) by defining a heterogeneous random mechanism to abstract its property. The insight of DP-Hero is to leverage the knowledge encoded in the previously trained model to guide the subsequent allocation of noise heterogeneity, thereby leveraging the statistical perturbation and achieving enhanced utility. Atop DP-Hero, we instantiate a heterogeneous version of DP-SGD, where the noise injected into gradients is heterogeneous and guided by prior-established model parameters. We conduct comprehensive experiments to verify and explain the effectiveness of the proposed DP-Hero, showing improved training accuracy compared with state-of-the-art works. Broadly, we shed light on improving the privacy-utility space by learning the noise guidance from the pre-existing leaked knowledge encoded in the previously trained model, showing a different perspective of understanding the utility-improved DP training.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# Sketch: LLM操作の合理化のためのツールキット

Sketch: A Toolkit for Streamlining LLM Operations ( http://arxiv.org/abs/2409.03346v1 )

ライセンス: Link先を確認
Xin Jiang, Xiang Li, Wenjia Ma, Xuezhi Fang, Yiqun Yao, Naitong Yu, Xuying Meng, Peng Han, Jing Li, Aixin Sun, Yequan Wang, (参考訳) GPTファミリーに代表される大規模言語モデル (LLM) は目覚ましい成功を収めた。 LLMの特徴は、生成的アプローチを通じて幅広いタスクに対応する能力にある。 しかし、それらの出力フォーマットの柔軟性は、モデルの出力を制御し、利用することの難しさを招き、様々な領域におけるLCMの適用を制限します。 本研究では,多分野にわたるLCM操作の合理化を目的とした革新的なツールキットであるSketchを紹介する。 スケッチは,(1)様々なNLPタスクを含むタスク記述スキーマとプロンプトテンプレートのスイート,(2)構造化された出力を構築するためのユーザフレンドリでインタラクティブなプロセス,(3)出力フォーマット制御のためのオープンソースデータセット,(3)データセット構築ツール,(4)LLaMA3-8B-Instructをベースとしたオープンソースモデル。 様々なアプリケーションで「プラグ・アンド・プレイ」という目標を達成し、LCMユーザーにかなりの利便性をもたらすことを期待する。 Sketchのコンポーネントは、https://github.com/cofe-ai/Sketch.comで徐々にオープンソース化される。

Large language models (LLMs) represented by GPT family have achieved remarkable success. The characteristics of LLMs lie in their ability to accommodate a wide range of tasks through a generative approach. However, the flexibility of their output format poses challenges in controlling and harnessing the model's outputs, thereby constraining the application of LLMs in various domains. In this work, we present Sketch, an innovative toolkit designed to streamline LLM operations across diverse fields. Sketch comprises the following components: (1) a suite of task description schemas and prompt templates encompassing various NLP tasks; (2) a user-friendly, interactive process for building structured output LLM services tailored to various NLP tasks; (3) an open-source dataset for output format control, along with tools for dataset construction; and (4) an open-source model based on LLaMA3-8B-Instruct that adeptly comprehends and adheres to output formatting instructions. We anticipate this initiative to bring considerable convenience to LLM users, achieving the goal of ''plug-and-play'' for various applications. The components of Sketch will be progressively open-sourced at https://github.com/cofe-ai/Sketch.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# ハミルトン運動方程式の量子化

Quantization of the Hamilton Equations of Motion ( http://arxiv.org/abs/2409.03348v1 )

ライセンス: Link先を確認
Ramon Jose C. Bagunu, Eric A. Galapon, (参考訳) 量子力学の基本的な問題の1つは、実験的な測定に対応する古典的な観測可能な正しい量子像を見つけることである。 我々は、ハミルトンの運動方程式の量子アナログに従うハミルトニアンを生じる適切な量子化規則について検討する。 このタイプの微分に意味を与えるため、ボルンとヨルダンは第1型の微分商と第2型の微分商という2つの定義を確立した。 本稿では、第1型の微分商の定義を変更し、異なる量子化に対応する異なる基底作用素に対する第2型の微分商と整合性を確立する。 負のパワーを持つ作用素の微分や多重微分を含む理論および微分規則についても検討した。 ワイル、最も単純な対称、ボルン・ジョーダン量子化から得られるハミルトニアンが、運動の量子方程式の必要代数を全て満足していることが示される。

One of the fundamental problems in quantum mechanics is finding the correct quantum image of a classical observable that would correspond to experimental measurements. We investigate for the appropriate quantization rule that would yield a Hamiltonian that obeys the quantum analogue of Hamilton's equations of motion, which includes differentiation of operators with respect to another operator. To give meaning to this type of differentiation, Born and Jordan established two definitions called the differential quotients of first type and second type. In this paper we modify the definition for the differential quotient of first type and establish its consistency with the differential quotient of second type for different basis operators corresponding to different quantizations. Theorems and differentiation rules including differentiation of operators with negative powers and multiple differentiation were also investigated. We show that the Hamiltonian obtained from Weyl, simplest symmetric, and Born-Jordan quantization all satisfy the required algebra of the quantum equations of motion.
翻訳日:2024-09-06 21:20:12 公開日:2024-09-05
# ハイブリッドオートエンコーダを用いた変分量子分類器の性能向上

Enhancing the performance of Variational Quantum Classifiers with hybrid autoencoders ( http://arxiv.org/abs/2409.03350v1 )

ライセンス: Link先を確認
G. Maragkopoulos, A. Mandilara, A. Tsili, D. Syvridis, (参考訳) 変分量子回路(VQC)は量子機械学習研究の最前線にある。 それでも、実際のデータ処理に量子ネットワークを使用することは、通常のアングル符号化シナリオを使用する場合、利用可能な量子ビットの数が大量のデータ次元に対応できないため、依然として困難である。 従来の特徴を量子ビットに埋め込む前に,主成分分析を前処理法として常用する。 本研究では,特定の量子埋め込みを考慮し,与えられたデータセットの次元性を低減する方法を提案する。 この方法は、VQCを用いた量子機械学習をより汎用的で高次元のデータセットに効果的にすることを目的としている。 2番目のステップでは、低遅延空間における情報の符号化に使用できる量子インスパイアされた古典的オートエンコーダモデルを提案する。 提案するモデルのパワーは数値実験によって示される。 提案手法は,VQCの性能を著しく向上させるとともに,2次モデルが古典的線形オートエンコーダよりも高い性能を示すことを示す。

Variational Quantum Circuits (VQC) lie at the forefront of quantum machine learning research. Still, the use of quantum networks for real data processing remains challenging as the number of available qubits cannot accommodate a large dimensionality of data --if the usual angle encoding scenario is used. To achieve dimensionality reduction, Principal Component Analysis is routinely applied as a pre-processing method before the embedding of the classical features on qubits. In this work, we propose an alternative method which reduces the dimensionality of a given dataset by taking into account the specific quantum embedding that comes after. This method aspires to make quantum machine learning with VQCs more versatile and effective on datasets of high dimension. At a second step, we propose a quantum inspired classical autoencoder model which can be used to encode information in low latent spaces. The power of our proposed models is exhibited via numerical tests. We show that our targeted dimensionality reduction method considerably boosts VQC's performance and we also identify cases for which the second model outperforms classical linear autoencoders in terms of reconstruction loss.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 環境システム科学におけるFAIR時系列データ管理のためのデジタル生態系

Digital Ecosystem for FAIR Time Series Data Management in Environmental System Science ( http://arxiv.org/abs/2409.03351v1 )

ライセンス: Link先を確認
J. Bumberger, M. Abbrent, N. Brinckmann, J. Hemmen, R. Kunkel, C. Lorenz, P. Lünenschloß, B. Palm, T. Schnicke, C. Schulz, H. van der Schaaf, D. Schäfer, (参考訳) 気候変動、生物多様性の喪失、環境汚染による課題に対処するには、環境システム科学の様々な分野に適用可能な包括的な監視と効果的なデータ管理戦略が必要である。 本稿では、FAIRの原則(Findable、Accessible、Interoperable、Reusable)に準拠した時系列データを管理するための汎用的で転送可能なデジタルエコシステムを提案する。 システムは高度に適応可能で、クラウド対応で、小規模プロジェクトから大規模監視イニシアチブまで幅広い環境でのデプロイメントに適している。 エコシステムは、詳細なメタデータの登録と管理のためのSensor Management System(SMS)、効率的な時系列データストレージ、転送、リアルタイム可視化のためのプラットフォームであるTime.IO、リアルタイム分析と品質保証によるデータの整合性を保証する自動品質制御システム(SaQC)の3つのコアコンポーネントから構成されている。 モジュールアーキテクチャと標準化されたプロトコルとインターフェースを組み合わせることで、エコシステムをさまざまな環境や機関に簡単に移行し、デプロイできるようになります。 このアプローチは、研究者、政策立案者、一般の人々を含む幅広い利害関係者に対するデータアクセシビリティを高め、協調を促進し、環境モニタリングにおける科学的研究を促進する。

Addressing the challenges posed by climate change, biodiversity loss, and environmental pollution requires comprehensive monitoring and effective data management strategies that are applicable across various scales in environmental system science. This paper introduces a versatile and transferable digital ecosystem for managing time series data, designed to adhere to the FAIR principles (Findable, Accessible, Interoperable, and Reusable). The system is highly adaptable, cloud-ready, and suitable for deployment in a wide range of settings, from small-scale projects to large-scale monitoring initiatives. The ecosystem comprises three core components: the Sensor Management System (SMS) for detailed metadata registration and management; time.IO, a platform for efficient time series data storage, transfer, and real-time visualization; and the System for Automated Quality Control (SaQC), which ensures data integrity through real-time analysis and quality assurance. The modular architecture, combined with standardized protocols and interfaces, ensures that the ecosystem can be easily transferred and deployed across different environments and institutions. This approach enhances data accessibility for a broad spectrum of stakeholders, including researchers, policymakers, and the public, while fostering collaboration and advancing scientific research in environmental monitoring.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 教室監視画像における活動認識のためのFew-Shot連続学習

Few-Shot Continual Learning for Activity Recognition in Classroom Surveillance Images ( http://arxiv.org/abs/2409.03354v1 )

ライセンス: Link先を確認
Yilei Qian, Kanglei Geng, Kailong Chen, Shaoxu Cheng, Linfeng Xu, Hongliang Li, Fanman Meng, Qingbo Wu, (参考訳) 「AI+教育」分野における活動認識の応用が注目されている。 しかし,本研究は,手動撮影ビデオにおける活動の認識と,少数の活動タイプに着目し,実際の教室からの監視画像における活動の認識にはほとんど注意を払わない。 実際の教室環境では、読書などの通常の授業活動がサンプルの多さを担っているのに対して、食事のような稀な非教育活動は現れ続けている。 これは、通常の授業活動を忘れることなく、少数のサンプルから非教育活動を学ぶことができるモデルが必要であり、これは、少点連続学習(FSCL)能力を必要とする。 そこで我々は,ARIC(Activity Recognition in Classroom)と呼ばれる,教室の監視画像のアクティビティ認識に着目した連続学習データセットを構築した。 データセットには、複数の視点、多様なアクティビティ、現実世界のシナリオといったメリットがあるが、同様のアクティビティや不均衡なサンプル分布といった課題も提示する。 これらの課題を克服するために、教師付きコントラスト学習(SCL)と適応型共分散分類器(ACC)を組み合わせた数ショット連続学習法を設計した。 基本段階において,モデルの一般化能力を高めるため,特徴拡張に基づくSCL手法を提案する。 段階的な段階では、新しいクラスの分布をより正確に記述するためにACCを使用しました。 実験の結果,本手法はARICデータセット上の既存手法よりも優れていることがわかった。

The application of activity recognition in the "AI + Education" field is gaining increasing attention. However, current work mainly focuses on the recognition of activities in manually captured videos and a limited number of activity types, with little attention given to recognizing activities in surveillance images from real classrooms. In real classroom settings, normal teaching activities such as reading, account for a large proportion of samples, while rare non-teaching activities such as eating, continue to appear. This requires a model that can learn non-teaching activities from few samples without forgetting the normal teaching activities, which necessitates fewshot continual learning (FSCL) capability. To address this gap, we constructed a continual learning dataset focused on classroom surveillance image activity recognition called ARIC (Activity Recognition in Classroom). The dataset has advantages such as multiple perspectives, a wide variety of activities, and real-world scenarios, but it also presents challenges like similar activities and imbalanced sample distribution. To overcome these challenges, we designed a few-shot continual learning method that combines supervised contrastive learning (SCL) and an adaptive covariance classifier (ACC). During the base phase, we proposed a SCL approach based on feature augmentation to enhance the model's generalization ability. In the incremental phase, we employed an ACC to more accurately describe the distribution of new classes. Experimental results demonstrate that our method outperforms other existing methods on the ARIC dataset.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# MouseSIS: マウスの時空インスタンスセグメンテーションのためのフレーム・アンド・イベントデータセット

MouseSIS: A Frames-and-Events Dataset for Space-Time Instance Segmentation of Mice ( http://arxiv.org/abs/2409.03358v1 )

ライセンス: Link先を確認
Friedhelm Hamann, Hanxiong Li, Paul Mieske, Lars Lewejohann, Guillermo Gallego, (参考訳) ビデオ内のオブジェクトの追跡とセグメンテーションは、大規模なアノテートデータセットによって実現され、近年顕著な進歩を遂げている。 これらの進歩にもかかわらず、アルゴリズムは依然として劣化した状態と速い動きの中で苦戦している。 イベントカメラは、高時間分解能と高ダイナミックレンジを備えた新しいセンサーであり、これらの課題に対処するための有望なアドバンテージを提供する。 しかし、学習ベースのマスクレベルの追跡アルゴリズムをイベントで開発するための注釈付きデータは利用できない。 この目的のために、センサー入力の全期間にわたってインスタンスをセグメンテーションすることを目的としているビデオインスタンスセグメンテーションに似た、‘emph{space-time instance segmentation}’と呼ばれる新しいタスク(ここでは、入力は準連続的なイベントであり、任意に整列されたフレームである)と、整列したグレースケールのフレームとイベントを含む新しいタスクのデータセットである($ii$) \emph{\dname}を紹介する。 注釈付き接地木ラベル(ピクセルレベルのインスタンスセグメンテーションマスク)が含まれており、最大7つのマウスが自由に動き、相互作用する。 また、従来のカメラと組み合わせることで、イベントデータを活用することにより、トラッキング性能が一貫して向上することを示す2つの参照手法も提供する。 結果は、困難なシナリオにおけるイベント支援トラッキングの可能性を強調している。 我々のデータセットは、イベントベースのビデオインスタンスセグメンテーションの分野を開放し、困難な状況に対するロバストなトラッキングアルゴリズムの開発を可能にすることを願っている。 \url{https://github.com/tub-rip/MouseSIS}

Enabled by large annotated datasets, tracking and segmentation of objects in videos has made remarkable progress in recent years. Despite these advancements, algorithms still struggle under degraded conditions and during fast movements. Event cameras are novel sensors with high temporal resolution and high dynamic range that offer promising advantages to address these challenges. However, annotated data for developing learning-based mask-level tracking algorithms with events is not available. To this end, we introduce: ($i$) a new task termed \emph{space-time instance segmentation}, similar to video instance segmentation, whose goal is to segment instances throughout the entire duration of the sensor input (here, the input are quasi-continuous events and optionally aligned frames); and ($ii$) \emph{\dname}, a dataset for the new task, containing aligned grayscale frames and events. It includes annotated ground-truth labels (pixel-level instance segmentation masks) of a group of up to seven freely moving and interacting mice. We also provide two reference methods, which show that leveraging event data can consistently improve tracking performance, especially when used in combination with conventional cameras. The results highlight the potential of event-aided tracking in difficult scenarios. We hope our dataset opens the field of event-based video instance segmentation and enables the development of robust tracking algorithms for challenging conditions.\url{https://github.com/tub-rip/MouseSIS}
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# QBER時系列解析によるQKDリンクのリアルタイム診断

Real-time diagnostics on a QKD link via QBER Time Series Analysis ( http://arxiv.org/abs/2409.03360v1 )

ライセンス: Link先を確認
G. Maragkopoulos, A. Mandilara, T. Nikas, D. Syvridis, (参考訳) メトロ光ネットワークにおけるQKDシステムの統合は、現在の技術状況で完全に解決できない課題を提起する。 本研究では、運用ネットワークにおける伝送中に量子チャネルで発生するさまざまな障害を識別するための方法論を考案する。 この手法は、QBERとSKRの時系列として使用される教師付きMLパイプラインを中心に構築されており、QKDシステムにこれ以上の介入を必要としない。 障害の特定はリアルタイムで行われ、そのような情報はインシデントを逆転することはできないが、これはユーザ、オペレータ、およびキー管理システムにとって有用である。

The integration of QKD systems in Metro optical networks raises challenges which cannot be completely resolved with the current technological status. In this work we devise a methodology for identifying different kind of impairments which may occur on the quantum channel during its transmission in an operational network. The methodology is built around a supervised ML pipeline which is using as input QBER and SKR time-series and requires no further interventions on the QKD system. The identification of impairments happens in real time and even though such information cannot reverse incidents, this can be valuable for users, operators and key management system.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# Con-ReCall:コントラストデコーディングによるLCMの事前学習データ検出

Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding ( http://arxiv.org/abs/2409.03363v1 )

ライセンス: Link先を確認
Cheng Wang, Yiwei Wang, Bryan Hooi, Yujun Cai, Nanyun Peng, Kai-Wei Chang, (参考訳) 大きな言語モデルのトレーニングデータは、その成功の鍵であるが、機密情報を含む可能性があるため、プライバシとセキュリティのリスクも提示する。 これらの懸念を緩和するためには、事前トレーニングデータの検出が不可欠だ。 既存の手法は、通常、対象のテキストを単独で分析するか、あるいは非メンバーコンテキストのみで分析し、メンバーコンテキストと非メンバーコンテキストの両方を同時に考慮することで潜在的な洞察を見越す。 以前の研究では、メンバーコンテキストは、それらが引き起こす小さな分布シフトのため、ほとんど情報を提供していないことを示唆していたが、我々の分析は、これらの微妙なシフトが、非メンバーコンテキストと対比した場合、効果的に活用できることを明らかにした。 本稿では,コントラストデコーディングによる非対称な分布変化を利用した新しい手法であるCon-ReCallを提案する。 Con-ReCallはWikiMIAベンチマークで最先端のパフォーマンスを実現しており、様々なテキスト操作技術に対して堅牢である。

The training data in large language models is key to their success, but it also presents privacy and security risks, as it may contain sensitive information. Detecting pre-training data is crucial for mitigating these concerns. Existing methods typically analyze target text in isolation or solely with non-member contexts, overlooking potential insights from simultaneously considering both member and non-member contexts. While previous work suggested that member contexts provide little information due to the minor distributional shift they induce, our analysis reveals that these subtle shifts can be effectively leveraged when contrasted with non-member contexts. In this paper, we propose Con-ReCall, a novel approach that leverages the asymmetric distributional shifts induced by member and non-member contexts through contrastive decoding, amplifying subtle differences to enhance membership inference. Extensive empirical evaluations demonstrate that Con-ReCall achieves state-of-the-art performance on the WikiMIA benchmark and is robust against various text manipulation techniques.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 量子時計としての特性時間演算子

Characteristic time operators as quantum clocks ( http://arxiv.org/abs/2409.03364v1 )

ライセンス: Link先を確認
Ralph Adrian E. Farrales, Eric A. Galapon, (参考訳) 我々は、有界かつ自己随伴な特性時間作用素 $\operator{T}$ を考える。 エネルギー固有値が $\sum_s E_s^{-2} < \infty$ を満たす半有界かつ離散的なハミルトニアン $\operator{H}$ に対して、特性時間作用素はヒルベルト空間の密部分空間において、標準関係 $[\operator{T},\operator{H}]\ket{\psi}=i\hbar\ket{\psi}$ を満たす。 これらの有界時間作用素は共変ではないが、時間不変集合 $\mathscr{T}$ を言う全測度 0 の集合の集合の正準関係をまだ満たしていることを示す。 それぞれの時間 t$ in $\mathscr{T}$ の近傍では、この時間作用素 $\operator{T}$ は依然として $\operator{H}$ に正準共役であり、したがってパラメトリック時間とともに段階的に移動し、その期待値はパラメトリック時間を与える。 その二次元射影は$\mathscr{T}$ の近傍における時間-エネルギーの不確実性関係を飽和させ、パウリ行列 $\sigma_y$ に比例する。 したがって、互換性のある可観測値を測定することで、$\mathscr{T}$の近傍の時間を示す量子時計を構築することができる。 例えばラーモア時計では、スピン $\operator{S}_y$ の測定は、その周期の近傍でパラメトリック時間が得られる。

We consider the characteristic time operator $\operator{T}$ which is bounded and self-adjoint. For a semibounded and discrete Hamiltonian $\operator{H}$ whose energy eigenvalues satisfy $\sum_s E_s^{-2} < \infty$, the characteristic time operator satisfies the canonical relation $[\operator{T},\operator{H}]\ket{\psi}=i\hbar\ket{\psi}$ for $\ket{\psi}$ in a dense subspace of the Hilbert space. While these bounded time operators are not covariant, we show that they still satisfy the canonical relation in a set of times of total measure zero which we refer to as the time invariant set $\mathscr{T}$. In the neighborhood of each time $t$ in $\mathscr{T}$, this time operator $\operator{T}$ is still canonically conjugate to $\operator{H}$ and thus moves in step with parametric time, and its expectation value gives the parametric time. Its two-dimensional projection saturates the time-energy uncertainty relation in the neighborhood of $\mathscr{T}$, and is proportional to the Pauli matrix $\sigma_y$. Thus, one can construct a quantum clock that tells the time in the neighborhood of $\mathscr{T}$ by measuring a compatible observable. In a Larmor clock for example, measurement of the spin $\operator{S}_y$ can be used to yield the parametric time in the neighborhood of its period.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# データ不均一性を考慮したマルチタスク大規模モデルトレーニング

Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management ( http://arxiv.org/abs/2409.03365v1 )

ライセンス: Link先を確認
Yujie Wang, Shenhan Zhu, Fangcheng Fu, Xupeng Miao, Jie Zhang, Juan Zhu, Fan Hong, Yong Li, Bin Cui, (参考訳) 最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。 しかし、そのようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存の訓練システムに重大なモデル管理課題をもたらす。 高度なモデルアーキテクチャと異なるMLタスクとデータモダリティの不均一なワークロードのため、これらのモデルのトレーニングは通常、大量のGPUリソースを必要とし、サブ最適化システムの効率に悩まされる。 本稿では,データ不均一性を考慮したモデル管理最適化により,大規模MT MMモデルの高速トレーニングを実現する方法について検討する。 重要なアイデアは、モデル実行をステージに分解し、不均一性を認識したワークロード並列化と依存性駆動実行スケジューリングの両方を含む、共同最適化問題に順次対処することだ。 これに基づいてプロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。 実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。

Recent foundation models are capable of handling multiple machine learning (ML) tasks and multiple data modalities with the unified base model structure and several specialized model components. However, the development of such multi-task (MT) multi-modal (MM) models poses significant model management challenges to existing training systems. Due to the sophisticated model architecture and the heterogeneous workloads of different ML tasks and data modalities, training these models usually requires massive GPU resources and suffers from sub-optimal system efficiency. In this paper, we investigate how to achieve high-performance training of large-scale MT MM models through data heterogeneity-aware model management optimization. The key idea is to decompose the model execution into stages and address the joint optimization problem sequentially, including both heterogeneity-aware workload parallelization and dependency-driven execution scheduling. Based on this, we build a prototype system and evaluate it on various large MT MM models. Experiments demonstrate the superior performance and efficiency of our system, with speedup ratio up to 71% compared to state-of-the-art training systems.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# TBConvL-Net:ロバストな医用画像セグメンテーションのためのハイブリッドディープラーニングアーキテクチャ

TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image Segmentation ( http://arxiv.org/abs/2409.03367v1 )

ライセンス: Link先を確認
Shahzaib Iqbal, Tariq M. Khan, Syed S. Naqvi, Asim Naveed, Erik Meijering, (参考訳) ディープラーニングは、疾患診断の精度とスピードを改善するために、自動化された医用画像セグメンテーションの大きな可能性を示している。 しかし, この課題は, スケール, 形状, テクスチャ, コントラストの相違により, 重大な困難を伴っている。 従来の畳み込みニューラルネットワーク(CNN)モデルは、マルチスケールのコンテキスト情報を効果的にモデル化し、レベルを越えたスキップ接続間の情報インタラクションを容易にするという点において、一定の制限がある。 これらの制限を克服するために、CNNとビジョントランスフォーマーを利用して、医療画像セグメンテーションのための新しいディープラーニングアーキテクチャが導入された。 提案するTBConvL-Netは,CNNエンコーダ・デコーダアーキテクチャの局所的特徴と,両畳み込み長短メモリ(LSTM)ネットワークと視覚変換器(ViT)を用いた長期的・時間的依存関係を組み合わせたハイブリッドネットワークである。 これにより、モデルがデータ内のコンテキストチャネル関係をキャプチャし、時間とともにセグメンテーションの不確実性を考慮することが可能になる。 さらに, 予測出力と金標準とのセグメンテーションロバスト性およびバウンダリ合意を両立させる合成損失関数を導入する。 提案モデルでは、7つの異なる医用画像モダリティの10の公開データセットに対して、最先端のデータセットよりも一貫した改善が示される。

Deep learning has shown great potential for automated medical image segmentation to improve the precision and speed of disease diagnostics. However, the task presents significant difficulties due to variations in the scale, shape, texture, and contrast of the pathologies. Traditional convolutional neural network (CNN) models have certain limitations when it comes to effectively modelling multiscale context information and facilitating information interaction between skip connections across levels. To overcome these limitations, a novel deep learning architecture is introduced for medical image segmentation, taking advantage of CNNs and vision transformers. Our proposed model, named TBConvL-Net, involves a hybrid network that combines the local features of a CNN encoder-decoder architecture with long-range and temporal dependencies using biconvolutional long-short-term memory (LSTM) networks and vision transformers (ViT). This enables the model to capture contextual channel relationships in the data and account for the uncertainty of segmentation over time. Additionally, we introduce a novel composite loss function that considers both the segmentation robustness and the boundary agreement of the predicted output with the gold standard. Our proposed model shows consistent improvement over the state of the art on ten publicly available datasets of seven different medical imaging modalities.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 低消費電力・高性能応用のための訓練不要ANNからSNNへの変換

Training-free Conversion of Pretrained ANNs to SNNs for Low-Power and High-Performance Applications ( http://arxiv.org/abs/2409.03368v1 )

ライセンス: Link先を確認
Tong Bu, Maohua Li, Zhaofei Yu, (参考訳) 高速推論と低消費電力の利点により、スパイキングニューラルネットワーク(SNN)は、ANN(Artificial Neural Networks)の有望な代替品として登場した。 しかし、効率的なトレーニングアルゴリズムの欠如は、その普及を妨げている。 SNNの既存の教師付き学習アルゴリズムは、ANNのアルゴリズムよりもはるかに多くのメモリと時間を必要とする。 一般的に使われているANN-SNN変換法は変換効率を高めるためにANNの再訓練を必要とし、さらなる計算コストがかかる。 これらの課題に対処するために、トレーニング不要なANN-SNN変換パイプラインを提案する。 提案手法は,事前学習したANNモデルを,追加訓練を伴わずに,高性能なSNNに変換する。 変換パイプラインは、最適なしきい値の効率的な計算と、チャネルワイズスケーリングによるしきい値のきめ細かい調整を可能にする、局所学習ベースのしきい値バランスアルゴリズムを含む。 本稿では、画像分類、セマンティックセグメンテーション、オブジェクト検出という3つの典型的なコンピュータビジョンタスクにまたがるフレームワークのスケーラビリティを実証する。 これは、分類タスクと回帰タスクの両方に適用可能であることを示している。 さらに, 変換したSNNのエネルギー消費量を評価し, 従来のANNと比較して, 低消費電力の優位性を実証した。 トレーニング不要のアルゴリズムは既存の手法よりも優れており、実用性と効率性を強調している。 このアプローチは、オープンソースの事前訓練されたANNモデルとニューロモルフィックハードウェアを活用することにより、SNNのデプロイを単純化し、無視可能な性能低下を伴う高速で低消費電力な推論を可能にする。

Spiking Neural Networks (SNNs) have emerged as a promising substitute for Artificial Neural Networks (ANNs) due to their advantages of fast inference and low power consumption. However, the lack of efficient training algorithms has hindered their widespread adoption. Existing supervised learning algorithms for SNNs require significantly more memory and time than their ANN counterparts. Even commonly used ANN-SNN conversion methods necessitate re-training of ANNs to enhance conversion efficiency, incurring additional computational costs. To address these challenges, we propose a novel training-free ANN-SNN conversion pipeline. Our approach directly converts pre-trained ANN models into high-performance SNNs without additional training. The conversion pipeline includes a local-learning-based threshold balancing algorithm, which enables efficient calculation of the optimal thresholds and fine-grained adjustment of threshold value by channel-wise scaling. We demonstrate the scalability of our framework across three typical computer vision tasks: image classification, semantic segmentation, and object detection. This showcases its applicability to both classification and regression tasks. Moreover, we have evaluated the energy consumption of the converted SNNs, demonstrating their superior low-power advantage compared to conventional ANNs. Our training-free algorithm outperforms existing methods, highlighting its practical applicability and efficiency. This approach simplifies the deployment of SNNs by leveraging open-source pre-trained ANN models and neuromorphic hardware, enabling fast, low-power inference with negligible performance reduction.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 自然言語処理による大規模言語モデルの活用

Leveraging Large Language Models through Natural Language Processing to provide interpretable Machine Learning predictions of mental deterioration in real time ( http://arxiv.org/abs/2409.03375v1 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, (参考訳) 公式推計によると、世界中で5000万人が認知症に罹患しており、毎年1000万人の新規患者が増えている。 治療法がなければ、臨床予後と早期介入は、その進行を遅らせる最も効果的な方法である。 この目的のために、人工知能と計算言語学は自然言語分析、パーソナライズされたアセスメント、モニタリング、治療に活用することができる。 しかし、従来のアプローチでは、よりセマンティックな知識管理と説明可能性の能力が必要です。 さらに,認知低下診断にLarge Language Models (LLMs) を用いることは,知能システムを用いた臨床と臨床のコミュニケーションの最も進んだ方法であるにもかかわらず,依然として不十分である。 その結果、チャットボットソリューションにおける最新の自然言語処理(NLP)技術を用いてLLMを活用し、リアルタイムに認知低下の予測を行うことができる。 言語-概念的特徴は、適切な自然言語分析に利用される。 説明可能性を通じて、モデルの潜在的なバイアスに対処し、臨床労働者の診断決定を支援する可能性を向上させることを目的としている。 より詳しくは、提案されたパイプラインは、 i) NLPに基づくプロンプトエンジニアリングを用いたデータ抽出 二 特徴工学、分析及び選択を含むストリームベースのデータ処理 (三)リアルタイム分類、及び (4)予測結果の視覚的および自然言語的記述を提供する説明可能性ダッシュボード。 評価項目の分類結果は, 評価指標の80%を超え, 精神劣化学級のリコール値は約85%であった。 要約すると、私たちはこの研究に手頃で柔軟な、非侵襲的でパーソナライズされた診断システムを提供しています。

Based on official estimates, 50 million people worldwide are affected by dementia, and this number increases by 10 million new patients every year. Without a cure, clinical prognostication and early intervention represent the most effective ways to delay its progression. To this end, Artificial Intelligence and computational linguistics can be exploited for natural language analysis, personalized assessment, monitoring, and treatment. However, traditional approaches need more semantic knowledge management and explicability capabilities. Moreover, using Large Language Models (LLMs) for cognitive decline diagnosis is still scarce, even though these models represent the most advanced way for clinical-patient communication using intelligent systems. Consequently, we leverage an LLM using the latest Natural Language Processing (NLP) techniques in a chatbot solution to provide interpretable Machine Learning prediction of cognitive decline in real-time. Linguistic-conceptual features are exploited for appropriate natural language analysis. Through explainability, we aim to fight potential biases of the models and improve their potential to help clinical workers in their diagnosis decisions. More in detail, the proposed pipeline is composed of (i) data extraction employing NLP-based prompt engineering; (ii) stream-based data processing including feature engineering, analysis, and selection; (iii) real-time classification; and (iv) the explainability dashboard to provide visual and natural language descriptions of the prediction outcome. Classification results exceed 80 % in all evaluation metrics, with a recall value for the mental deterioration class about 85 %. To sum up, we contribute with an affordable, flexible, non-invasive, personalized diagnostic system to this work.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# Twitter上で、スポーツ、政治、ジャーナリズムにまたがる英国の公務員のオンライン虐待を分析する

Journalists are most likely to receive abuse: Analysing online abuse of UK public figures across sport, politics, and journalism on Twitter ( http://arxiv.org/abs/2409.03376v1 )

ライセンス: Link先を確認
Liam Burke-Moore, Angus R. Williams, Jonathan Bright, (参考訳) オンラインソーシャルメディアプラットフォームへの進出は、現代社会における公的な人物としての生活の重要な部分であり、幅広いオーディエンスとのつながりを可能にし、アイデアを広めるためのプラットフォームを提供する。 しかし、公人はしばしば、これらのプラットフォームで憎悪や虐待を受け、大衆の言論を損なう。 政治家やジャーナリストなどの団体が受けた虐待に関する重要な研究は存在するが、組織的・規模的に異なる公共団体間の虐待のダイナミクスの違いを理解するためにはほとんど行われていない。 これを解決するために、我々は3つのドメイン(議会、サッカー選手、ジャーナリスト)にわたる4,602人の英国人公開人物を対象にした4550万ツイートのデータセットを、微調整されたトランスフォーマーベースの言語モデルを用いて分析する。 国会議員は絶対的に虐待を受けることが多いが、ジャーナリストは他の要因をコントロールした後に虐待を受ける可能性が最も高い。 乱用は全てのグループに不均一に分散しており、少数の個人が乱用の大部分を受けており、一部のグループでは、乱用は時間的に不均一であり、特にサッカー選手にとって特定の出来事によって引き起こされる。 また、より顕著なオンラインの存在と男性であることは、すべての3つのドメインでより高いレベルの虐待を示唆していることもわかりました。

Engaging with online social media platforms is an important part of life as a public figure in modern society, enabling connection with broad audiences and providing a platform for spreading ideas. However, public figures are often disproportionate recipients of hate and abuse on these platforms, degrading public discourse. While significant research on abuse received by groups such as politicians and journalists exists, little has been done to understand the differences in the dynamics of abuse across different groups of public figures, systematically and at scale. To address this, we present analysis of a novel dataset of 45.5M tweets targeted at 4,602 UK public figures across 3 domains (members of parliament, footballers, journalists), labelled using fine-tuned transformer-based language models. We find that MPs receive more abuse in absolute terms, but that journalists are most likely to receive abuse after controlling for other factors. We show that abuse is unevenly distributed in all groups, with a small number of individuals receiving the majority of abuse, and that for some groups, abuse is more temporally uneven, being driven by specific events, particularly for footballers. We also find that a more prominent online presence and being male are indicative of higher levels of abuse across all 3 domains.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 深部空間モデリングによる生音声強調

Raw Speech Enhancement with Deep State Space Modeling ( http://arxiv.org/abs/2409.03377v1 )

ライセンス: Link先を確認
Yan Ru Pei, Ritik Shrivastava, FNU Sidharth, (参考訳) ATENNuateは、エンドツーエンドで効率的なオンライン生音声強調を実現するための、シンプルな状態空間オートエンコーダである。 ネットワークの性能は、主に生の音声認識で評価され、超分解能や非量子化などのタスクで評価される。 我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。 ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。 生波形処理モデルとしても、最小限の可聴アーチファクトを持つクリーン信号に対する忠実度を維持する。 さらに、ノイズ入力が4000Hzと4ビットに圧縮された場合でもモデルが動作し、低リソース環境における一般的な音声強調能力を示唆している。

We present aTENNuate, a simple deep state-space autoencoder configured for efficient online raw speech enhancement in an end-to-end fashion. The network's performance is primarily evaluated on raw speech denoising, with additional assessments on tasks such as super-resolution and de-quantization. We benchmark aTENNuate on the VoiceBank + DEMAND and the Microsoft DNS1 synthetic test sets. The network outperforms previous real-time denoising models in terms of PESQ score, parameter count, MACs, and latency. Even as a raw waveform processing model, the model maintains high fidelity to the clean signal with minimal audible artifacts. In addition, the model remains performant even when the noisy input is compressed down to 4000Hz and 4 bits, suggesting general speech enhancement capabilities in low-resource environments.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# 識別性による多体脱コヒーレンス

Distinguishability-induced many-body decoherence ( http://arxiv.org/abs/2409.03380v1 )

ライセンス: Link先を確認
Christoph Dittel, Andreas Buchleitner, (参考訳) 多体干渉(MBI)現象が粒子数において指数関数的に抑制されることを示し、干渉に導かれる同一の量子オブジェクトのみが、内部的、観測されていない自由度を統計的に混合することにより、有限レベルの識別性を得る。 低温原子とフォトニック回路実験の結果について論じる。

We show that many-body interference (MBI) phenomena are exponentially suppressed in the particle number, if only the identical quantum objects brought to interference acquire a finite level of distinguishability through statistical mixing of some internal, unobserved degrees of freedom. We discuss consequences for cold atom and photonic circuitry experiments.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# Cognidual Framework:認知タスク改善のためのデュアルシステム理論フレームワーク内での大規模言語モデルの自己学習

CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks ( http://arxiv.org/abs/2409.03381v1 )

ライセンス: Link先を確認
Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Chao Qu, Jing Pan, Yuan Cheng, Yinghui Xu, Wei Chu, (参考訳) 認知心理学は、知覚、注意、記憶、言語、問題解決、意思決定、推論を調査する。 カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。 近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。 それでも、LLMにおける人間の認知に類似した二重体系の枠組みの存在は未解明のままである。 本研究では, LLMの自己学習を通じて, 意図的な推論から直感的な応答へと進化し, 新たな情報の獲得と習得の過程をエミュレートすることを目的とした, CFLLM(textbf{Cognidual Framework for LLMs)を紹介した。 以上の結果から,LLMの反応生成の背景にある認知メカニズムが明らかとなり,認知心理学における認知能力の理解が深まることが示唆された。 実際、自己学習モデルは特定のクエリに対するより高速な応答を提供し、推論時の計算要求を減らすことができる。

Cognitive psychology investigates perception, attention, memory, language, problem-solving, decision-making, and reasoning. Kahneman's dual-system theory elucidates the human decision-making process, distinguishing between the rapid, intuitive System 1 and the deliberative, rational System 2. Recent advancements have positioned large language Models (LLMs) as formidable tools nearing human-level proficiency in various cognitive tasks. Nonetheless, the presence of a dual-system framework analogous to human cognition in LLMs remains unexplored. This study introduces the \textbf{CogniDual Framework for LLMs} (CFLLMs), designed to assess whether LLMs can, through self-training, evolve from deliberate deduction to intuitive responses, thereby emulating the human process of acquiring and mastering new information. Our findings reveal the cognitive mechanisms behind LLMs' response generation, enhancing our understanding of their capabilities in cognitive psychology. Practically, self-trained models can provide faster responses to certain queries, reducing computational demands during inference.
翻訳日:2024-09-06 21:10:19 公開日:2024-09-05
# LLMのハードウェアアクセラレーション:総合的な調査と比較

Hardware Acceleration of LLMs: A comprehensive survey and comparison ( http://arxiv.org/abs/2409.03384v1 )

ライセンス: Link先を確認
Nikoletta Koilia, Christoforos Kachris, (参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクの強力なツールとして登場し、人間のようなテキストを理解して生成する能力によって、フィールドに革命をもたらした。 本稿では,ハードウェアアクセラレーションを用いた大規模言語モデルのためのトランスフォーマーネットワークの高速化に向けた,いくつかの研究成果を包括的に調査する。 この調査では、提案されたフレームワークと、その技術、処理プラットフォーム(FPGA、ASIC、In-Memory、GPU)、スピードアップ、エネルギ効率、パフォーマンス(GOP)、各フレームワークのエネルギ効率(GOPs/W)に関する質的かつ定量的な比較を行った。 比較における主な課題は、提案されたすべてのスキームが異なるプロセス技術上に実装され、公正な比較が難しいことである。 本論文の主な貢献は,同一技術における性能とエネルギー効率の結果を概説し,公正な比較を行うことである。 複数のFPGAチップにLLMの一部を実装し、結果を同じプロセス技術に出力し、その性能を公平に比較する。

Large Language Models (LLMs) have emerged as powerful tools for natural language processing tasks, revolutionizing the field with their ability to understand and generate human-like text. In this paper, we present a comprehensive survey of the several research efforts that have been presented for the acceleration of transformer networks for Large Language Models using hardware accelerators. The survey presents the frameworks that have been proposed and then performs a qualitative and quantitative comparison regarding the technology, the processing platform (FPGA, ASIC, In-Memory, GPU), the speedup, the energy efficiency, the performance (GOPs), and the energy efficiency (GOPs/W) of each framework. The main challenge in comparison is that every proposed scheme is implemented on a different process technology making hard a fair comparison. The main contribution of this paper is that we extrapolate the results of the performance and the energy efficiency on the same technology to make a fair comparison; one theoretical and one more practical. We implement part of the LLMs on several FPGA chips to extrapolate the results to the same process technology and then we make a fair comparison of the performance.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# 表現誘導動的ゲーティングと回帰によるグラフに基づく参照表現の理解

Make Graph-based Referring Expression Comprehension Great Again through Expression-guided Dynamic Gating and Regression ( http://arxiv.org/abs/2409.03385v1 )

ライセンス: Link先を確認
Jingcheng Ke, Dele Wang, Jun-Cheng Chen, I-Hong Jhuo, Chia-Wen Lin, Yen-Yu Lin, (参考訳) 1つの一般的な信念は、複雑なモデルと大規模なデータセットで事前学習を行うことで、表現理解(REC)を参照するトランスフォーマーベースの手法は、既存のグラフベースの手法よりもはるかに優れた性能を発揮するということである。 グラフベースのほとんどの手法では、対象物(すなわち、対象物検知器によって検出された領域)を見つけるためにオフ・ザ・シェルフ検出器を採用するため、(1)推論中に多数の無関係物によって生じる有意なノイズの存在、(2)提供された検出器に起因する不正確な局所化結果の2つの課題に直面している。 これらの問題に対処するために,動的ゲート制約 (DGC) と呼ばれる部分表現で導かれるプラグイン・アンド・アダプティブ・モジュールを導入する。 さらに、位置予測を洗練させるために、式誘導回帰戦略(EGR)を導入する。 RefCOCO、RefCOCO+、RefCOCOg、Flickr30K、RefClef、Ref-reasoningデータセットの大規模な実験結果は、さまざまなグラフベースのRECメソッドのパフォーマンスを一貫して向上させるDGCモジュールとEGR戦略の有効性を示している。 提案したグラフベースの手法は,保持を伴わずに,最新技術(SOTA)変換方式よりも優れた性能を実現する。

One common belief is that with complex models and pre-training on large-scale datasets, transformer-based methods for referring expression comprehension (REC) perform much better than existing graph-based methods. We observe that since most graph-based methods adopt an off-the-shelf detector to locate candidate objects (i.e., regions detected by the object detector), they face two challenges that result in subpar performance: (1) the presence of significant noise caused by numerous irrelevant objects during reasoning, and (2) inaccurate localization outcomes attributed to the provided detector. To address these issues, we introduce a plug-and-adapt module guided by sub-expressions, called dynamic gate constraint (DGC), which can adaptively disable irrelevant proposals and their connections in graphs during reasoning. We further introduce an expression-guided regression strategy (EGR) to refine location prediction. Extensive experimental results on the RefCOCO, RefCOCO+, RefCOCOg, Flickr30K, RefClef, and Ref-reasoning datasets demonstrate the effectiveness of the DGC module and the EGR strategy in consistently boosting the performances of various graph-based REC methods. Without any pretaining, the proposed graph-based method achieves better performance than the state-of-the-art (SOTA) transformer-based methods.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# ゲームオン:RL実験者としての言語モデルを目指して

Game On: Towards Language Models as RL Experimenters ( http://arxiv.org/abs/2409.03402v1 )

ライセンス: Link先を確認
Jingwei Zhang, Thomas Lampe, Abbas Abdolmaleki, Jost Tobias Springenberg, Martin Riedmiller, (参考訳) 本稿では,一般的な強化学習実験ワークフローの一部を自動化するエージェントアーキテクチャを提案する。 実験の進捗の監視と分析、エージェントの過去の成功と失敗に基づく新しいタスクの提案、タスクを一連のサブタスク(スキル)に分解すること、そして実行するスキルの検索など、人間の実験者が通常必要とするいくつかの機能を実行するためにVLMを利用する。 我々は、強化学習の完全な実験サイクルを通じて、VLMを活用するシステムに関する最初の提案の1つだと信じている。 このシステムの最初のプロトタイプを提供し、現在のモデルと技術が望まれる自動化レベルの実現可能性について検討する。 そこで我々は,新たなスキルの学習を支援するため,言語条件のアクタ・クライブアルゴリズムに対して,標準的なGeminiモデルを用いてスキルのカリキュラムを提供する。 このように収集されたデータは、ロボット分野における制御ポリシーを学習し、反復的に改善するのに有用である。 スキルの育成ライブラリを構築し,それらのスキルの訓練の進捗を判断する能力のさらなる検証も有望な結果を示し,提案アーキテクチャは,実施エージェントのためのタスクやドメインの完全自動熟達のための潜在的レシピを提供することを示唆している。

We propose an agent architecture that automates parts of the common reinforcement learning experiment workflow, to enable automated mastery of control domains for embodied agents. To do so, it leverages a VLM to perform some of the capabilities normally required of a human experimenter, including the monitoring and analysis of experiment progress, the proposition of new tasks based on past successes and failures of the agent, decomposing tasks into a sequence of subtasks (skills), and retrieval of the skill to execute - enabling our system to build automated curricula for learning. We believe this is one of the first proposals for a system that leverages a VLM throughout the full experiment cycle of reinforcement learning. We provide a first prototype of this system, and examine the feasibility of current models and techniques for the desired level of automation. For this, we use a standard Gemini model, without additional fine-tuning, to provide a curriculum of skills to a language-conditioned Actor-Critic algorithm, in order to steer data collection so as to aid learning new skills. Data collected in this way is shown to be useful for learning and iteratively improving control policies in a robotics domain. Additional examination of the ability of the system to build a growing library of skills, and to judge the progress of the training of those skills, also shows promising results, suggesting that the proposed architecture provides a potential recipe for fully automated mastery of tasks and domains for embodied agents.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# Kan See in the Dark (英語)

KAN See In the Dark ( http://arxiv.org/abs/2409.03404v1 )

ライセンス: Link先を確認
Aoxiang Ning, Minglong Xue, Jinhong He, Chengyun Song, (参考訳) 既存の低照度画像強調法は、不均一照明とノイズ効果により、通常の低照度画像と低照度画像との複雑な非線形関係に適合することが困難である。 最近提案されたコルモゴロフ・アルノルドネットワーク(KAN)はスプラインベースの畳み込み層と学習可能なアクティベーション関数を備え、非線形依存を効果的に捉えることができる。 本稿では,kansをベースとしたkan-Blockを設計し,低照度画像強調に革新的に適用する。 この手法は線形ネットワーク構造に制約された現在の手法の限界を効果的に緩和し、また低レベル視覚タスクにおけるkanの可能性を実証する。 現行の低照度画像強調法や逆拡散過程の確率的性質の認識に乏しいことから,我々はさらに周波数領域の認識を導入して視覚指向の強調を行う。 大規模な実験により,ベンチマークデータセット上での本手法の競合性能が実証された。 コードは以下の通りである。 https://github.com/AXNing/KSID}{https://github.com/AXNing/KSID。

Existing low-light image enhancement methods are difficult to fit the complex nonlinear relationship between normal and low-light images due to uneven illumination and noise effects. The recently proposed Kolmogorov-Arnold networks (KANs) feature spline-based convolutional layers and learnable activation functions, which can effectively capture nonlinear dependencies. In this paper, we design a KAN-Block based on KANs and innovatively apply it to low-light image enhancement. This method effectively alleviates the limitations of current methods constrained by linear network structures and lack of interpretability, further demonstrating the potential of KANs in low-level vision tasks. Given the poor perception of current low-light image enhancement methods and the stochastic nature of the inverse diffusion process, we further introduce frequency-domain perception for visually oriented enhancement. Extensive experiments demonstrate the competitive performance of our method on benchmark datasets. The code will be available at: https://github.com/AXNing/KSID}{https://github.com/AXNing/KSID.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# セキュアなDevOpsにおける継続的リスクアセスメント

Continuous risk assessment in secure DevOps ( http://arxiv.org/abs/2409.03405v1 )

ライセンス: Link先を確認
Ricardo M. Czekster, (参考訳) DevOps(開発と運用)は、高品質なソフトウェアを本番環境に提供する上での障害を克服する方法を大きく変えました。 ここ数年、Secure DevOpsと呼ばれるアプローチで、サイバーセキュリティにDevOpsを組み込むことへの関心が高まっている。 しかしながら、プラクティスとガイダンスが成熟するにつれて、チームはより広範なリスクコンテキストの中でそれらを考慮しなければなりません。 ここでは、組織内のリスク関連アクティビティとの関わりから、セキュアなDevOpsが利益を得る方法について論じています。 我々は、リスクアセスメント(RA)、特に脅威モデリング(TM)を組み合わせることに集中し、ソフトウェアライフサイクルの早期にセキュリティ上の配慮を適用します。 私たちのコントリビューションは、リスク目標と合わせてセキュアなDevOpsを実現するためのロードマップを提供し、TMを改善するための情報的な方法を考案し、ソフトウェア製品やサービスにフォーカスした組織において効果的なセキュリティ基盤を確立するためのロードマップを提供します。 本研究は,ケーススタディ,技術,ツールについて論じる上で,文献上で実証された手法を概説することを目的としている。 これは、提案されたアプローチを議論に取り入れた現実世界にインスパイアされた組織のためのケーススタディである。 セキュリティを中心としたこれらの新しいメカニズムを実施するには、投資、トレーニング、ステークホルダーの関与が必要となる。 市場に到達するソフトウェアソリューションの全体的な品質を改善するために、継続的インテグレーション/継続的デリバリの設定を考慮して、自動化の実際のメリットを理解する必要があります。

DevOps (development and operations), has significantly changed the way to overcome deficiencies for delivering high-quality software to production environments. Past years witnessed an increased interest in embedding DevOps with cybersecurity in an approach dubbed secure DevOps. However, as the practices and guidance mature, teams must consider them within a broader risk context. We argue here how secure DevOps could profit from engaging with risk related activities within organisations. We focus on combining Risk Assessment (RA), particularly Threat Modelling (TM) and apply security considerations early in the software life-cycle. Our contribution provides a roadmap for enacting secure DevOps alongside risk objectives, devising informed ways to improve TM and establishing effective security underpinnings in organisations focusing on software products and services. We aim to outline proven methods over the literature on the subject discussing case studies, technologies, and tools. It presents a case study for a real-world inspired organisation employing the proposed approach with a discussion. Enforcing these novel mechanisms centred on security requires investment, training, and stakeholder engagement. It requires understanding the actual benefits of automation in light of Continuous Integration/Continuous Delivery settings that improve the overall quality of software solutions reaching the market.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# TG-LMM:テキストガイド型大規模マルチモーダルモデルによる医用画像分割精度の向上

TG-LMM: Enhancing Medical Image Segmentation Accuracy through Text-Guided Large Multi-Modal Model ( http://arxiv.org/abs/2409.03412v1 )

ライセンス: Link先を確認
Yihao Zhao, Enhao Zhong, Cuiyun Yuan, Yang Li, Man Zhao, Chunxia Li, Jun Hu, Chenbin Liu, (参考訳) TG-LMM(Text-Guided Large Multi-Modal Model)は,臓器のテキスト記述を利用して医療画像のセグメンテーション精度を高める手法である。 現在の医療自動セグメンテーションモデルは、臓器の位置の記述など、事前知識を効果的に活用していない; 以前のテキスト視覚モデルは、セグメンテーションの精度を改善するのではなく、ターゲットを特定することに焦点を当てている; 先行モデルは、精度を高めるために事前知識を使用しようとするが、事前訓練されたモデルを組み込まない。 これらの問題に対処するため、TG-LMMは事前の知識、特に臓器の空間的位置の専門的な記述をセグメンテーションプロセスに統合する。 本モデルでは,事前学習画像とテキストエンコーダを用いて,トレーニングパラメータ数を削減し,トレーニングプロセスの高速化を図る。 さらに,2つのデータモダリティの完全統合を保証するため,包括的画像テキスト情報融合構造を設計した。 我々はTG-LMMを3つの信頼できる医用画像データセットで評価し、人体の様々な部分のセグメンテーションを包含した。 提案手法は,MedSAM,SAM,nnUnetなどの既存手法と比較して優れた性能を示した。

We propose TG-LMM (Text-Guided Large Multi-Modal Model), a novel approach that leverages textual descriptions of organs to enhance segmentation accuracy in medical images. Existing medical image segmentation methods face several challenges: current medical automatic segmentation models do not effectively utilize prior knowledge, such as descriptions of organ locations; previous text-visual models focus on identifying the target rather than improving the segmentation accuracy; prior models attempt to use prior knowledge to enhance accuracy but do not incorporate pre-trained models. To address these issues, TG-LMM integrates prior knowledge, specifically expert descriptions of the spatial locations of organs, into the segmentation process. Our model utilizes pre-trained image and text encoders to reduce the number of training parameters and accelerate the training process. Additionally, we designed a comprehensive image-text information fusion structure to ensure thorough integration of the two modalities of data. We evaluated TG-LMM on three authoritative medical image datasets, encompassing the segmentation of various parts of the human body. Our method demonstrated superior performance compared to existing approaches, such as MedSAM, SAM and nnUnet.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# 非エルミート超伝導量子ビットにおける加速多部エンタングルメント生成

Accelerating multipartite entanglement generation in non-Hermitian superconducting qubits ( http://arxiv.org/abs/2409.03414v1 )

ライセンス: Link先を確認
Chimdessa Gashu Feyisa, J. S. You, Huan-Yu Ku, H. H. Jen, (参考訳) オープン量子システムは、周囲の環境によって情報、エネルギー、粒子の損失を受けやすい。 これらの損失を軽減する新しい戦略の1つは、調整された非エルミート量子システムによって量子技術の利点に転換することである。 本研究では,非エルミート量子ビットにおける高速なマルチパートエンタングルメントを理論的に提案する。 以上の結果から,非エルミート量子ビットはエルミート量子ビットと比較して数千倍の高速化が可能であり,特に${\cal P}{\cal T}-$対称状態において,2^n$-次の例外点が$n$-qubitsに近づいた。 さらに,Hermitian qubits は非Hermitian qubits に匹敵する時間スケールで 0.9995$ 以上の高忠実度な GHZ 状態を生成することができることを示した。 我々のアプローチは、多くの量子ビットに対してスケーラブルであり、多体量子系における非ハーミティリティと高次例外点を通して量子技術の進歩を期待できる経路を提供する。

Open quantum systems are susceptible to losses in information, energy, and particles due to their surrounding environment. One novel strategy to mitigate these losses is to transform them into advantages for quantum technologies through tailored non-Hermitian quantum systems. In this work, we theoretically propose a fast generation of multipartite entanglement in non-Hermitian qubits. Our findings reveal that weakly coupled non-Hermitian qubits can accelerate multiparty entanglement generation by thousands of times compared to Hermitian qubits, in particular when approaching the $2^n$-th order exceptional points of $n$ qubits in the ${\cal P}{\cal T}-$ symmetric regime. Furthermore, we show that Hermitian qubits can generate GHZ states with a high fidelity more than $0.9995$ in a timescale comparable to that of non-Hermitian qubits, but at the expense of intense driving and large coupling constant. Our approach is scalable to a large number of qubits, presenting a promising pathway for advancing quantum technologies through the non-Hermiticity and higher-order exceptional points in many-body quantum systems.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# mPLUG-DocOwl2: OCRフリーマルチページ文書理解のための高分解能圧縮

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding ( http://arxiv.org/abs/2409.03420v1 )

ライセンス: Link先を確認
Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou, (参考訳) MLLM(Multimodel Large Language Models)は,文書画像の解像度を向上することにより,OCRのない文書理解性能を実現している。 しかし、これは単一のドキュメントイメージに対して数千のビジュアルトークンを生成するコストがかかり、特にマルチページドキュメント理解において、過剰なGPUメモリと推論時間の短縮につながる。 本研究では,これらの課題に対処するために,高解像度の文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 この圧縮モジュールにより、多ページ文書の理解能力を強化し、トークン効率と質問応答性能のバランスをとるために、DocOwl2を3段階のトレーニングフレームワークであるシングルイメージ事前学習、マルチイメージ継続事前学習、マルチタスクファインタニングで開発する。 DocOwl2は、マルチページ文書理解ベンチマークに新たな最先端を設定し、最初のトークンレイテンシを50%以上削減し、マルチページ質問応答、エビデンスページによる説明、クロスページ構造理解の高度な機能を示す。 さらに、同様のデータでトレーニングされたシングルイメージのMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。 私たちのコード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2で公開されています。

Multimodel Large Language Models(MLLMs) have achieved promising OCR-free Document Understanding performance by increasing the supported resolution of document images. However, this comes at the cost of generating thousands of visual tokens for a single document image, leading to excessive GPU memory and slower inference times, particularly in multi-page document comprehension. In this work, to address these challenges, we propose a High-resolution DocCompressor module to compress each high-resolution document image into 324 tokens, guided by low-resolution global visual features. With this compression module, to strengthen multi-page document comprehension ability and balance both token efficiency and question-answering performance, we develop the DocOwl2 under a three-stage training framework: Single-image Pretraining, Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new state-of-the-art across multi-page document understanding benchmarks and reduces first token latency by more than 50%, demonstrating advanced capabilities in multi-page questioning answering, explanation with evidence pages, and cross-page structure understanding. Additionally, compared to single-image MLLMs trained on similar data, our DocOwl2 achieves comparable single-page understanding performance with less than 20% of the visual tokens. Our codes, models, and data are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# ニューラルネットワークの平滑最適化のためのウェイトコンディショニング

Weight Conditioning for Smooth Optimization of Neural Networks ( http://arxiv.org/abs/2409.03424v1 )

ライセンス: Link先を確認
Hemanth Saratchandran, Thomas X. Wang, Simon Lucey, (参考訳) 本稿では,ニューラルネットワークの重み行列の新しい正規化手法について紹介する。 このアプローチは、ウェイト行列の最小値と最大の特異値の間のギャップを狭くすることを目的としており、より良い条件付き行列をもたらす。 この手法のインスピレーションは、よく条件付けられた行列がイテレーティブな解法に対するより強い収束結果を促進することが知られている数値線型代数から部分的に導かれる。 我々は,正規化手法が損失景観を円滑にし,確率勾配降下アルゴリズムの収束性を高めることを実証する理論的基礎を提供する。 経験的に、畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、ニューラルレージアンスフィールド(NeRF)、三次元形状モデリングなど、さまざまなニューラルネットワークアーキテクチャにおける正規化を検証する。 以上の結果から,本手法は競争力だけでなく,文献の既往の重み正規化手法よりも優れていたことが示唆された。

In this article, we introduce a novel normalization technique for neural network weight matrices, which we term weight conditioning. This approach aims to narrow the gap between the smallest and largest singular values of the weight matrices, resulting in better-conditioned matrices. The inspiration for this technique partially derives from numerical linear algebra, where well-conditioned matrices are known to facilitate stronger convergence results for iterative solvers. We provide a theoretical foundation demonstrating that our normalization technique smoothens the loss landscape, thereby enhancing convergence of stochastic gradient descent algorithms. Empirically, we validate our normalization across various neural network architectures, including Convolutional Neural Networks (CNNs), Vision Transformers (ViT), Neural Radiance Fields (NeRF), and 3D shape modeling. Our findings indicate that our normalization method is not only competitive but also outperforms existing weight normalization techniques from the literature.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# 表面検査のための幾何センサ軌道の最適化のための強化学習アプローチ

Reinforcement Learning Approach to Optimizing Profilometric Sensor Trajectories for Surface Inspection ( http://arxiv.org/abs/2409.03429v1 )

ライセンス: Link先を確認
Sara Roos-Hoefgeest, Mario Roos-Hoefgeest, Ignacio Alvarez, Rafael C. González, (参考訳) 製造における高精度表面欠陥検出は品質管理の確保に不可欠である。 レーザー三角プロファイロメータセンサーは、このプロセスの鍵であり、一直線にわたって精密かつ正確な表面測定を提供する。 完全かつ正確な表面スキャンを実現するには、センサとワークの正確な相対運動が必要である。 センサの姿勢を制御し、表面への最適な距離と相対的な向きを維持することが重要である。 また、スキャンプロセス全体を通して均一なプロファイル分布を確保することも重要である。 本稿では,ロボット検査トラジェクトリをプロファイロメトリックセンサに最適化するための,新しい強化学習(RL)アプローチを提案する。 Boustrophedonスキャニング法を用いてセンサ位置と傾きを動的に調整し、表面から最適方向と距離を維持するとともに、均一かつ高品質な走査のための一貫したプロファイル距離を確保する。 この部分のCADモデルに基づくシミュレーション環境を利用して,センサノイズや表面の不規則といった実世界の走査条件を再現する。 このシミュレーションに基づくアプローチはCADモデルに基づくオフライン軌道計画を可能にする。 主な貢献は、状態空間、アクション空間、報酬関数のモデリングであり、特にプロファイロメトリックセンサーを用いた検査アプリケーションのために設計された。 我々はPPOアルゴリズムを用いてRLエージェントを効率的に訓練し、プロフィロメトリセンサーを用いた検査軌道の最適化機能を示す。 提案手法の有効性を検証するために,実験では,特定の訓練片で訓練されたモデルが,シミュレーションの様々な部分で試験された。 また,CADモデルからオフラインで発生する最適化軌道を用いて実世界の実験を行い,UR3eロボットアームモデルを用いて部品を検査した。

High-precision surface defect detection in manufacturing is essential for ensuring quality control. Laser triangulation profilometric sensors are key to this process, providing detailed and accurate surface measurements over a line. To achieve a complete and precise surface scan, accurate relative motion between the sensor and the workpiece is required. It is crucial to control the sensor pose to maintain optimal distance and relative orientation to the surface. It is also important to ensure uniform profile distribution throughout the scanning process. This paper presents a novel Reinforcement Learning (RL) based approach to optimize robot inspection trajectories for profilometric sensors. Building upon the Boustrophedon scanning method, our technique dynamically adjusts the sensor position and tilt to maintain optimal orientation and distance from the surface, while also ensuring a consistent profile distance for uniform and high-quality scanning. Utilizing a simulated environment based on the CAD model of the part, we replicate real-world scanning conditions, including sensor noise and surface irregularities. This simulation-based approach enables offline trajectory planning based on CAD models. Key contributions include the modeling of the state space, action space, and reward function, specifically designed for inspection applications using profilometric sensors. We use Proximal Policy Optimization (PPO) algorithm to efficiently train the RL agent, demonstrating its capability to optimize inspection trajectories with profilometric sensors. To validate our approach, we conducted several experiments where a model trained on a specific training piece was tested on various parts in simulation. Also, we conducted a real-world experiment by executing the optimized trajectory, generated offline from a CAD model, to inspect a part using a UR3e robotic arm model.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# UV-Mamba:高解像度リモートセンシング画像における都市境界同定のためのDCN強化状態空間モデル

UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2409.03431v1 )

ライセンス: Link先を確認
Lulin Li, Ben Chen, Xuechao Zou, Junliang Xing, Pin Tao, (参考訳) 多様な地理的環境、複雑な景観、高密度集落のため、リモートセンシング画像を用いた都市集落境界の自動識別は極めて困難な課題である。 本稿では,高解像度リモートセンシング画像の正確な境界検出のための,UV-Mambaと呼ばれる新しい,効率的なニューラルネットワークモデルを提案する。 UV-Mambaは、変形可能な畳み込み(DCN)を組み込んで、画像サイズを増大させる状態空間モデル(SSM)で生じる長いシーケンスモデリングにおけるメモリ損失問題を緩和する。 そのアーキテクチャはエンコーダ・デコーダフレームワークを使用し、4つの変形可能な状態空間拡張(DSSA)ブロックを持つエンコーダと、抽出されたセマンティック情報を統合するデコーダを備えている。 北京と西安のデータセットを用いて実験を行い,UV-マンバが最先端の性能を発揮することを示す。 具体的には、北京と西安のデータセットで73.3%と78.1%のIoUをそれぞれ達成し、前回のベストモデルよりも1.2%と3.4%のIoUの改善を示し、推論速度は6倍、パラメータ数は40倍に向上した。 ソースコードと事前訓練されたモデルは補足資料で利用可能である。

Owing to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images is a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in long sequence modeling, which arises in state space model (SSM) with increasing image size, by incorporating deformable convolutions (DCN). Its architecture utilizes an encoder-decoder framework, includes an encoder with four deformable state space augmentation (DSSA) blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on the Beijing and Xi'an datasets, and the results show that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi'an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model, while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available in the supplementary material.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# 4x4ビームスプリッタ検出ネットワークを用いた2フィールド量子鍵分布における秘密鍵出力の増大

Increased Secret Key Throughput in Twin Field Quantum Key Distribution using 4x4 Beam Splitter Detection Network ( http://arxiv.org/abs/2409.03432v1 )

ライセンス: Link先を確認
Ishan Pandey, Varun Raghunathan, (参考訳) ツインフィールド量子鍵分布(TFQKD)は、基本リピータレス限界よりも高い秘密鍵容量を持ち、達成可能な距離を延ばすことにより、近年関心を集めている。 TFQKDの鍵生成は、ランダム化された位相スライスの後の選択に基づいている。 本稿では,4x4ポートビームスプリッタネットワークの後に配置されたチャーリーエンドの4つの検出器を用いて,位相スライス選択の確率を高める手法について述べる。 秘密鍵レートの理論的モデリングとStrawberryFieldsを用いたシミュレーションを用いて,従来のTFQKDと比較して秘密鍵スループットの増加を観測した。

Twin Field Quantum key Distribution (TFQKD) has attracted recent interest due to the higher secret key capacity better than the fundamental repeaterless limit and extending the achievable distance. The key generation in TFQKD is based on the post selection of randomized phase slices. This paper describes a technique for enhancing the probability of choosing the phase slices by using four detectors at Charlie end placed after a 4x4 port beam-splitter network. Using theoretical modelling of secret keyrate and simulations using StrawberryFields, we observe an increase in secret key throughput when compared to conventional TFQKD.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# アイデンティティ保護による顔匿名化のためのキー駆動フレームワーク

A Key-Driven Framework for Identity-Preserving Face Anonymization ( http://arxiv.org/abs/2409.03434v1 )

ライセンス: Link先を確認
Miaomiao Wang, Guang Hua, Sheng Li, Guorui Feng, (参考訳) 仮想顔はメタバースの重要な内容です。 近年,プライバシー保護のための仮想顔生成の試みが試みられている。 それでも、これらの仮想顔は、識別可能な情報を永久に取り除いたり、元のアイデンティティを仮想顔にマッピングしたりすることで、元のアイデンティティは永久に失われる。 本研究では,仮想顔におけるプライバシと識別可能性の対立に対処する試みとして,鍵駆動型顔匿名化と認証認識(KFAAR)フレームワークを提案する。 具体的には、KFAARフレームワークは、頭位保存仮想顔生成(HPVFG)モジュールとキー制御可能な仮想顔認証(KVFA)モジュールで構成される。 HPVFGモジュールはユーザキーを使用して、元の顔の潜伏ベクトルを仮想キーに投影する。 次に仮想ベクトルをマッピングし、仮想顔を生成する拡張符号化を得る。 頭部姿勢と表情補正モジュールを同時に追加することにより、仮想顔は、元の顔と同じ頭部姿勢と表情を有する。 認証中,KVFAモジュールは,元の顔画像を公開することなく,元の識別情報を取得することができる。 また,HPVFGとKVFAを学習するためのマルチタスク学習手法を提案する。 大規模な実験はHPVFGとKVFAモジュールの利点を示し、顔の匿名性と識別性の両方を効果的に実現している。

Virtual faces are crucial content in the metaverse. Recently, attempts have been made to generate virtual faces for privacy protection. Nevertheless, these virtual faces either permanently remove the identifiable information or map the original identity into a virtual one, which loses the original identity forever. In this study, we first attempt to address the conflict between privacy and identifiability in virtual faces, where a key-driven face anonymization and authentication recognition (KFAAR) framework is proposed. Concretely, the KFAAR framework consists of a head posture-preserving virtual face generation (HPVFG) module and a key-controllable virtual face authentication (KVFA) module. The HPVFG module uses a user key to project the latent vector of the original face into a virtual one. Then it maps the virtual vectors to obtain an extended encoding, based on which the virtual face is generated. By simultaneously adding a head posture and facial expression correction module, the virtual face has the same head posture and facial expression as the original face. During the authentication, we propose a KVFA module to directly recognize the virtual faces using the correct user key, which can obtain the original identity without exposing the original face image. We also propose a multi-task learning objective to train HPVFG and KVFA. Extensive experiments demonstrate the advantages of the proposed HPVFG and KVFA modules, which effectively achieve both facial anonymity and identifiability.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# 密度行列のDense Dual Baseによる直接測定

Direct Measurement of Density Matrices via Dense Dual Bases ( http://arxiv.org/abs/2409.03435v1 )

ライセンス: Link先を確認
Yu Wang, Hanru Jiang, Yongxiang Liu, Keren Li, (参考訳) 量子系の効率的な理解は、基本的に観測可能なものの選択に依存する。 パウリ・オブザーバブルと相互非バイアスベース(MUB)は、実際は広く使われており、量子状態トモグラフィー(QST)の理論上最適と見なされることが多い。 しかし、パウリ可観測物は完全なトモグラフィーのために多数の測定を必要とするため、一定の数の可観測物を持つ密度行列要素を直接測定することはできない。 MUB の場合、すべての次元における \(d+1\) 基底の完全集合の存在は未解決のままであり、代替可観測性の必要性を強調している。 本研究では,任意の \(d\)-次元量子状態の完全なキャラクタリゼーションを可能にするために考案された,2d\)-可観測体の新しい集合を紹介する。 これらの観測可能性の利点を実証するために、我々は2つの重要な応用を探求する。 まず,3つの観測可能要素のみを用いて抽出可能な要素を,補助システムなしで直接測定できることを示す。 第二に、未知の階数-\(r\) 密度行列に対する QST は、無視可能な部分集合を除いて、観測可能な \(O(r \log d)\) で達成できることを示す。 これは、通常は \(O(r d \log^2 d)\) 演算を必要とするパウリ可観測子による圧縮されたセンシングと比較して、ユニタリ演算の数を著しく減少させる。 各回路は反復的に生成され、高々(O(n^4)\)基本ゲートに分解することができる。 提案したオブザーバブルは、量子状態学習の効率性と実用性を高め、従来の方法に代わる有望な代替手段を提供する量子システムのキャラクタリゼーションの大幅な進歩を表している。

Efficient understanding of a quantum system fundamentally relies on the selection of observables. Pauli observables and mutually unbiased bases (MUBs) are widely used in practice and are often regarded as theoretically optimal for quantum state tomography (QST). However, Pauli observables require a large number of measurements for complete tomography and do not permit direct measurement of density matrix elements with a constant number of observables. For MUBs, the existence of complete sets of \(d+1\) bases in all dimensions remains unresolved, highlighting the need for alternative observables. In this work, we introduce a novel set of \(2d\) observables specifically designed to enable the complete characterization of any \(d\)-dimensional quantum state. To demonstrate the advantages of these observables, we explore two key applications. First, we show that direct measurement of density matrix elements is feasible without auxiliary systems, with any element extractable using only three selected observables. Second, we demonstrate that QST for unknown rank-\(r\) density matrices, excluding only a negligible subset, can be achieved with \(O(r \log d)\) observables. This significantly reduces the number of unitary operations compared to compressed sensing with Pauli observables, which typically require \(O(r d \log^2 d)\) operations. Each circuit is iteratively generated and can be efficiently decomposed into at most \(O(n^4)\) elementary gates for an \(n\)-qubit system. The proposed observables represent a substantial advancement in the characterization of quantum systems, enhancing both the efficiency and practicality of quantum state learning and offering a promising alternative to traditional methods.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# Shuffle Vision Transformer: ドライバ顔表情の軽量・高速・高能率認識

Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression ( http://arxiv.org/abs/2409.03438v1 )

ライセンス: Link先を確認
Ibtissam Saadi, Douglas W. Cunningham, Taleb-ahmed Abdelmalik, Abdenour Hadid, Yassin El Hillali, (参考訳) 運転者表情認識(DFER)の既存の手法は、しばしば計算集約的であり、リアルタイムアプリケーションには適さない。 そこで本研究では,ShuffViT-DFERというトランスファー学習に基づく新しいデュアルアーキテクチャを導入し,計算効率と精度を優雅に組み合わせた。 これは、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を使用して、2つの軽量で効率的なモデルの強度を利用する。 抽出した特徴を効率よく融合させ,ドライバの表情を正確に認識するモデルの性能を向上させる。 KMU-FED と KDEF という2つのベンチマークおよび公開データセットに対する実験結果から,提案手法が最先端の手法と比較して優れた性能を持つリアルタイムアプリケーションに対して有効であることを示す。

Existing methods for driver facial expression recognition (DFER) are often computationally intensive, rendering them unsuitable for real-time applications. In this work, we introduce a novel transfer learning-based dual architecture, named ShuffViT-DFER, which elegantly combines computational efficiency and accuracy. This is achieved by harnessing the strengths of two lightweight and efficient models using convolutional neural network (CNN) and vision transformers (ViT). We efficiently fuse the extracted features to enhance the performance of the model in accurately recognizing the facial expressions of the driver. Our experimental results on two benchmarking and public datasets, KMU-FED and KDEF, highlight the validity of our proposed method for real-time application with superior performance when compared to state-of-the-art methods.
翻訳日:2024-09-06 21:00:20 公開日:2024-09-05
# KiloBot: 知覚誘導型産業用マニピュレータを大規模に展開するプログラミング言語

KiloBot: A Programming Language for Deploying Perception-Guided Industrial Manipulators at Scale ( http://arxiv.org/abs/2409.03439v1 )

ライセンス: Link先を確認
Wei Gao, Jingqiang Wang, Xinv Zhu, Jun Zhong, Yue Shen, Youshuang Ding, (参考訳) 産業用ロボットは、カメラと知覚パイプラインで非構造環境を処理したいと考えています。 オフラインで製作された軌道を再生する従来の産業用ロボットとは対照的に、知覚誘導型産業用アプリケーションにはオンライン行動計画が必要である。 知覚と計画のアルゴリズム以外にも、知覚誘導マニピュレータの展開にはかなりの労力が要る。 ひとつのアプローチは、計画的な問題を構築し、他のアルゴリズムモジュールや外部デバイスとの統合を実行するために、従来の言語(Pythonなど)でスクリプトを記述することだ。 Pythonのスクリプティングは、少数のロボットやアプリケーションで実現可能だが、認識誘導操作を大規模に展開する(例えば、2000以上の顧客サイトで10000以上のロボットワークステーション)。 この課題を解決するために、認識誘導操作アプリケーションのためのドメイン特化言語(DSL)を提案する。 デプロイメントをスケールアップするために、私たちのDSLは次のように提供します。 1)実用上重要なタスク・アンド・モーション・プランニング(TAMP)のサブクラスを構築・解決するための容易なインターフェース。 2) 異なる産業用アプリケーションのカスタマイズ要求に対処し、統合を行うためのフレキシブルな制御フローを実装するためのメカニズム。 直感的なグラフィカルプログラミングのフロントエンドと組み合わせることで、私たちのDSLは主に従来のプログラミング言語でコーディング経験のないマシンオペレータによって使われます。 訓練から数時間以内に、オペレータは興味深い高度な操作動作をDSLでオーケストレーションすることができます。 大規模な実践的展開は,本手法の有効性を実証する。

We would like industrial robots to handle unstructured environments with cameras and perception pipelines. In contrast to traditional industrial robots that replay offline-crafted trajectories, online behavior planning is required for these perception-guided industrial applications. Aside from perception and planning algorithms, deploying perception-guided manipulators also requires substantial effort in integration. One approach is writing scripts in a traditional language (such as Python) to construct the planning problem and perform integration with other algorithmic modules & external devices. While scripting in Python is feasible for a handful of robots and applications, deploying perception-guided manipulation at scale (e.g., more than 10000 robot workstations in over 2000 customer sites) becomes intractable. To resolve this challenge, we propose a Domain-Specific Language (DSL) for perception-guided manipulation applications. To scale up the deployment,our DSL provides: 1) an easily accessible interface to construct & solve a sub-class of Task and Motion Planning (TAMP) problems that are important in practical applications; and 2) a mechanism to implement flexible control flow to perform integration and address customized requirements of distinct industrial application. Combined with an intuitive graphical programming frontend, our DSL is mainly used by machine operators without coding experience in traditional programming languages. Within hours of training, operators are capable of orchestrating interesting sophisticated manipulation behaviors with our DSL. Extensive practical deployments demonstrate the efficacy of our method.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# Rxストラテジスト: LLMエージェントシステムを用いた処方検証

Rx Strategist: Prescription Verification using LLM Agents System ( http://arxiv.org/abs/2409.03440v1 )

ライセンス: Link先を確認
Phuc Phan Van, Dat Nguyen Minh, An Dinh Ngoc, Huy Phan Thanh, (参考訳) 患者の安全を守るため、現代の医薬品の複雑さは厳格な処方則の検証を必要とする。 我々は、エージェントフレームワーク内の大規模言語モデル(LLM)のパワーを高めるために、知識グラフと異なる検索戦略を利用する新しいアプローチ、Rx Strategistを提供する。 この多面的手法により、カスタム構築のアクティブ成分データベースから多段階のLCMパイプラインと信頼できる情報検索が可能になる。 パイプラインの各段階では、表示、用量、薬物相互作用の可能性など、処方薬の検証の異なる面がカバーされている。 これらの段階にわたって推論を広め、メモリ要求を低減しつつ、正確性と信頼性を向上させることにより、モノリシックLLM技術の欠点を軽減する。 以上の結果から,Rx Strategist が多くの LLM を上回り,高度臨床薬剤師に匹敵する成績を示した。 現代医学の複雑な世界では、このLLMと組織化された知識と高度な検索手法の組み合わせは、処方の誤りを減らし、患者の成果を高めるための有効な方法である。

To protect patient safety, modern pharmaceutical complexity demands strict prescription verification. We offer a new approach - Rx Strategist - that makes use of knowledge graphs and different search strategies to enhance the power of Large Language Models (LLMs) inside an agentic framework. This multifaceted technique allows for a multi-stage LLM pipeline and reliable information retrieval from a custom-built active ingredient database. Different facets of prescription verification, such as indication, dose, and possible drug interactions, are covered in each stage of the pipeline. We alleviate the drawbacks of monolithic LLM techniques by spreading reasoning over these stages, improving correctness and reliability while reducing memory demands. Our findings demonstrate that Rx Strategist surpasses many current LLMs, achieving performance comparable to that of a highly experienced clinical pharmacist. In the complicated world of modern medications, this combination of LLMs with organized knowledge and sophisticated search methods presents a viable avenue for reducing prescription errors and enhancing patient outcomes.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# ドメイン適応のための微調整された大規模言語モデル:訓練戦略、スケーリング、モデルマージ、相乗的能力の探索

Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities ( http://arxiv.org/abs/2409.03444v1 )

ライセンス: Link先を確認
Wei Lu, Rachel K. Luu, Markus J. Buehler, (参考訳) 材料科学や工学などの分野におけるドメイン応用のための大規模言語モデル(LLM)の進歩は、専門的な技術的能力にモデルを適応させる微調整戦略の開発に依存している。 本研究では,CPT(Continuous Pretraining, Supervised Fine-Tuning, Supervised Fine-Tuning, Supervised Fine-Tuning, DPO)やOdds Ratio Preference Optimization (ORPO)など,様々な最適化手法が微調整LDM性能に与える影響について検討する。 我々の分析は、これらの戦略がモデルの結果にどのように影響するかを示し、複数の微調整モデルの融合が、親モデルの個々の貢献を超越した能力の出現につながることを明らかにしている。 モデルマージは、どちらの親モデルも単独で実現できない新たな機能につながり、ドメイン固有の評価のパフォーマンスが向上することがわかった。 Llama 3.1 8BやMistral 7Bモデルなど、異なるモデルアーキテクチャによる実験が行われ、同様の挙動が観察される。 結果がはるかに小さなモデルにも当てはまるかどうかを探索するため、我々は17億のパラメータを持つ小さなLLMを使用し、非常に小さなLLMが必ずしもモデルマージの下で創発的な機能を特徴付けていないことを示す。 我々の評価では、人間とAIモデル間のオープンで一貫したチャット会話において、異なるモデルの変種がどのように機能するかについての詳細な洞察を明らかにし、最小のモデルが推論深度、創造性、明快さ、量的精度を含む重要な基準で高いインテリジェンススコアを達成することを示す。 その他の実験としては、異なる生体材料設計概念に基づく画像生成プロンプトの開発、新しいミクロ構造の構築、建築概念、生物学的材料に着想を得た建設原理に基づく都市デザインなどがある。

The advancement of Large Language Models (LLMs) for domain applications in fields such as materials science and engineering depends on the development of fine-tuning strategies that adapt models for specialized, technical capabilities. In this work, we explore the effects of Continued Pretraining (CPT), Supervised Fine-Tuning (SFT), and various preference-based optimization approaches, including Direct Preference Optimization (DPO) and Odds Ratio Preference Optimization (ORPO), on fine-tuned LLM performance. Our analysis shows how these strategies influence model outcomes and reveals that the merging of multiple fine-tuned models can lead to the emergence of capabilities that surpass the individual contributions of the parent models. We find that model merging leads to new functionalities that neither parent model could achieve alone, leading to improved performance in domain-specific assessments. Experiments with different model architectures are presented, including Llama 3.1 8B and Mistral 7B models, where similar behaviors are observed. Exploring whether the results hold also for much smaller models, we use a tiny LLM with 1.7 billion parameters and show that very small LLMs do not necessarily feature emergent capabilities under model merging, suggesting that model scaling may be a key component. In open-ended yet consistent chat conversations between a human and AI models, our assessment reveals detailed insights into how different model variants perform and show that the smallest model achieves a high intelligence score across key criteria including reasoning depth, creativity, clarity, and quantitative precision. Other experiments include the development of image generation prompts based on disparate biological material design concepts, to create new microstructures, architectural concepts, and urban design based on biological materials-inspired construction principles.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 海洋環境認識のための3次元地図からの自動閉塞除去

Automatic occlusion removal from 3D maps for maritime situational awareness ( http://arxiv.org/abs/2409.03451v1 )

ライセンス: Link先を確認
Felix Sattler, Borja Carrillo Perez, Maurice Stephan, Sarah Barnes, (参考訳) 本研究では,大規模海洋環境における閉塞除去を対象とする3次元地理空間モデルの更新手法を提案する。 従来の3D再構成技術は、車や船などの動的物体に問題があり、実際の環境を曖昧にし、不正確なモデルや広範囲な手作業による編集を必要とする。 本手法では,3次元メッシュのテクスチャと形状を,コストのかかる再処理を必要とせずに直接修正する。 対象物を選択的にターゲットし、静的要素を保存することにより、幾何学的および視覚的精度を向上する。 このアプローチは、マップデータの構造的およびテクスチャ的詳細を保存するだけでなく、現在の地理空間標準との互換性を維持し、多様なデータセット間で堅牢なパフォーマンスを保証する。 その結果,3次元モデルの忠実度は大幅に向上し,海上状況認識や補助情報の動的表示に高い適用性を示した。

We introduce a novel method for updating 3D geospatial models, specifically targeting occlusion removal in large-scale maritime environments. Traditional 3D reconstruction techniques often face problems with dynamic objects, like cars or vessels, that obscure the true environment, leading to inaccurate models or requiring extensive manual editing. Our approach leverages deep learning techniques, including instance segmentation and generative inpainting, to directly modify both the texture and geometry of 3D meshes without the need for costly reprocessing. By selectively targeting occluding objects and preserving static elements, the method enhances both geometric and visual accuracy. This approach not only preserves structural and textural details of map data but also maintains compatibility with current geospatial standards, ensuring robust performance across diverse datasets. The results demonstrate significant improvements in 3D model fidelity, making this method highly applicable for maritime situational awareness and the dynamic display of auxiliary information.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# データの量はいくらか? 家庭内翻訳のための微調整大言語モデル:複数のデータセットサイズでの性能評価

How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes ( http://arxiv.org/abs/2409.03454v1 )

ライセンス: Link先を確認
Inacio Vieira, Will Allred, Seamus Lankford, Sheila Castilho Monteiro De Sousa, Andy Way, (参考訳) デコーダのみのLLMは、広範囲なデータセットから学習し、高品質な翻訳を生成することができるため、MTで顕著な性能を示している。 しかし、LLMは組織固有の翻訳に必要なニュアンスやスタイルに悩まされることが多い。 そこで本研究では,Llama 3 8Bインストラクションにおいて,翻訳記憶(TM)を有効活用し,精度と効率を向上させることを目的とした,微調整大規模言語モデル(LLM)の有効性について検討する。 ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。 実験では,ブラジルポルトガル語,チェコ語,ドイツ語,フィンランド語,韓国語)の言語にまたがる5つの翻訳方向について検討した。 学習データセット(1k〜207kセグメント)のさまざまなサイズを分析し、翻訳品質への影響を評価した。 トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。 以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。 BLEUとCOMETのスコアは,ベースラインモデルに対する最大のトレーニングセットでそれぞれ13点,25点増加した。 特に, 1k と 2k のサンプルのみを微調整すると, ベースラインモデルと比較して性能が低下するが, トレーニングデータセットのサイズが大きくなるにつれて, 大幅な改善が見られた。 この研究は、TMをLLMと統合し、ビジネスのニーズに合わせたベスパイク翻訳モデルを作成する可能性を強調し、翻訳品質を向上し、ターンアラウンド時間を短縮する。 このアプローチは、特に狭いドメインにおいて、最適な翻訳結果にTMとLLMを活用しようとする組織にとって、貴重な洞察を提供する。

Decoder-only LLMs have shown impressive performance in MT due to their ability to learn from extensive datasets and generate high-quality translations. However, LLMs often struggle with the nuances and style required for organisation-specific translation. In this study, we explore the effectiveness of fine-tuning Large Language Models (LLMs), particularly Llama 3 8B Instruct, leveraging translation memories (TMs), as a valuable resource to enhance accuracy and efficiency. We investigate the impact of fine-tuning the Llama 3 model using TMs from a specific organisation in the software sector. Our experiments cover five translation directions across languages of varying resource levels (English to Brazilian Portuguese, Czech, German, Finnish, and Korean). We analyse diverse sizes of training datasets (1k to 207k segments) to evaluate their influence on translation quality. We fine-tune separate models for each training set and evaluate their performance based on automatic metrics, BLEU, chrF++, TER, and COMET. Our findings reveal improvement in translation performance with larger datasets across all metrics. On average, BLEU and COMET scores increase by 13 and 25 points, respectively, on the largest training set against the baseline model. Notably, there is a performance deterioration in comparison with the baseline model when fine-tuning on only 1k and 2k examples; however, we observe a substantial improvement as the training dataset size increases. The study highlights the potential of integrating TMs with LLMs to create bespoke translation models tailored to the specific needs of businesses, thus enhancing translation quality and reducing turn-around times. This approach offers a valuable insight for organisations seeking to leverage TMs and LLMs for optimal translation outcomes, especially in narrower domains.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# マルチウェザー画像復元のための劣化プロンプト拡散を伴うデータフリー蒸留

Data-free Distillation with Degradation-prompt Diffusion for Multi-weather Image Restoration ( http://arxiv.org/abs/2409.03455v1 )

ライセンス: Link先を確認
Pei Wang, Xiaotong Luo, Yuan Xie, Yanyun Qu, (参考訳) マルチウェザー画像復元は驚くべき進歩を遂げ、モデル容量の増大と高価なデータ取得は、メモリ制限されたデバイスでの応用を妨げている。 データフリー蒸留は、オリジナルのトレーニングデータに頼ることなく、訓練済みの教師モデルから軽量の学生モデルを学習するための代替手段を提供する。 既存のデータフリー学習手法は、主にGANが生成した擬似データやインターネットから収集した実データを用いてモデルを最適化する。 しかし、それらは必然的に、不安定なトレーニングや、元のデータによるドメインシフトの問題に悩まされる。 本稿では,マルチウェザー画像復元(D4IR)のための劣化促進拡散フレームワークを新たに提案する。 モデル崩壊を避けるために、GANを事前訓練された拡散モデルに置き換え、ドメイン関連画像を生成するためのコンテンツ駆動条件拡散を容易にする劣化対応プロンプトアダプタを組み込む。 特に、コントラストベースの劣化プロンプトアダプタは、Webで収集した劣化画像から劣化認識プロンプトをキャプチャするように設計されている。 そして、収集した未ペア画像は、安定拡散の潜伏特性に摂動し、劣化認識プロンプトで条件付きで、新しいドメイン関連劣化画像を合成し、知識蒸留を行う。 実験により,本提案手法は元のトレーニングデータで蒸留したモデルに匹敵する性能を示し,他の主流の教師なし手法よりも優れていることが示された。

Multi-weather image restoration has witnessed incredible progress, while the increasing model capacity and expensive data acquisition impair its applications in memory-limited devices. Data-free distillation provides an alternative for allowing to learn a lightweight student model from a pre-trained teacher model without relying on the original training data. The existing data-free learning methods mainly optimize the models with the pseudo data generated by GANs or the real data collected from the Internet. However, they inevitably suffer from the problems of unstable training or domain shifts with the original data. In this paper, we propose a novel Data-free Distillation with Degradation-prompt Diffusion framework for multi-weather Image Restoration (D4IR). It replaces GANs with pre-trained diffusion models to avoid model collapse and incorporates a degradation-aware prompt adapter to facilitate content-driven conditional diffusion for generating domain-related images. Specifically, a contrast-based degradation prompt adapter is firstly designed to capture degradation-aware prompts from web-collected degraded images. Then, the collected unpaired clean images are perturbed to latent features of stable diffusion, and conditioned with the degradation-aware prompts to synthesize new domain-related degraded images for knowledge distillation. Experiments illustrate that our proposal achieves comparable performance to the model distilled with original training data, and is even superior to other mainstream unsupervised methods.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# LM-Gaussian:大型モデルプリミティブによるスパースビュー3次元ガウススプラッティング

LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors ( http://arxiv.org/abs/2409.03456v1 )

ライセンス: Link先を確認
Hanyang Yu, Xiaoxiao Long, Ping Tan, (参考訳) 本研究では,大規模視覚モデルからの事前情報を活用することで,3次元シーンのスパースビュー再構築を実現することを目的とする。 近年の3Dガウス・スプラッティング(3DGS)のような進歩は、3D再構成において顕著な成果を上げているが、これらの手法は典型的には数百の入力画像を必要とするため、背景のシーンを密に捉え、現実のアプリケーションには時間がかかり、実用的ではない。 しかし、スパースビューの再構築は本質的に不適切であり、制約が低く、多くの場合、劣等な結果と不完全な結果をもたらす。 これは初期化の失敗、入力イメージの過度な適合、詳細の欠如などの問題によるものである。 これらの課題を軽減するために,限られた画像から高品質な再構成を生成できるLM-Gaussianを導入する。 具体的には,カメラポーズと信頼性のある点雲の回復を支援するために,ステレオ先行情報を活用する頑健な初期化モジュールを提案する。 さらに、拡散に基づく精細化を反復的に適用して、画像拡散先行をガウス最適化プロセスに組み込んで、複雑なシーンの詳細を保存する。 最後に,映像拡散前処理を利用して,リアルな視覚効果のためのレンダリング画像をさらに強化する。 提案手法は,従来の3DGS法と比較して,データ取得要求を大幅に削減する。 我々は,様々な公開データセットを用いた実験を通じて,フレームワークの有効性を検証し,高品質な360度シーン再構築の可能性を示した。 ビジュアルな結果は私たちのWebサイトにあります。

We aim to address sparse-view reconstruction of a 3D scene by leveraging priors from large-scale vision models. While recent advancements such as 3D Gaussian Splatting (3DGS) have demonstrated remarkable successes in 3D reconstruction, these methods typically necessitate hundreds of input images that densely capture the underlying scene, making them time-consuming and impractical for real-world applications. However, sparse-view reconstruction is inherently ill-posed and under-constrained, often resulting in inferior and incomplete outcomes. This is due to issues such as failed initialization, overfitting on input images, and a lack of details. To mitigate these challenges, we introduce LM-Gaussian, a method capable of generating high-quality reconstructions from a limited number of images. Specifically, we propose a robust initialization module that leverages stereo priors to aid in the recovery of camera poses and the reliable point clouds. Additionally, a diffusion-based refinement is iteratively applied to incorporate image diffusion priors into the Gaussian optimization process to preserve intricate scene details. Finally, we utilize video diffusion priors to further enhance the rendered images for realistic visual effects. Overall, our approach significantly reduces the data acquisition requirements compared to previous 3DGS methods. We validate the effectiveness of our framework through experiments on various public datasets, demonstrating its potential for high-quality 360-degree scene reconstruction. Visual results are on our website.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 畳み込みニューラルネットワークの非均一照明攻撃

Non-Uniform Illumination Attack for Fooling Convolutional Neural Networks ( http://arxiv.org/abs/2409.03458v1 )

ライセンス: Link先を確認
Akshay Jain, Shiv Ram Dubey, Satish Kumar Singh, KC Santosh, Bidyut Baran Chaudhuri, (参考訳) 畳み込みニューラルネットワーク(CNN)は目覚ましい進歩を遂げているが、脆弱性、特に人間が容易に認識できる微妙なイメージの摂動に直面している。 この弱点は、しばしば「攻撃」と呼ばれ、CNNの限られた堅牢さと、そのような操作に対する彼らの抵抗を補強する研究の必要性を浮き彫りにしている。 本研究では,NUIマスクを用いて画像が微調整される非均一照明(NUI)攻撃手法を提案する。 CIFAR10、TinyImageNet、CalTech256など、広く受け入れられたデータセットで大規模な実験が行われ、12種類のNUI攻撃モデルによる画像分類に焦点を当てている。 NUI攻撃に対するVGG,ResNet,MobilenetV3-smallおよびInceptionV3モデルのレジリエンスを評価する。 その結果,NUI攻撃を受けた場合のCNNモデルの分類精度は著しく低下し,非均一照明下での脆弱性が示唆された。 これを軽減するため,新たなNUI変換によって生成されたNUI攻撃画像を含む防衛戦略をトレーニングセットに提案する。 その結果,NUI攻撃による摂動画像に直面する場合,CNNモデルの性能は著しく向上した。 この戦略は、CNNモデルのNUI攻撃に対するレジリエンスを強化することを目指している。

Convolutional Neural Networks (CNNs) have made remarkable strides; however, they remain susceptible to vulnerabilities, particularly in the face of minor image perturbations that humans can easily recognize. This weakness, often termed as 'attacks', underscores the limited robustness of CNNs and the need for research into fortifying their resistance against such manipulations. This study introduces a novel Non-Uniform Illumination (NUI) attack technique, where images are subtly altered using varying NUI masks. Extensive experiments are conducted on widely-accepted datasets including CIFAR10, TinyImageNet, and CalTech256, focusing on image classification with 12 different NUI attack models. The resilience of VGG, ResNet, MobilenetV3-small and InceptionV3 models against NUI attacks are evaluated. Our results show a substantial decline in the CNN models' classification accuracy when subjected to NUI attacks, indicating their vulnerability under non-uniform illumination. To mitigate this, a defense strategy is proposed, including NUI-attacked images, generated through the new NUI transformation, into the training set. The results demonstrate a significant enhancement in CNN model performance when confronted with perturbed images affected by NUI attacks. This strategy seeks to bolster CNN models' resilience against NUI attacks.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# LowFormer: 畳み込みトランスフォーマーバックボーンのためのハードウェア効率の良い設計

LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones ( http://arxiv.org/abs/2409.03460v1 )

ライセンス: Link先を確認
Moritz Nottebaum, Matteo Dunnhofer, Christian Micheloni, (参考訳) 効率的な視覚バックボーンの研究は、畳み込みとトランスフォーマーブロックの混合モデルに進化しつつある。 アーキテクチャとコンポーネントの両面でのスマートな組み合わせは、スピード精度のトレードオフを克服することが必須です。 ほとんどの出版物は精度を最大化し、MACを効率の指標として利用する。 しかし後者は、メモリアクセスコストや並列性の程度といった要因によって、モデルが実際にどれだけの速度であるかを正確に測定しないことが多い。 我々は、MACではなく、実際のスループットとレイテンシにおいて、バックボーンの共通モジュールとアーキテクチャ設計の選択を分析した。 この分析から得られた結論を適用し,マクロ設計におけるハードウェア効率向上のためのレシピを作成した。 さらに、我々は、分析と整合した、シンプルなスリムダウンバージョンのマルチヘッドセルフアテンションを導入しました。 マクロデザインとマイクロデザインを組み合わせることで,LowFormerと呼ばれる,ハードウェア効率のよいバックボーンネットワークの新たなファミリを作ります。 LowFormerはスループットとレイテンシの点で目覚ましいスピードアップを実現しますが、現在の最先端の効率的なバックボーンと同じような、あるいは優れた精度を実現しています。 ハードウェア効率設計の一般化性を証明するため,GPU,モバイルGPU,ARM CPU上での手法の評価を行った。 さらに、ダウンストリームタスクのオブジェクト検出とセマンティックセグメンテーションの利益が、ハードウェア効率の良いアーキテクチャから得られることを示す。 コードとモデルはhttps://github.com/altair 199797/LowFormer.comで入手できる。

Research in efficient vision backbones is evolving into models that are a mixture of convolutions and transformer blocks. A smart combination of both, architecture-wise and component-wise is mandatory to excel in the speedaccuracy trade-off. Most publications focus on maximizing accuracy and utilize MACs (multiply accumulate operations) as an efficiency metric. The latter however often do not measure accurately how fast a model actually is due to factors like memory access cost and degree of parallelism. We analyzed common modules and architectural design choices for backbones not in terms of MACs, but rather in actual throughput and latency, as the combination of the latter two is a better representation of the efficiency of models in real applications. We applied the conclusions taken from that analysis to create a recipe for increasing hardware-efficiency in macro design. Additionally we introduce a simple slimmed-down version of MultiHead Self-Attention, that aligns with our analysis. We combine both macro and micro design to create a new family of hardware-efficient backbone networks called LowFormer. LowFormer achieves a remarkable speedup in terms of throughput and latency, while achieving similar or better accuracy than current state-of-the-art efficient backbones. In order to prove the generalizability of our hardware-efficient design, we evaluate our method on GPU, mobile GPU and ARM CPU. We further show that the downstream tasks object detection and semantic segmentation profit from our hardware-efficient architecture. Code and models are available at https://github.com/ altair199797/LowFormer.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 自動ジャーナリズム

Automated Journalism ( http://arxiv.org/abs/2409.03462v1 )

ライセンス: Link先を確認
Wang Ngai Yeung, Tomás Dodds, (参考訳) データ駆動ジャーナリズムの普及に対応するために開発された自動ジャーナリズムは、コンピュータプログラムの助けを借りてニュースコンテンツの収集、生産、配信を自動化するプロセスを指す。 自動化ジャーナリズムに関連するアルゴリズム技術は、まだ開発の初期段階にあるが、初期採用者は、クリーンで構造化されたデータに基づいて定期的なニュースを生成する自動化ジャーナリズムの有用性を称賛している。 Associated PressとThe New York Timesは、金融とスポーツの問題を10年以上にわたって報道するニュースコンテンツを自動化してきた。 それでも、自動ジャーナリズムの研究は、AIシステムの背後にあるバイアスや、コンピュータプログラムを開発する人の人間のバイアスを含む、ニュース作成と配信にアルゴリズムを使用することの危険性を警告している。 自動化されたニュースコンテンツの普及は、ニュースルームのインフラ、ジャーナリストや他の非ジャーナリズム専門家の役割パフォーマンス、そして、ニュースコンテンツの配信に重要な意味を持つ。

Developed as a response to the increasing popularity of data-driven journalism, automated journalism refers to the process of automating the collection, production, and distribution of news content and other data with the assistance of computer programs. Although the algorithmic technologies associated with automated journalism remain in the initial stage of development, early adopters have already praised the usefulness of automated journalism for generating routine news based on clean, structured data. Most noticeably, the Associated Press and The New York Times have been automating news content to cover financial and sports issues for over a decade. Nevertheless, research on automated journalism is also alerting to the dangers of using algorithms for news creation and distribution, including the possible bias behind AI systems or the human bias of those who develop computer programs. The popularization of automated news content also has important implications for the infrastructure of the newsroom, the role performance of journalists and other non-journalistic professionals, and the distribution of news content to a datafied audience.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# グラフニューラルネットワークにおける注意機構の大量活性化特性

Characterizing Massive Activations of Attention Mechanism in Graph Neural Networks ( http://arxiv.org/abs/2409.03463v1 )

ライセンス: Link先を確認
Lorenzo Bini, Marco Sorbi, Stephane Marchand-Maillet, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造を持つデータを効果的にモデル化する手段として、ますます人気が高まっている。 近年,複雑なパターンを捉える能力を向上させるため,注意機構がGNNに統合されている。 本稿では,この統合の重要かつ未解明な結果である注意層内における大量活動(MA)の出現を明らかにするための,最初の総合的研究について述べる。 本稿では,異なるグラフトランスアーキテクチャにおけるエッジ特徴に着目し,MAの検出と解析を行う新しい手法を提案する。 本研究は,ZINC,TOX21,ProteINSなどのベンチマークデータセットを用いて,GNNモデルの評価を行う。 主な貢献は,(1)GNNにおける注意機構とMAs生成の直接リンクを確立すること,(2)アクティベーション比分布に基づくMAのロバスト定義と検出方法を開発すること,(3)潜在的な対策としてEBT(Explicit Bias Term)を導入すること,および,MAsの有無に基づいてロバスト性モデルを評価するための対角的枠組みとして探索することである。 本研究は,GraphTransformer,GraphiT,SANなど,異なるアーキテクチャにおける注意誘導型MAの出現と影響を明らかにする。 この研究は、注意機構、モデルアーキテクチャ、データセットの特徴、MAの出現の間の複雑な相互作用を明らかにし、より堅牢で信頼性の高いグラフモデルを開発する上で重要な洞察を提供する。

Graph Neural Networks (GNNs) have become increasingly popular for effectively modeling data with graph structures. Recently, attention mechanisms have been integrated into GNNs to improve their ability to capture complex patterns. This paper presents the first comprehensive study revealing a critical, unexplored consequence of this integration: the emergence of Massive Activations (MAs) within attention layers. We introduce a novel method for detecting and analyzing MAs, focusing on edge features in different graph transformer architectures. Our study assesses various GNN models using benchmark datasets, including ZINC, TOX21, and PROTEINS. Key contributions include (1) establishing the direct link between attention mechanisms and MAs generation in GNNs, (2) developing a robust definition and detection method for MAs based on activation ratio distributions, (3) introducing the Explicit Bias Term (EBT) as a potential countermeasure and exploring it as an adversarial framework to assess models robustness based on the presence or absence of MAs. Our findings highlight the prevalence and impact of attention-induced MAs across different architectures, such as GraphTransformer, GraphiT, and SAN. The study reveals the complex interplay between attention mechanisms, model architecture, dataset characteristics, and MAs emergence, providing crucial insights for developing more robust and reliable graph models.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# Tyche: 任意支払い機能付きコラテラルフリーのマルチパーティロジスティクス

Tyche: Collateral-Free Coalition-Resistant Multiparty Lotteries with Arbitrary Payouts ( http://arxiv.org/abs/2409.03464v1 )

ライセンス: Link先を確認
Quentin Kniep, Roger Wattenhofer, (参考訳) 我々は、事実上(漸近的にも)効率的な多党宝くじを行うためのプロトコルのファミリーであるTycheを提案し、中絶や多数党派に抵抗する。 我々のプロトコルはコミット・アンド・リベラルなアプローチに基づいており、衝突耐性ハッシュ関数のみを必要とする。 当社のすべてのプロトコルは、パブリックな掲示板としてブロックチェーンを使用します。 重要なのは、ランダム性を提供するために、それや他のサードパーティに頼らないことです。 また、参加者は購入以上の担保を投稿する必要はない。 正直な参加者は最終的に宝くじを解決でき、不正直な行動は正直な参加者の勝利確率を決して下げない。 さらに、すべての3つのプロトコルを匿名の宝くじに適合させ、勝者が特定の参加者と(特定の条件下で)リンクできないようにします。 私たちのプロトコルは安全で公平で、参加者のプライバシを保護しているものもあります。 最後に、Swiブロックチェーンに実装することで、プロトコル、特にトランザクション手数料のパフォーマンスを評価する。 ここでは、ユーザトランザクション毎の手数料が合理的に低く、当社のプロトコルが数百万の参加者をサポートする可能性があることが分かりました。

We propose Tyche, a family of protocols for performing practically (as well as asymptotically) efficient multiparty lotteries, resistant against aborts and majority coalitions. Our protocols are based on a commit-and-reveal approach, requiring only a collision-resistant hash function. All our protocols use a blockchain as a public bulletin board and for buy-in collection and payout settlement. Importantly though, they do not rely on it or any other third party for providing randomness. Also, participants are not required to post any collateral beyond their buy-in. Any honest participant can eventually settle the lottery, and dishonest behavior never reduces the winning probability of any honest participant. Further, we adapt all three protocols into anonymous lotteries, where (under certain conditions) the winner is unlinkable to any particular participant. We show that our protocols are secure, fair, and some preserve the participants' privacy. Finally, we evaluate the performance of our protocols, particularly in terms of transaction fees, by implementing them on the Sui blockchain. There we see that per user transaction fees are reasonably low and our protocols could potentially support millions of participants.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# パノプティコン:PLATO光曲線における先行データフィルタリングなしで単一トランジットイベントを検出する新しいディープラーニングモデル

Panopticon: a novel deep learning model to detect single transit events with no prior data filtering in PLATO light curves ( http://arxiv.org/abs/2409.03466v1 )

ライセンス: Link先を確認
H. G. Vivien, M. Deleuil, N. Jannsen, J. De Ridder, D. Seynaeve, M. -A. Carpine, Y. Zerah, (参考訳) 今後のPLATO光曲線の解析のために,高精度光度曲線の遷移を検出する深層学習モデルであるPanopticonを開発した。 PLATOの主な目的は、太陽型恒星の周りの温暖な地球規模の惑星を検出することであるため、このコードは個々のトランジットイベントを検出するように設計されている。 従来の検出方法が要求するフィルタリングステップは、長大かつ浅いトランジットの問題となるトランジットに影響を与える可能性がある。 トランジットの形状と深さを保護するため、符号はフィルターなしの光曲線でも動作するように設計されている。 シミュレーションされたPLATO光曲線を用いて, 惑星, 楕円形, 背景楕円形のいずれかの画素レベルでモデルを訓練した。 また、グラニュラー化、恒星の斑点、宇宙線など、さまざまなノイズもデータに含んでいます。 このアプローチは、未濾過光度曲線でさえも、地球カタログの25%以上を含む、我々のテスト人口の90%を回復することができる。 モデルはまた、軌道周期に関係なくトランジットを回復し、ユニークな事象に基づいてトランジットを回収することができる。 これらの数値は、誤報率1%を受け入れると得られる。 誤報率を低くする(0.01%)と、輸送信号の85%以上を回復することができる。 180ppm以上のトランジットは、基本的に回復することが保証されている。 この方法では、ユニークなイベントベースでトランジットを復元することができ、誤警報率を低く抑えることができる。 1次元の光曲線のおかげで、モデルトレーニングは高速で、1モデルにつき数時間の順序で行われる。 このトレーニングと推論のスピードは、モデルの回復効率と精度と相まって、古典的なアプローチを補完したり、利用したりするのに理想的なツールになります。

To prepare for the analyses of the future PLATO light curves, we develop a deep learning model, Panopticon, to detect transits in high precision photometric light curves. Since PLATO's main objective is the detection of temperate Earth-size planets around solar-type stars, the code is designed to detect individual transit events. The filtering step, required by conventional detection methods, can affect the transit, which could be an issue for long and shallow transits. To protect transit shape and depth, the code is also designed to work on unfiltered light curves. We trained the model on a set of simulated PLATO light curves in which we injected, at pixel level, either planetary, eclipsing binary, or background eclipsing binary signals. We also include a variety of noises in our data, such as granulation, stellar spots or cosmic rays. The approach is able to recover 90% of our test population, including more than 25% of the Earth-analogs, even in the unfiltered light curves. The model also recovers the transits irrespective of the orbital period, and is able to retrieve transits on a unique event basis. These figures are obtained when accepting a false alarm rate of 1%. When keeping the false alarm rate low (<0.01%), it is still able to recover more than 85% of the transit signals. Any transit deeper than 180ppm is essentially guaranteed to be recovered. This method is able to recover transits on a unique event basis, and does so with a low false alarm rate. Thanks to light curves being one-dimensional, model training is fast, on the order of a few hours per model. This speed in training and inference, coupled to the recovery effectiveness and precision of the model make it an ideal tool to complement, or be used ahead of, classical approaches.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 最適二階微分均一性をもつ立方的パワー関数

Cubic power functions with optimal second-order differential uniformity ( http://arxiv.org/abs/2409.03467v1 )

ライセンス: Link先を確認
Connor O'Reilly, Ana Sălăgean, (参考訳) 本稿では, ブーメラン攻撃に対する耐性を示すため, ベクトルブール関数の2次微分均一性について論じる。 まず、二階ゼロ微分均一性とその最近の文献との関係について論じる。 次に、単項函数の単項函数の最適性を証明する:$x^d$ where $d=2^{2k}+2^k+1$ and $\gcd(k,n)=1$。 最後に,計算結果から生じるさらなる疑問について考察する。

We discuss the second-order differential uniformity of vectorial Boolean functions, a relevant cryptographic property due to indication of resistance to the boomerang attack. First, we discuss connections with the second-order zero differential uniformity and its recent literature. We then prove the optimality of monomial functions with univariate form $x^d$ where $d=2^{2k}+2^k+1$ and $\gcd(k,n)=1$, and begin work towards generalising such conditions to all monomial functions of algebraic degree 3. Finally, we discuss further questions arising from computational results.
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 深部ベイズ医用画像分割における不確かさと誤りの対応性の改善

Improving Uncertainty-Error Correspondence in Deep Bayesian Medical Image Segmentation ( http://arxiv.org/abs/2409.03470v1 )

ライセンス: Link先を確認
Prerak Mody, Nicolas F. Chaves-de-Plaza, Chinmay Rao, Eleftheria Astrenidou, Mischa de Ridder, Nienke Hoekstra, Klaus Hildebrandt, Marius Staring, (参考訳) 医用画像のセグメンテーションにおけるディープラーニングのような自動化ツールの使用の増加は、手動コントゥーリングのボトルネックを軽減する。 これは手作業から,エラーの検出と修正を含む自動輪郭の品質評価(QA)へと移行した。 半自動QAの潜在的な解決策は、深いベイズの不確実性を使用して、潜在的に誤った領域を推奨し、エラー検出に費やした時間を短縮することである。 従来,不確かさと誤りの対応について検討されてきたが,ベイズの不確実性マップの「有効性」を改善するための研究は行われていない。 我々の研究は、不正確な領域にのみ存在する不確実性を促進する精度-vs-不確実性(AvU)損失でFlipOutモデルを訓練する。 本手法を頭頸部CTと前立腺MRIの2つの放射線治療部位のデータセットに適用する。 不確実性熱マップ(すなわち予測エントロピー)は、受信器動作特性(ROC)と高精度リコール(PR)曲線を用いてボクセル不正確な値に対して評価される。 数値計算により,ベイズ基底線と比較した場合,提案手法は精度の高いボクセルの不確かさを抑えることができた。 実験を再現するコードはhttps://github.com/prerakmody/bayesuncertainty-error-corssociatedenceで公開されている。

Increased usage of automated tools like deep learning in medical image segmentation has alleviated the bottleneck of manual contouring. This has shifted manual labour to quality assessment (QA) of automated contours which involves detecting errors and correcting them. A potential solution to semi-automated QA is to use deep Bayesian uncertainty to recommend potentially erroneous regions, thus reducing time spent on error detection. Previous work has investigated the correspondence between uncertainty and error, however, no work has been done on improving the "utility" of Bayesian uncertainty maps such that it is only present in inaccurate regions and not in the accurate ones. Our work trains the FlipOut model with the Accuracy-vs-Uncertainty (AvU) loss which promotes uncertainty to be present only in inaccurate regions. We apply this method on datasets of two radiotherapy body sites, c.f. head-and-neck CT and prostate MR scans. Uncertainty heatmaps (i.e. predictive entropy) are evaluated against voxel inaccuracies using Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves. Numerical results show that when compared to the Bayesian baseline the proposed method successfully suppresses uncertainty for accurate voxels, with similar presence of uncertainty for inaccurate voxels. Code to reproduce experiments is available at https://github.com/prerakmody/bayesuncertainty-error-correspondence
翻訳日:2024-09-06 20:50:03 公開日:2024-09-05
# 光子サブトラクションによるガウス状態の精製

Purification of Gaussian States by Photon Subtraction ( http://arxiv.org/abs/2409.03473v1 )

ライセンス: Link先を確認
Kun Zhang, Huijun Li, Jietai Jing, Nicolas Treps, Mattia Walschaers, (参考訳) 光子サブトラクションは絡み合いを高め、純状態は還元状態の純度を減少させる。 対照的に、ガウス状態の純度を1つの光子を減算した後に解析することにより、ガウス状態の純度も20%以下に向上できることを示す。 一方、光子サブトラクションは絡み合いを減らし、一方、ガウス状態の浄化を限定的に達成できることを明らかにした。 いくつかの例の分析を通して、光子減量に基づく精製の固有のメカニズムと適用範囲を実証する。 マルチモードシステムでは、光子サブトラクションは絡み合いを増大させ、還元状態のいくつかを同時に浄化することができる。 そこで我々は,連続可変量子情報処理における光子サブトラクションの新しい応用として,ガウス雑音の抑制による浄化を提案する。

Photon subtraction can enhance entanglement, which for pure states induces a decrease in the purity of reduced states. In contrast, by analyzing the purities of Gaussian states before and after subtracting a single photon, we prove that the purity of a Gaussian state can also be increased by less than 20%. On the one hand, it reveals that photon subtraction can reduce entanglement, and on the other hand, it reveals that it can achieve a limited amount of Gaussian state purification. Through the analysis of some examples, we demonstrate the inherent mechanism and applicable scope of photon-subtraction-based purification. In a multimode system, we find that photon subtraction can increase entanglement and purify some of the reduced states simultaneously. We thus present purification through the suppression of Gaussian noise as a new application for photon subtraction in continuous-variable quantum information processing.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 重力の量子イメージング

Quantum Imaging of Gravity ( http://arxiv.org/abs/2409.03477v1 )

ライセンス: Link先を確認
Marian Cepok, Dennis Rätzel, Claus Lämmerzahl, (参考訳) 本稿では、2つの可能な位置の1つで光子を放出する原子を用いて重力場を測定するための量子イメージングによるセットアップを提案する。 原子は光子と共有する重力誘起量子相を取得する。 重力場と相互作用した後、原子の経路アイデンティティを復元することにより、重力誘起相は原子のさらなる測定を必要とせずに光子干渉法を用いて測定することができる。 様々な干渉測定装置で繰り返し測定することで、重力ポテンシャルと慣性加速度を推定することができる。

We propose a quantum imaging-inspired setup for measuring gravitational fields using an atom that emits a photon at one of two possible locations. The atom acquires a gravitationally induced quantum phase that it shares with the photon. By restoring the path identity of the atom after its interaction with the gravitational field, the gravitationally induced phase can be measured using photon interferometry without the need for additional measurements on the atom. Through repeated measurements with varying interferometric setups, the gravitational potential and inertial acceleration can be deduced.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# LLMによるIoTソースログのイベント抽象化と統合

LLM-based event abstraction and integration for IoT-sourced logs ( http://arxiv.org/abs/2409.03478v1 )

ライセンス: Link先を確認
Mohsen Shirali, Mohammadreza Fani Sani, Zahra Ahmadi, Estefania Serral, (参考訳) IoT(Internet of Things)デバイスによって収集されるデータの継続的なフローは、さまざまなアプリケーションで世界を理解し、対話する能力に革命をもたらした。 しかし、分析を開始する前に、このデータは準備され、イベントデータに変換されなければならない。 本稿では,イベント抽象化と統合において,LLM(Large Language Models)を活用する可能性について述べる。 当社のアプローチは、生のセンサ読み取りからイベントレコードを作成し、複数のIoTソースからのログを、プロセスマイニングアプリケーションに適した単一のイベントログにマージすることを目的としています。 高齢者介護と縦断的健康モニタリングにおけるIoT応用のケーススタディとして,イベント抽象化におけるLCMの機能を示す。 その結果,高レベル活動の検出において平均90%の精度が得られた。 これらの結果は、イベント抽象化と統合の課題に対処するLLMの有望な可能性を強調し、既存のギャップを効果的に埋める。

The continuous flow of data collected by Internet of Things (IoT) devices, has revolutionised our ability to understand and interact with the world across various applications. However, this data must be prepared and transformed into event data before analysis can begin. In this paper, we shed light on the potential of leveraging Large Language Models (LLMs) in event abstraction and integration. Our approach aims to create event records from raw sensor readings and merge the logs from multiple IoT sources into a single event log suitable for further Process Mining applications. We demonstrate the capabilities of LLMs in event abstraction considering a case study for IoT application in elderly care and longitudinal health monitoring. The results, showing on average an accuracy of 90% in detecting high-level activities. These results highlight LLMs' promising potential in addressing event abstraction and integration challenges, effectively bridging the existing gap.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 非古典的量子調和振動子の任意の重ね合わせの生成

Generating arbitrary superpositions of nonclassical quantum harmonic oscillator states ( http://arxiv.org/abs/2409.03482v1 )

ライセンス: Link先を確認
S. Saner, O. Băzăvan, D. J. Webb, G. Araneda, D. M. Lucas, C. J. Ballance, R. Srinivas, (参考訳) 量子調和振動子の完全コヒーレント制御と重ね合わせの生成は、基本的な関心だけでなく、量子シミュレーション、量子エンハンスド・メトロジー、連続変数量子計算における応用にも不可欠である。 そのような重ね合わせの非古典状態への拡張は、そのような応用のリソースとしての力を増加させる。 ここでは、閉じ込められたイオンの運動を内部スピン状態に結合させた量子調和振動子の非古典状態および非ガウス状態の任意の重ね合わせを作成する。 振動子のコヒーレンスを保ったスピンのスピン依存非線形ボソニック相互作用と中間回路計測をインターリーブする。 これらの技術は、複雑な値のスクイージングパラメータと各成分の確率振幅を独立に制御し、その空間的分離とともに、これまで実証されたことのない、スクイージング状態、トリスキュージング状態、クワッドスキュージング状態の間の重ね合わせの生成を可能にする。 我々は、これらの状態の古典的でない性質を、完全な状態再構成の後、ウィグナー負性という形で直接観察する。 本手法は、量子調和振動子をスピンに結合する任意の系に適用する。

Full coherent control and generation of superpositions of the quantum harmonic oscillator are not only of fundamental interest but are crucial for applications in quantum simulations, quantum-enhanced metrology and continuous-variable quantum computation. The extension of such superpositions to nonclassical states increases their power as a resource for such applications. Here, we create arbitrary superpositions of nonclassical and non-Gaussian states of a quantum harmonic oscillator using the motion of a trapped ion coupled to its internal spin states. We interleave spin-dependent nonlinear bosonic interactions and mid-circuit measurements of the spin that preserve the coherence of the oscillator. These techniques enable the creation of superpositions between squeezed, trisqueezed, and quadsqueezed states, which have never been demonstrated before, with independent control over the complex-valued squeezing parameter and the probability amplitude of each constituent, as well as their spatial separation. We directly observe the nonclassical nature of these states in the form of Wigner negativity following a full state reconstruction. Our methods apply to any system where a quantum harmonic oscillator is coupled to a spin.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# ScreenMark:スクリーン上の任意のビジュアルコンテンツを透かし出す

ScreenMark: Watermarking Arbitrary Visual Content on Screen ( http://arxiv.org/abs/2409.03487v1 )

ライセンス: Link先を確認
Xiujian Liang, Gaozhi Liu, Yichao Si, Xiaoxiao Hu, Zhenxing Qian, Xinpeng Zhang, (参考訳) デジタル透かしはマルチメディアコンテンツの保護に有効であることを示す。 しかし、既存の透かしは主に特定のメディアタイプ向けに調整されており、しばしばマルチモーダルでダイナミックなコンピュータ画面に表示されるコンテンツの保護には効果が低い。 Visual Screen Content (VSC)は、特にスクリーンショットによる盗難や漏洩を受けやすい。これは、現在の透かしメソッドが適切に対処できない脆弱性である。これらの課題に取り組むために、任意のVSC保護のために特別に設計された堅牢で実用的な透かし方法であるScreenMarkを提案する。 ScreenMarkは3段階のプログレッシブな透かしフレームワークを使用している。 当初は拡散原理に着想を得て,正規透かし情報と不規則透かしパターンの相互変換を初期化する。 その後、これらのパターンは、事前に訓練されたスクリーンデコーダによってサポートされ、正確な透かし検索のために、プリコンパイルアルファブレンディング技術を用いて画面コンテンツと統合される。 進行的に複雑な歪みは、実際のスクリーンショットシナリオにおける透かしの堅牢性を高める。 最後に,ScreenMarkの有効性を検証するため,様々なデバイスや解像度のスクリーンショット10万枚からなるデータセットを作成した。 異なるデータセットにわたる大規模な実験により、メソッドの優れた堅牢性、非受容性、実用的な適用性が確認された。

Digital watermarking has demonstrated its effectiveness in protecting multimedia content. However, existing watermarking are predominantly tailored for specific media types, rendering them less effective for the protection of content displayed on computer screens, which is often multimodal and dynamic. Visual Screen Content (VSC), is particularly susceptible to theft and leakage via screenshots, a vulnerability that current watermarking methods fail to adequately address.To tackle these challenges, we propose ScreenMark, a robust and practical watermarking method designed specifically for arbitrary VSC protection. ScreenMark utilizes a three-stage progressive watermarking framework. Initially, inspired by diffusion principles, we initialize the mutual transformation between regular watermark information and irregular watermark patterns. Subsequently, these patterns are integrated with screen content using a pre-multiplication alpha blending technique, supported by a pre-trained screen decoder for accurate watermark retrieval. The progressively complex distorter enhances the robustness of the watermark in real-world screenshot scenarios. Finally, the model undergoes fine-tuning guided by a joint-level distorter to ensure optimal performance.To validate the effectiveness of ScreenMark, we compiled a dataset comprising 100,000 screenshots from various devices and resolutions. Extensive experiments across different datasets confirm the method's superior robustness, imperceptibility, and practical applicability.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# L0規則化によるパラメトリックモデルのスポーリング

Sparsifying Parametric Models with L0 Regularization ( http://arxiv.org/abs/2409.03489v1 )

ライセンス: Link先を確認
Nicolò Botteghi, Urban Fasel, (参考訳) 本論文は,L0正則化を用いたパラメトリックモデルのスパース化問題に関する教育的紹介を含む。 我々は,この手法を辞書学習と併用して,パラメトリック偏微分方程式を制御する深層強化学習のための疎多項式ポリシーを学習する。 https://github.com/nicob15/Sparsifying-Parametric-Models-with-L0.com(source)。

This document contains an educational introduction to the problem of sparsifying parametric models with L0 regularization. We utilize this approach together with dictionary learning to learn sparse polynomial policies for deep reinforcement learning to control parametric partial differential equations. The code and a tutorial are provided here: https://github.com/nicob15/Sparsifying-Parametric-Models-with-L0.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# ベイズ的曖昧性集合による分布ロバスト最適化

Distributionally Robust Optimisation with Bayesian Ambiguity Sets ( http://arxiv.org/abs/2409.03492v1 )

ライセンス: Link先を確認
Charita Dellaporta, Patrick O'Hara, Theodoros Damoulas, (参考訳) データ生成プロセス(DGP)がよく知られていないため、不確実性の下での意思決定は困難である。 ベイズ予想は、モデルのパラメータに関する後続の信念を通じてDGPを推定することによって進行する。 しかし、これらの後続の信念の下で予測されるリスクを最小化することは、モデルの不確実性や限られたノイズの観測による最適以下の決定につながる可能性がある。 これを解決するために,ベイズアンビグニティ・セット(DRO-BAS)を用いた分散ロバスト・オプティマイゼーションを導入し,後部インフォームド・アンビグニティ・セットよりも最悪のケースリスクを最適化することで,モデルの不確実性に対してヘッジを行う。 本手法は,多くの指数関数的家族に対して閉形式二重表現を認め,ニューズベンドール問題における既存のベイズ的DRO手法に対して改良されたサンプル外ロバスト性を示す。

Decision making under uncertainty is challenging since the data-generating process (DGP) is often unknown. Bayesian inference proceeds by estimating the DGP through posterior beliefs about the model's parameters. However, minimising the expected risk under these posterior beliefs can lead to sub-optimal decisions due to model uncertainty or limited, noisy observations. To address this, we introduce Distributionally Robust Optimisation with Bayesian Ambiguity Sets (DRO-BAS) which hedges against uncertainty in the model by optimising the worst-case risk over a posterior-informed ambiguity set. We show that our method admits a closed-form dual representation for many exponential family members and showcase its improved out-of-sample robustness against existing Bayesian DRO methodology in the Newsvendor problem.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 結合した一方向カオスマイクロ波グラフ

Coupled unidirectional chaotic microwave graphs ( http://arxiv.org/abs/2409.03493v1 )

ライセンス: Link先を確認
Omer Farooq, Afshin Akhshani, Michał Ławniczak, Małgorzata Białous, Leszek Sirko, (参考訳) 本研究は,非指向性オープンマイクロ波ネットワークである$\Gamma $と$\Gamma_{+} $と$\Gamma_{-} $の2つの結合配向された一方向ネットワークからなる内部吸収を用いて実験的に検討した。 ネットワークの2ポート散乱行列である$\Gamma$を測定し、ネットワークのスペクトル統計と弾性増強係数を評価する。 ワイルの法則によって予測される実験共鳴の数と理論共鳴の数を比較すると、実験分解では共鳴は二重に縮退していることがわかる。 この結論は、数値計算によっても裏付けられた。 このネットワークは時間反転対称性によって特徴づけられるが、欠落レベルスペクトル統計と弾性増強係数は確率行列理論におけるガウスユニタリアンサンブル予測にかなり近い。 我々はマイクロ波ネットワークの$\Gamma$と同じ構造を持つ開非散逸量子グラフの数値計算を用いて、他の方法では解決されないスペクトルの二重構造を調べた。 ダブルトサイズ分布はポアソン分布に近いことを示す。

We investigate experimentally the undirected open microwave network $\Gamma $ with internal absorption composed of two coupled directed halves, unidirectional networks $\Gamma_{+} $ and $\Gamma_{-} $, corresponding to two possible directions of motion on their edges. The two-port scattering matrix of the network $\Gamma$ is measured and the spectral statistics and the elastic enhancement factor of the network are evaluated. The comparison of the number of experimental resonances with the theoretical one predicted by the Weyl's law shows that within the experimental resolution the resonances are doubly degenerate. This conclusion was also corroborated by the numerical calculations. Though the network is characterized by the time reversal symmetry the missing level spectral statistics and the elastic enhancement factor are rather close to the Gaussian unitary ensemble predictions in random matrix theory. We used numerical calculations for the open non-dissipative quantum graph possessing the same structure as the microwave network $\Gamma$ to investigate the doublet structures in the spectrum which otherwise would not be experimentally resolved. We show that the doublet size distribution is close to the Poisson distribution.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 多変数関係を持つ高次元問題に対する最大確率推定

Maximum likelihood inference for high-dimensional problems with multiaffine variable relations ( http://arxiv.org/abs/2409.03495v1 )

ライセンス: Link先を確認
Jean-Sébastien Brouillon, Florian Dörfler, Giancarlo Ferrari-Trecate, (参考訳) 連続変数モデルの最大様相推定は、潜在的に複雑な確率分布のため、高次元において非常に困難である。 変数間の多重相互依存性の存在は収束保証を確立するのを非常に困難にする。 これにより、グリッド探索やモンテカルロサンプリングなどのブルートフォース法や、適用可能な場合、複雑で問題固有のアルゴリズムが広く使われるようになる。 本稿では,変数がマルチファイン表現によって関連付けられている推論問題について考察する。 本稿では, 一般化正規分布問題に対して, 交互・反復重み付き最小二乗法 (AIRLS) アルゴリズムを提案し, その収束性を証明する。 また,AIRLSを用いて得られた推定値の分散を効率的に計算する手法を提案する。 最後に,この手法がグラフィカルな統計モデルにどのように適用できるかを示す。 我々はいくつかの推論問題について数値実験を行い、経験的に観察された超線形収束率によるスケーラビリティ、雑音に対する堅牢性、収束速度の観点から、最先端手法よりもはるかに優れた性能を示す。

Maximum Likelihood Estimation of continuous variable models can be very challenging in high dimensions, due to potentially complex probability distributions. The existence of multiple interdependencies among variables can make it very difficult to establish convergence guarantees. This leads to a wide use of brute-force methods, such as grid searching and Monte-Carlo sampling and, when applicable, complex and problem-specific algorithms. In this paper, we consider inference problems where the variables are related by multiaffine expressions. We propose a novel Alternating and Iteratively-Reweighted Least Squares (AIRLS) algorithm, and prove its convergence for problems with Generalized Normal Distributions. We also provide an efficient method to compute the variance of the estimates obtained using AIRLS. Finally, we show how the method can be applied to graphical statistical models. We perform numerical experiments on several inference problems, showing significantly better performance than state-of-the-art approaches in terms of scalability, robustness to noise, and convergence speed due to an empirically observed super-linear convergence rate.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# AIによるニュースの開示はエンゲージメントを増加させるが、肯定的な品質評価にもかかわらず回避はしない

Disclosure of AI-Generated News Increases Engagement but Does Not Reduce Aversion, Despite Positive Quality Ratings ( http://arxiv.org/abs/2409.03500v1 )

ライセンス: Link先を確認
Fabrizio Gilardi, Sabrina Di Lorenzo, Juri Ezzaini, Beryl Santa, Benjamin Streiff, Eric Zurfluh, Emma Hoes, (参考訳) 人工知能(AI)の進歩は、ジャーナリズムを含む多くの分野で応用されている。 重要な問題のひとつは、AI生成コンテンツに対する大衆の認識だ。 この事前登録された研究は i) 人為的ニュース記事に対するAI支援とAI生成の認知的品質。 (二)これらのニュース記事作成におけるAIの関与の開示が、それらとの関わりに影響を及ぼすか否か、及び 三 こうした意識が将来、AI生成記事を読む意欲に影響を及ぼすか否か。 我々は,スイスのドイツ語話者599名の被験者を対象に,ニュース記事の信頼性,可読性,専門性を評価した。 これらの記事は、ジャーナリスト(制御グループ)によって書かれたり、AI(AI支援グループ)によって書き直されたり、AI(AI生成グループ)によって完全に生成されたりする。 その結果、ジャーナリストやAIが書いたかに関わらず、全てのニュース記事が同等の質であると認識されていたことが示唆された。 治療グループの参加者がその後、記事の生成にAIが関与していることに気付くと、彼らは、制御グループの参加者よりも記事への関与(すなわち、読み続けること)を高い意思で表明した。 しかし、彼らは将来AIが生み出すニュースを読みたいとは思っていなかった。 これらの結果は、ニュースメディアにおけるAIの使用に対する嫌悪は、主に品質の欠如が原因ではないことを示唆している。

The advancement of artificial intelligence (AI) has led to its application in many areas, including journalism. One key issue is the public's perception of AI-generated content. This preregistered study investigates (i) the perceived quality of AI-assisted and AI-generated versus human-generated news articles, (ii) whether disclosure of AI's involvement in generating these news articles influences engagement with them, and (iii) whether such awareness affects the willingness to read AI-generated articles in the future. We employed a between-subjects survey experiment with 599 participants from the German-speaking part of Switzerland, who evaluated the credibility, readability, and expertise of news articles. These articles were either written by journalists (control group), rewritten by AI (AI-assisted group), or entirely generated by AI (AI-generated group). Our results indicate that all news articles, regardless of whether they were written by journalists or AI, were perceived to be of equal quality. When participants in the treatment groups were subsequently made aware of AI's involvement in generating the articles, they expressed a higher willingness to engage with (i.e., continue reading) the articles than participants in the control group. However, they were not more willing to read AI-generated news in the future. These results suggest that aversion to AI usage in news media is not primarily rooted in a perceived lack of quality, and that by disclosing using AI, journalists could attract more immediate engagement with their content, at least in the short term.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 完全連結スピンモデルにおけるディジタル化された反断熱QAOAにおけるギャップの役割

The role of gaps in digitized counterdiabatic QAOA for fully-connected spin models ( http://arxiv.org/abs/2409.03503v1 )

ライセンス: Link先を確認
Mara Vizzuso, Gianluca Passarelli, Giovanni Cantele, Procolo Lucignano, (参考訳) 近年,量子近似最適化アルゴリズム(QAOA)に対するCD補正が提案されている。 本稿では,この手法をランダム結合を持つ完全連結スピンモデルに適用する。 本研究では,解析したインスタンスのスペクトル特性にアルゴリズムの性能が関係していることを示す。 特に、基底状態と第一励起状態の間のギャップが大きいほど、正確な解への収束が良くなる。

Recently, digitized-counterdiabatic (CD) corrections to the quantum approximate optimization algorithm (QAOA) have been proposed, yielding faster convergence within the desired accuracy than standard QAOA. In this manuscript, we apply this approach to a fully-connected spin model with random couplings. We show that the performances of the algorithm are related to the spectral properties of the instances analyzed. In particular, the larger the gap between the ground state and the first excited states, the better the convergence to the exact solution.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# データ駆動型ニューズベンダーの調査:達成可能なレグレットの統一分析とスペクトル

Survey of Data-driven Newsvendor: Unified Analysis and Spectrum of Achievable Regrets ( http://arxiv.org/abs/2409.03505v1 )

ライセンス: Link先を確認
Zhuoxin Chen, Will Ma, (参考訳) Newsvendor の問題では、ある分布から引き出される数を推測することであり、非対称な結果が高すぎるか低すぎるかを推測することである。 データ駆動バージョンでは、分散は未知であり、分散からのサンプルを扱う必要がある。 データ駆動型Newsvendorは、加法対乗法的後悔、高い確率対期待境界、異なる分布クラスなど、多くの変種で研究されている。 本稿では、これらの変種の組み合わせをすべて研究し、文献の多くのギャップを埋め、多くの証明を単純化する。 特に、クラスタ化された分布の概念に基づく統一的な解析を提供し、これは新しい下界と共に、1/\sqrt{n}$ と $1/n$ の間の後悔のスペクトル全体の成すスペクトルが可能であることを示す。

In the Newsvendor problem, the goal is to guess the number that will be drawn from some distribution, with asymmetric consequences for guessing too high vs. too low. In the data-driven version, the distribution is unknown, and one must work with samples from the distribution. Data-driven Newsvendor has been studied under many variants: additive vs. multiplicative regret, high probability vs. expectation bounds, and different distribution classes. This paper studies all combinations of these variants, filling in many gaps in the literature and simplifying many proofs. In particular, we provide a unified analysis based on the notion of clustered distributions, which in conjunction with our new lower bounds, shows that the entire spectrum of regrets between $1/\sqrt{n}$ and $1/n$ can be possible.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# 物理インフォームド機械学習による分散次数差分方程式の解法

A Physics-Informed Machine Learning Approach for Solving Distributed Order Fractional Differential Equations ( http://arxiv.org/abs/2409.03507v1 )

ライセンス: Link先を確認
Alireza Afzal Aghaei, (参考訳) 本稿では,物理インフォームド機械学習フレームワークを用いた分散次分数差分方程式の解法を提案する。 このアプローチの中核は、トレーニングフェーズにおける支配方程式の未知の解を近似するために、サポートベクトル回帰(SVR)アルゴリズムを拡張することである。 分散階関数式をSVRフレームワークに組み込むことで、物理法則を直接学習プロセスに組み込む。 計算効率をさらに高めるために、ゲゲンバウアー直交多項式がカーネル関数として使われ、その分数微分特性を利用して問題定式化を効率化する。 最後に、SVRの結果として生じる最適化問題は、二次プログラミング問題または正定値システムとしてその双対形式に対処する。 提案手法の有効性は, 通常の偏微分と偏微分の両方を含む, カプトー型分散次分数差分方程式に関する一連の数値実験によって検証される。

This paper introduces a novel methodology for solving distributed-order fractional differential equations using a physics-informed machine learning framework. The core of this approach involves extending the support vector regression (SVR) algorithm to approximate the unknown solutions of the governing equations during the training phase. By embedding the distributed-order functional equation into the SVR framework, we incorporate physical laws directly into the learning process. To further enhance computational efficiency, Gegenbauer orthogonal polynomials are employed as the kernel function, capitalizing on their fractional differentiation properties to streamline the problem formulation. Finally, the resulting optimization problem of SVR is addressed either as a quadratic programming problem or as a positive definite system in its dual form. The effectiveness of the proposed approach is validated through a series of numerical experiments on Caputo-based distributed-order fractional differential equations, encompassing both ordinary and partial derivatives.
翻訳日:2024-09-06 20:40:17 公開日:2024-09-05
# MOOCからMAICへ:LLMエージェントによるオンライン教育と学習の再構築

From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents ( http://arxiv.org/abs/2409.03512v1 )

ライセンス: Link先を確認
Jifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun, (参考訳) オンライン教育の最初の例では、アクセス可能で共有可能なオンラインプラットフォームにコースがアップロードされた。 パーソナライズされた学習が依然として改善の可能性を秘めていることを認識し、新しいAI技術はこの学習形式に継続的に統合され、教育勧告やインテリジェントなチュータリングなど、さまざまな教育AIアプリケーションを生み出している。 大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現により、これらの教育強化は統合された基礎モデルの上に構築され、より深い統合を可能にした。 そこで本研究では,LLM駆動型マルチエージェントシステムを活用して,拡張性と適応性とを両立させる,MAIC(Massive AI-empowered Course)を提案する。 概念的枠組みと技術革新を探求するだけでなく、中国一の大学である清華大学で予備的な実験を行っている。 500人以上の学生の10万人以上の学習記録から、一連の貴重な観察と初期分析を得た。 このプロジェクトは今後も進化を続け、最終的には、大規模なモデルAIの時代におけるオンライン教育の可能性を探究する研究、技術、アプリケーションをサポートし、統合する、包括的なオープンプラットフォームを確立することを目指している。 私たちはこのプラットフォームをコラボレーティブハブとして考えており、教育者、研究者、イノベーターをまとめて、AIによるオンライン教育の未来を探求します。

Since the first instances of online education, where courses were uploaded to accessible and shared online platforms, this form of scaling the dissemination of human knowledge to reach a broader audience has sparked extensive discussion and widespread adoption. Recognizing that personalized learning still holds significant potential for improvement, new AI technologies have been continuously integrated into this learning format, resulting in a variety of educational AI applications such as educational recommendation and intelligent tutoring. The emergence of intelligence in large language models (LLMs) has allowed for these educational enhancements to be built upon a unified foundational model, enabling deeper integration. In this context, we propose MAIC (Massive AI-empowered Course), a new form of online education that leverages LLM-driven multi-agent systems to construct an AI-augmented classroom, balancing scalability with adaptivity. Beyond exploring the conceptual framework and technical innovations, we conduct preliminary experiments at Tsinghua University, one of China's leading universities. Drawing from over 100,000 learning records of more than 500 students, we obtain a series of valuable observations and initial analyses. This project will continue to evolve, ultimately aiming to establish a comprehensive open platform that supports and unifies research, technology, and applications in exploring the possibilities of online education in the era of large model AI. We envision this platform as a collaborative hub, bringing together educators, researchers, and innovators to collectively explore the future of AI-driven online education.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# リアルタイムビデオ編集における注意制御下のブレンド潜時拡散

Blended Latent Diffusion under Attention Control for Real-World Video Editing ( http://arxiv.org/abs/2409.03514v1 )

ライセンス: Link先を確認
Deyin Liu, Lin Yuanbo Wu, Xianghua Xie, (参考訳) 完全公開のテキスト・ツー・ビデオモデルがないため、現在のビデオ編集手法はトレーニング済みのテキスト・ツー・イメージ生成モデルで構築される傾向にあるが、ビデオの局所的な編集と時間的情報を扱うという大きな課題に直面している。 まず, 既定マスクによる局所領域の編集に焦点をあてる手法は存在するが, 各フレームの空間的全体発生により, 外部領域の背景の保存は非理想的である。 また、特にユーザによるマスクの提供はコストのかかる作業であり、編集プロセスに統合された自律的なマスキング戦略が望ましい。 最後に、画像レベルの事前訓練されたモデルは、動画のフレーム全体で時間情報を学習していない。 本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜時拡散モデルを適用することを提案する。 具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるビデオではなく、背景潜伏者として潜伏者を取得することで、入力ビデオの背景情報をよりよく保存する。 さらに,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。 最後に,U-Netの自己保持ブロックを時間空間ブロックに変換することにより,ビデオフレーム間の時間的一貫性を向上させる。 提案手法は広範にわたる実験を通じて,様々な実世界の映像編集作業における有効性を示す。

Due to lack of fully publicly available text-to-video models, current video editing methods tend to build on pre-trained text-to-image generation models, however, they still face grand challenges in dealing with the local editing of video with temporal information. First, although existing methods attempt to focus on local area editing by a pre-defined mask, the preservation of the outside-area background is non-ideal due to the spatially entire generation of each frame. In addition, specially providing a mask by user is an additional costly undertaking, so an autonomous masking strategy integrated into the editing process is desirable. Last but not least, image-level pretrained model hasn't learned temporal information across frames of a video which is vital for expressing the motion and dynamics. In this paper, we propose to adapt a image-level blended latent diffusion model to perform local video editing tasks. Specifically, we leverage DDIM inversion to acquire the latents as background latents instead of the randomly noised ones to better preserve the background information of the input video. We further introduce an autonomous mask manufacture mechanism derived from cross-attention maps in diffusion steps. Finally, we enhance the temporal consistency across video frames by transforming the self-attention blocks of U-Net into temporal-spatial blocks. Through extensive experiments, our proposed approach demonstrates effectiveness in different real-world video editing tasks.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 原子干渉計を用いた重力曲率の局所測定方式

Local Measurement Scheme of Gravitational Curvature using Atom Interferometers ( http://arxiv.org/abs/2409.03515v1 )

ライセンス: Link先を確認
Michael Werner, Ali Lezeik, Dennis Schlippert, Ernst Rasel, Naceur Gaaloul, Klemens Hammerer, (参考訳) 光パルス原子干渉計(英: Light pulse atom Interferometers、AIF)は、空間的不均一性と重力曲率の精巧な量子プローブである。 さらに、極長塩基性原子干渉計(VLBAI)には詳細な測定と校正が必要不可欠である。 ここでは、2つの共位置干渉計の差分信号が重力ポテンシャルの曲率に比例した位相シフトを逸脱する手法を提案する。 スケール係数は、光子波数、干渉計時間、原子反動など、よく制御された量にのみ依存し、測定された位相から曲率を正確に推定することができる。 ケーススタディでは,ハノーバーVLBAI施設の文脈において,このような重力波干渉計を数値シミュレーションし,複雑な空間依存性を持つ重力場における位相シフトのロバスト性を証明する。 非自明な重力場に対する重力曲率の推定器を定義し、空間分解能に関する信号強度と推定精度のトレードオフを計算する。 本稿では,時間依存重力場とそれに対応する測定戦略について考察する。

Light pulse atom interferometers (AIFs) are exquisite quantum probes of spatial inhomogeneity and gravitational curvature. Moreover, detailed measurement and calibration are necessary prerequisites for very-long-baseline atom interferometry (VLBAI). Here we present a method in which the differential signal of two co-located interferometers singles out a phase shift proportional to the curvature of the gravitational potential. The scale factor depends only on well controlled quantities, namely the photon wave number, the interferometer time and the atomic recoil, which allows the curvature to be accurately inferred from a measured phase. As a case study, we numerically simulate such a co-located gradiometric interferometer in the context of the Hannover VLBAI facility and prove the robustness of the phase shift in gravitational fields with complex spatial dependence. We define an estimator of the gravitational curvature for non-trivial gravitational fields and calculate the trade-off between signal strength and estimation accuracy with regard to spatial resolution. As a perspective, we discuss the case of a time-dependent gravitational field and corresponding measurement strategies.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# LMLT:画像超解像用低レベル多層視覚変換器

LMLT: Low-to-high Multi-Level Vision Transformer for Image Super-Resolution ( http://arxiv.org/abs/2409.03516v1 )

ライセンス: Link先を確認
Jeongsoo Kim, Jongho Nang, Junsuk Choe, (参考訳) 画像超解像のための視覚変換器(ViT)を用いた最近の手法は印象的な性能を示した。 しかし、それらはかなりの複雑さに悩まされ、高い推論時間とメモリ使用量をもたらす。 さらに、Window Self-Attention (WSA) を用いたViTモデルは、ウィンドウ外の領域を処理する上で困難に直面している。 これらの問題に対処するために,各頭部の様々な特徴量に着目した低レベルマルチレベルトランス (LMLT) を提案する。 LMLTは、チャネル次元に沿って画像の特徴を分割し、下位頭部の空間サイズを徐々に小さくし、各頭部に自己注意を与える。 このアプローチは、ローカル情報とグローバル情報の両方を効果的にキャプチャする。 低位頭部から高位頭部へ結果を統合することにより、LMLTは自己注意における窓の境界問題を克服する。 大規模な実験により,我々のモデルは最新のViTベースの画像超解法の性能を維持しながら,推論時間とGPUメモリ使用量を著しく削減することが示された。 私たちのコードはhttps://github.com/jwgdmkj/LMLT.comで利用可能です。

Recent Vision Transformer (ViT)-based methods for Image Super-Resolution have demonstrated impressive performance. However, they suffer from significant complexity, resulting in high inference times and memory usage. Additionally, ViT models using Window Self-Attention (WSA) face challenges in processing regions outside their windows. To address these issues, we propose the Low-to-high Multi-Level Transformer (LMLT), which employs attention with varying feature sizes for each head. LMLT divides image features along the channel dimension, gradually reduces spatial size for lower heads, and applies self-attention to each head. This approach effectively captures both local and global information. By integrating the results from lower heads into higher heads, LMLT overcomes the window boundary issues in self-attention. Extensive experiments show that our model significantly reduces inference time and GPU memory usage while maintaining or even surpassing the performance of state-of-the-art ViT-based Image Super-Resolution methods. Our codes are availiable at https://github.com/jwgdmkj/LMLT.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 組織概念:計算病理学における教師付き基礎モデル

Tissue Concepts: supervised foundation models in computational pathology ( http://arxiv.org/abs/2409.03519v1 )

ライセンス: Link先を確認
Till Nicke, Jan Raphael Schaefer, Henning Hoefener, Friedrich Feuerhake, Dorit Merhof, Fabian Kiessling, Johannes Lotz, (参考訳) 病理学者の作業量の増加に伴い、診断タスクと定量的バイオマーカー評価をサポートする自動化の必要性がますます顕在化しつつある。 ファンデーションモデルは、センター内およびセンター間の一般化性を改善し、専門的で堅牢なAIモデルの効率的な開発のための出発点として機能する可能性がある。 しかしながら、トレーニング基盤モデルそのものは通常、データ、計算、時間の観点から非常に高価です。 本稿では,これらの費用を大幅に削減する教師あり学習手法を提案する。 提案手法は, 912,000個のパッチに対して16種類の分類, セグメンテーション, 検出タスクを組み合わせることで, 共同エンコーダを訓練するためのマルチタスク学習に基づいている。 エンコーダはサンプルの特性を捉えることができるので、組織概念エンコーダと呼ぶ。 中心部における組織概念エンコーダの性能と一般化性を評価するため,乳がん,大腸癌,肺がん,前立腺がんのスライド画像全体の分類を行った。 実験の結果、組織概念モデルは、トレーニングパッチの6%しか必要とせず、セルフスーパービジョンでトレーニングされたモデルに匹敵するパフォーマンスを実現していることがわかった。 さらに、 Tissue Concepts エンコーダは、ImageNet で事前訓練されたエンコーダをドメイン内および外部の両方のデータで上回る。

Due to the increasing workload of pathologists, the need for automation to support diagnostic tasks and quantitative biomarker evaluation is becoming more and more apparent. Foundation models have the potential to improve generalizability within and across centers and serve as starting points for data efficient development of specialized yet robust AI models. However, the training foundation models themselves is usually very expensive in terms of data, computation, and time. This paper proposes a supervised training method that drastically reduces these expenses. The proposed method is based on multi-task learning to train a joint encoder, by combining 16 different classification, segmentation, and detection tasks on a total of 912,000 patches. Since the encoder is capable of capturing the properties of the samples, we term it the Tissue Concepts encoder. To evaluate the performance and generalizability of the Tissue Concepts encoder across centers, classification of whole slide images from four of the most prevalent solid cancers - breast, colon, lung, and prostate - was used. The experiments show that the Tissue Concepts model achieve comparable performance to models trained with self-supervision, while requiring only 6% of the amount of training patches. Furthermore, the Tissue Concepts encoder outperforms an ImageNet pre-trained encoder on both in-domain and out-of-domain data.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 美術史をマスターする大規模視覚言語モデルはあるか?

Have Large Vision-Language Models Mastered Art History? ( http://arxiv.org/abs/2409.03521v1 )

ライセンス: Link先を確認
Ombretta Strafforello, Derya Soydaner, Michiel Willems, Anne-Sofie Maerten, Stefanie De Winter, (参考訳) VLM(Big Vision-Language Models)の出現は、最近、複数の領域にまたがる画像分類において、新たなベースラインを確立した。 しかし、美術史家によって伝統的に習得された領域である絵画の美術様式分類(特に美術様式分類)の特定の作業におけるVLMのパフォーマンスはまだ調査されていない。 アートワークは、自然のイメージと比較して、その本質的に複雑で多様な構造を特徴とし、様々な構成やスタイルが特徴である。 美術史家たちは長い間、芸術のユニークな側面を研究してきたが、スタイル予測はその分野の重要な要素であった。 本稿では,視覚的およびテキスト的データを統合した大規模なVLMが,絵画の美術的歴史的特性を効果的に予測できるかどうかを考察する。 CLIP, LLaVA, OpenFlamingo, GPT-4oの4つのVLMの詳細な分析を行い, アートスタイル, 著者, タイムのゼロショット分類に焦点をあてた。 さらに,美術史家らによって研究された中心的な絵画を含む,精巧な試作品群であるArTestについて紹介する。

The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# FrozenSeg: オープンボキャブラリセグメンテーションのためのフリーズファンデーションモデル

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2409.03525v1 )

ライセンス: Link先を確認
Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao, (参考訳) オープン語彙のセグメンテーションは、制約のない環境において、オープンなカテゴリの集合をまたいだオブジェクトのセグメンテーションと認識を必要とするため、大きな課題を引き起こす。 CLIPのような強力な視覚言語(ViL)基盤モデルの成功に基づいて、最近の取り組みは、ゼロショート機能を活用して、目に見えないカテゴリを認識しようとした。 特筆すべき性能改善にもかかわらず、これらのモデルは未確認のカテゴリやシナリオの正確なマスク提案を生成するという重大な問題に直面しており、最終的にはセグメンテーション性能が劣る結果となった。 この課題に対処するため,我々は,VLモデル(例えば,CLIP)から抽出した局所化基盤モデル(例えばSAM)と意味的知識(例えば,CLIP)から空間的知識を統合するための新しいアプローチであるFrozenSegを導入する。 ViLモデルのビジュアルエンコーダを機能バックボーンとして、学習可能なクエリとCLIP機能に空間認識機能を注入する。 さらに,リコール率とマスク品質をさらに向上するためのマスク提案アンサンブル戦略を考案した。 トレーニングのオーバーヘッドを最小限に抑えつつ、事前学習した知識を完全に活用するために、我々は両方の基礎モデルを凍結し、マスクの提案生成のための軽量トランスフォーマーデコーダにのみ焦点をあてる。 大規模な実験により、FrozenSegは様々なセグメンテーションベンチマークで最先端の結果を前進させ、COCOパノプティクスデータのみにトレーニングし、ゼロショットでテストした。 コードはhttps://github.com/chenxi52/FrozenSegで入手できる。

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 低解像度画像における3重項損失の顔復元への応用

Use of triplet loss for facial restoration in low-resolution images ( http://arxiv.org/abs/2409.03530v1 )

ライセンス: Link先を確認
Sebastian Pulgar, Domingo Mery, (参考訳) 近年、顔認識(FR)モデルは最も広く使われている生体計測ツールとなり、多くのデータセットで印象的な結果が得られている。 しかし、固有のハードウェアの課題や撮影距離はしばしば低解像度の画像をもたらし、FRモデルの性能に大きな影響を及ぼす。 この問題に対処するために、非常に現実的な顔を生成する超解像(SR)モデルなど、いくつかの解決策が提案されている。 これらの努力にもかかわらず、FRアルゴリズムの大幅な改善は達成されていない。 画像品質を向上するだけでなく、個々のアイデンティティを保存し、FRモデルの性能を最大化することを目的とした、新しいSRモデルFTLGANを提案する。 d' = 1.099とAUC = 0.78は14x14ピクセル、d' = 2.112とAUC = 0.92は28x28ピクセル、d' = 3.049とAUC = 0.98は56x56ピクセルである。 本研究の貢献はいくつかの重要な領域において重要である。 まず、低解像度画像、特に14x14、28x28、56x56ピクセルの解像度で、顔認識性能が顕著に向上した。 第2に、FTLGANが示した拡張はすべての解像度で一貫した応答を示し、他の比較モデルとは異なり、一貫した性能を実現している。 第三に、三重項損失論理を用いて革新的なアプローチが実装され、実際の画像のみを用いて超解像モデルのトレーニングを可能にし、現在のモデルと対比し、潜在的な現実世界のアプリケーションを拡張することができる。 最後に,モデル学習における損失として顔認識品質を統合することにより,顔認識システムにおける分類性能向上の課題に対処する新しいモデルを提案する。

In recent years, facial recognition (FR) models have become the most widely used biometric tool, achieving impressive results on numerous datasets. However, inherent hardware challenges or shooting distances often result in low-resolution images, which significantly impact the performance of FR models. To address this issue, several solutions have been proposed, including super-resolution (SR) models that generate highly realistic faces. Despite these efforts, significant improvements in FR algorithms have not been achieved. We propose a novel SR model FTLGAN, which focuses on generating high-resolution images that preserve individual identities rather than merely improving image quality, thereby maximizing the performance of FR models. The results are compelling, demonstrating a mean value of d' 21% above the best current state-of-the-art models, specifically having a value of d' = 1.099 and AUC = 0.78 for 14x14 pixels, d' = 2.112 and AUC = 0.92 for 28x28 pixels, and d' = 3.049 and AUC = 0.98 for 56x56 pixels. The contributions of this study are significant in several key areas. Firstly, a notable improvement in facial recognition performance has been achieved in low-resolution images, specifically at resolutions of 14x14, 28x28, and 56x56 pixels. Secondly, the enhancements demonstrated by FTLGAN show a consistent response across all resolutions, delivering outstanding performance uniformly, unlike other comparative models. Thirdly, an innovative approach has been implemented using triplet loss logic, enabling the training of the super-resolution model solely with real images, contrasting with current models, and expanding potential real-world applications. Lastly, this study introduces a novel model that specifically addresses the challenge of improving classification performance in facial recognition systems by integrating facial recognition quality as a loss during model training.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 胆嚢摘出術におけるインタラクティブな肝ファントム

Interactive Surgical Liver Phantom for Cholecystectomy Training ( http://arxiv.org/abs/2409.03535v1 )

ライセンス: Link先を確認
Alexander Schuessler, Rayan Younis, Jamie Paik, Martin Wagner, Franziska Mathis-Ullrich, Christian Kunz, (参考訳) ロボット支援手術におけるトレーニングとプロトタイプの開発には,手術手順の実行に適切な,安全な環境が必要である。 現在のドライラボの腹腔鏡ファントムは、複雑なインタラクティブな手術を模倣する能力に欠けることが多い。 本研究は胆嚢摘出術におけるインタラクティブな手術ファントムである。 ファントムは、胆嚢摘出時の胆嚢の除去を可能にし、合成組織との操作および切断相互作用を可能にする。 胆嚢の筋力変位挙動は, 牽引デモに基づいてモデル化される。 筋力モデルと前生ブタ胆嚢筋力モデルを比較し, 筋力の推算能力について検討した。

Training and prototype development in robot-assisted surgery requires appropriate and safe environments for the execution of surgical procedures. Current dry lab laparoscopy phantoms often lack the ability to mimic complex, interactive surgical tasks. This work presents an interactive surgical phantom for the cholecystectomy. The phantom enables the removal of the gallbladder during cholecystectomy by allowing manipulations and cutting interactions with the synthetic tissue. The force-displacement behavior of the gallbladder is modelled based on retraction demonstrations. The force model is compared to the force model of ex-vivo porcine gallbladders and evaluated on its ability to estimate retraction forces.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 六方晶格子のスペクトル特性と-R結合

Spectral properties of hexagonal lattices with the -R coupling ( http://arxiv.org/abs/2409.03538v1 )

ライセンス: Link先を確認
Pavel Exner, Jan Pekař, (参考訳) ヘキサゴナル格子グラフのスペクトルを、時間反転不変性に明らかに違反する頂点カップリングを用いて解析し、高エネルギーでは、等度頂点においてエッジを漸近的に分離する。 また、格子の水平な基本セルが3つの異なるエッジ長を持つように拡張された場合、スペクトル特性が変化しないことも示している。

We analyze the spectrum of the hexagonal lattice graph with a vertex coupling which manifestly violates the time reversal invariance and at high energies it asymptotically decouples edges at even degree vertices; a comparison is made to the case when such a decoupling occurs at odd degree vertices. We also show that the spectral character does not change if the equilateral elementary cell of the lattice is dilated to have three different edge lengths, except that flat bands are absent if those are incommensurate.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 確率的分類器のリスクに基づく校正

Risk-based Calibration for Probabilistic Classifiers ( http://arxiv.org/abs/2409.03542v1 )

ライセンス: Link先を確認
Aritz Pérez, Carlos Echegoyen, Guzmán Santafé, (参考訳) 本稿では,確率的分類器の0-1損失(経験的誤り)における経験的リスクを最小限に抑えるために,リスクベースキャリブレーション(RC)と呼ばれる一般的な反復的手順を導入する。 これらの分類器は、結合分布(生成)とクラス条件分布(条件)に基づいて構築された確率分布のモデル化に基づいている。 RCは任意の確率的分類器に特殊化することができ、データ統計を用いて分類器のパラメータを閉じた形で計算する特定の学習アルゴリズムを提供する。 RCは真のクラスと一致した統計を補強し、0-1の損失によって導かれる他のクラスに関連付けられた統計を罰する。 提案手法は,Na\\ive Bayes,2次判別分析,ロジスティック回帰分類器を用いて,30のデータセットで実証実験を行った。 RCは、元の閉形式学習アルゴリズムの経験的誤差を改善し、より顕著なことに、3つの分類器による勾配降下法よりも一貫して優れている。

We introduce a general iterative procedure called risk-based calibration (RC) designed to minimize the empirical risk under the 0-1 loss (empirical error) for probabilistic classifiers. These classifiers are based on modeling probability distributions, including those constructed from the joint distribution (generative) and those based on the class conditional distribution (conditional). RC can be particularized to any probabilistic classifier provided a specific learning algorithm that computes the classifier's parameters in closed form using data statistics. RC reinforces the statistics aligned with the true class while penalizing those associated with other classes, guided by the 0-1 loss. The proposed method has been empirically tested on 30 datasets using na\"ive Bayes, quadratic discriminant analysis, and logistic regression classifiers. RC improves the empirical error of the original closed-form learning algorithms and, more notably, consistently outperforms the gradient descent approach with the three classifiers.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 予測精度と信頼性:分布シフト下における分類と物体位置決め

Prediction Accuracy & Reliability: Classification and Object Localization under Distribution Shift ( http://arxiv.org/abs/2409.03543v1 )

ライセンス: Link先を確認
Fabian Diet, Moussa Kassem Sbeyti, Michelle Karg, (参考訳) 自然分布シフトは、畳み込みニューラルネットワーク(CNN)の知覚性能の低下を引き起こす。 この現実世界の交通データアドレスの包括的分析 1) 自然分布変化と気象増進が検出品質および信頼性評価に与える影響について検討した。 2) 分類と物体の局所化の両面でのモデル性能の評価と評価 3)モンテカルロ(MC)ドロップアウトのアンサンブルと異なる変種 - 自然と自然に近い分布シフトの下での2つの一般的な不確実性定量法をベンチマークする。 この目的のために、公開されている自動運転データセットから、新しいデータセットがキュレートされた。 In-distriion (ID) データは単一のオブジェクトのカットアウトに基づいており、クラスとバウンディングボックスの両方のアノテーションが利用できる。 6つの分布シフトデータセットは、悪天候シナリオ、シミュレートされた雨と霧、コーナーケース、アウト・オブ・ディストリビューションデータを含んでいる。 ConvNeXt-TinyはEfficientNet-B0よりも堅牢であり、大雨は局部化よりも強力な分類を低下させ、選択した層にMC-Dropoutを統合することでタスク性能と信頼性の推定が向上し、これらレイヤの識別は分散シフトのタイプと考慮されたタスクに依存する。

Natural distribution shift causes a deterioration in the perception performance of convolutional neural networks (CNNs). This comprehensive analysis for real-world traffic data addresses: 1) investigating the effect of natural distribution shift and weather augmentations on both detection quality and confidence estimation, 2) evaluating model performance for both classification and object localization, and 3) benchmarking two common uncertainty quantification methods - Ensembles and different variants of Monte-Carlo (MC) Dropout - under natural and close-to-natural distribution shift. For this purpose, a novel dataset has been curated from publicly available autonomous driving datasets. The in-distribution (ID) data is based on cutouts of a single object, for which both class and bounding box annotations are available. The six distribution-shift datasets cover adverse weather scenarios, simulated rain and fog, corner cases, and out-of-distribution data. A granular analysis of CNNs under distribution shift allows to quantize the impact of different types of shifts on both, task performance and confidence estimation: ConvNeXt-Tiny is more robust than EfficientNet-B0; heavy rain degrades classification stronger than localization, contrary to heavy fog; integrating MC-Dropout into selected layers only has the potential to enhance task performance and confidence estimation, whereby the identification of these layers depends on the type of distribution shift and the considered task.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# CTMBIDS: Convolutional Tsetlin Machine based Intrusion Detection System for DDoS attack in a SDN Environment

CTMBIDS: Convolutional Tsetlin Machine Based Intrusion Detection System for DDoS attacks in an SDN environment ( http://arxiv.org/abs/2409.03544v1 )

ライセンス: Link先を確認
Rasoul Jafari Gohari, Laya Aliahmadipour, Marjan Kuchaki Rafsanjani, (参考訳) Software Defined Networks (SDN) は今日、多くのセキュリティ課題に直面している。 これらのネットワークにおける侵入検知システム(IDS)の分野において、多くの研究がなされている。 しかし、多くのアプローチは依然としてディープラーニングアルゴリズムに依存している。 これらのアルゴリズムは実装の複雑さ、高処理能力、高メモリ消費に悩まされている。 セキュリティの問題に加えて、まず、SDNプロトコルに基づくデータセットの数は極めて少ない。 第二に、利用可能なものはネットワーク内の多数の攻撃を含み、単一の攻撃に集中しない。 このため、DDoS(Distributed Denial of Service)攻撃に焦点を当てたSDNベースのIDSを導入するには、高品質IDSをトレーニング可能なDDoS指向のデータセットを生成する必要がある。 本研究では、SDNにおける2つの重要な課題に対処するため、まず3つの共通および異なるネットワークトポロジに基づいて、3つのDDoS攻撃データセットを生成します。 第2のステップでは、CTMBIDSと呼ばれるDDoS攻撃のための軽量IDSを導入する。 CTMBIDSの軽量性は、既存の複雑なディープラーニングモデルと比較して、メモリ消費の低さと解釈可能性に起因している。 CTMBIDSのシステムリソースの使用量が低いため、SDNコントローラを最小限に消費する最適なソフトウェアに最適である。 また、生成されたデータセットの品質を確認するために、CTMBIDS実験結果とKDDCup99ベンチマークデータセットのDDoS攻撃を比較した。 この研究の主な焦点は軽量IDSであるため、CTMBIDSはディープラーニングベースのアプローチよりもはるかに効率的に機能することを示す。 さらに,多くのデータセットにおいても,提案手法の精度は比較的高く,既存の手法よりもはるかに少ない。

Software Defined Networks (SDN) face many security challenges today. A great deal of research has been done within the field of Intrusion Detection Systems (IDS) in these networks. Yet, numerous approaches still rely on deep learning algorithms. These algorithms suffer from complexity in implementation, high processing power and high memory consumption. In addition to security issues, firstly, the number of datasets that are based on SDN protocols are very small. Secondly, the ones that are available encompass numerous attacks in the network and do not focus on a single attack. For this reason, to introduce an SDN-based IDS with a focus on Distributed Denial of Service (DDoS) attacks, it is necessary to generate a DDoS-oriented dataset whose features can train a high-quality IDS. In this work, in order to address two important challenges in SDNs, initially, we generate three DDoS attack datasets based on three common and different network topologies. In the second step, using the Convolutional Tsetlin Machine (CTM), we introduce a lightweight IDS for DDoS attack dubbed CTMBIDS. The lightweight nature of the CTMBIDS stems from its low memory consumption and also its interpretability compared to the existing complex deep learning models. The low usage of system resources for the CTMBIDS makes it an ideal choice for an optimal software that consumes the SDN controllers least amount of memory. Also, in order to ascertain the quality of the generated datasets, we compare the CTMBIDS empirical results with the DDoS attacks of the KDDCup99 benchmark dataset as well. Since the main focus of this work is on a lightweight IDS, the results show the CTMBIDS performs much more efficiently than deep learning based approaches. Furthermore, the results also show in most datasets, the proposed method has relatively equal or better accuracy and also consumes much less memory than the existing methods.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 2つの候補を持つパーソナライズされたサブモジュールの最大化

The Power of Second Chance: Personalized Submodular Maximization with Two Candidates ( http://arxiv.org/abs/2409.03545v1 )

ライセンス: Link先を確認
Jing Yuan, Shaojie Tang, (参考訳) 部分モジュラー極大化に関する既存の研究の多くは、 \emph{single} 部分モジュラー函数を最大化する項目の部分集合を選択することに焦点を当てている。 しかし、現実の多くのシナリオでは、複数のユーザ固有の機能があり、それぞれが特定のタイプのユーザの有用性をモデル化します。 これらの設定では、ユーザ固有の機能でうまく機能するアイテムのセットを選択することを目標としています。 この問題に対処する一つの方法は、ユーザ固有の関数の総和を最大化する単一のサブセットを選択することである。 この集約アプローチは、個々の関数に対する集合の計算を避けるという意味で効率的であるが、パーソナライゼーションのパワーを見逃している。 本稿では,2つの候補解を用いたパーソナライズされた部分モジュラー最大化の問題を紹介する。 任意の2つの候補解に対して、各ユーザ固有の関数の効用は、これらの2つの候補の長所として定義される。 そこで本研究の目的は,全ユーザ固有関数のユーティリティの総和を最大化する2つの候補の最適セットを選択することである。 我々はこの問題に対して効果的なアルゴリズムを設計した。 また、このアプローチが複数の候補ソリューションにどのように一般化され、ソリューションの柔軟性とパーソナライゼーションが向上するかについても論じる。

Most of existing studies on submodular maximization focus on selecting a subset of items that maximizes a \emph{single} submodular function. However, in many real-world scenarios, we might have multiple user-specific functions, each of which models the utility of a particular type of user. In these settings, our goal would be to choose a set of items that performs well across all the user-specific functions. One way to tackle this problem is to select a single subset that maximizes the sum of all of the user-specific functions. Although this aggregate approach is efficient in the sense that it avoids computation of sets for individual functions, it really misses the power of personalization - for it does not allow to choose different sets for different functions. In this paper, we introduce the problem of personalized submodular maximization with two candidate solutions. For any two candidate solutions, the utility of each user-specific function is defined as the better of these two candidates. Our objective is, therefore, to select the best set of two candidates that maximize the sum of utilities of all the user-specific functions. We have designed effective algorithms for this problem. We also discuss how our approach generalizes to multiple candidate solutions, increasing flexibility and personalization in our solution.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# DKDM:任意のアーキテクチャを持つ拡散モデルのためのデータフリーな知識蒸留

DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture ( http://arxiv.org/abs/2409.03550v1 )

ライセンス: Link先を確認
Qianlong Xiang, Miao Zhang, Yuzhang Shang, Jianlong Wu, Yan Yan, Liqiang Nie, (参考訳) 拡散モデル(DM)は、様々な領域で例外的な生成能力を示してきたが、その一方で、速度の遅い推論速度と高い計算要求によって妨げられている。 DMを加速する最も一般的な方法は、より高速なサンプリングソルバや知識蒸留(KD)によって達成される、生成中のデノナイジングステップの数を減少させることである。 従来の手法とは対照的に,大規模な事前学習型DMを高速なアーキテクチャに転送する新しい手法を提案する。 具体的には、KDを用いてDMを圧縮し、その生成能力をより高速な変種に蒸留する。 さらに、ソースデータが現在の生成モデルに格納するにはアクセスできないか、あるいは大きすぎるかを考えると、ソースデータを持たない蒸留のための新しいパラダイムを導入し、DKDM(Data-Free Knowledge Distillation for Diffusion Models)と呼ぶ。 一般的に、確立されたDKDMフレームワークは2つの主要コンポーネントから構成される。 1)事前訓練されたDMが生成する合成復調データを用いて、ソースデータなしで高速なDMを最適化するDKDM目標。 2)デノナイズデータの合成を柔軟に整理し、生成が遅くなるにつれて最適化プロセスが遅くなるのを防止する動的反復蒸留法。 我々の知る限り、これはKDを使って任意のアーキテクチャにデータフリーでDMを蒸留する最初の試みである。 重要なことは、我々のDKDMは、ステップの減少、量子化、プルーニングなどの既存の加速度法と直交している。 実験の結果,DKDMは2倍高速なDMの導出が可能であり,性能はベースラインと同等であることがわかった。 我々のDKDMは、事前訓練されたDMを新しいDMを訓練するための「データセット」として機能させることができる。

Diffusion models (DMs) have demonstrated exceptional generative capabilities across various areas, while they are hindered by slow inference speeds and high computational demands during deployment. The most common way to accelerate DMs involves reducing the number of denoising steps during generation, achieved through faster sampling solvers or knowledge distillation (KD). In contrast to prior approaches, we propose a novel method that transfers the capability of large pretrained DMs to faster architectures. Specifically, we employ KD in a distinct manner to compress DMs by distilling their generative ability into more rapid variants. Furthermore, considering that the source data is either unaccessible or too enormous to store for current generative models, we introduce a new paradigm for their distillation without source data, termed Data-Free Knowledge Distillation for Diffusion Models (DKDM). Generally, our established DKDM framework comprises two main components: 1) a DKDM objective that uses synthetic denoising data produced by pretrained DMs to optimize faster DMs without source data, and 2) a dynamic iterative distillation method that flexibly organizes the synthesis of denoising data, preventing it from slowing down the optimization process as the generation is slow. To our knowledge, this is the first attempt at using KD to distill DMs into any architecture in a data-free manner. Importantly, our DKDM is orthogonal to most existing acceleration methods, such as denoising step reduction, quantization and pruning. Experiments show that our DKDM is capable of deriving 2x faster DMs with performance remaining on par with the baseline. Notably, our DKDM enables pretrained DMs to function as "datasets" for training new DMs.
翻訳日:2024-09-06 20:28:22 公開日:2024-09-05
# 物体中心学習のための集団離散表現の組織化

Organized Grouped Discrete Representation for Object-Centric Learning ( http://arxiv.org/abs/2409.03553v1 )

ライセンス: Link先を確認
Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen, (参考訳) OCL(Object-Centric Learning)は、画像やビデオのピクセルをスパースオブジェクトの特徴として表現する。 代表的手法は、可変オートエンコーダ(VAE)テンプレート特徴からなる離散表現を利用して、画素レベルの情報冗長性とガイドオブジェクトレベルの特徴集約を抑える。 最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。 しかし、分解としてグループ化する単純チャネルは、異なる属性に属するチャネルを誤ってグループ化し、それらを準最適テンプレート属性として識別し、情報を失い、表現性を損なう。 我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。 教師なしセグメンテーション実験では、OGDRは古典的なトランスフォーマーベースのOCL法の拡張においてGDRよりも優れている。 コードブックPCAと表現類似性分析により、GDRと比較して、OGDRは冗長性を排除し、オブジェクト表現学習の指針となる情報を保存する。 ソースコードは補足資料で入手できる。

Object-Centric Learning (OCL) represents dense image or video pixels as sparse object features. Representative methods utilize discrete representation composed of Variational Autoencoder (VAE) template features to suppress pixel-level information redundancy and guide object-level feature aggregation. The most recent advancement, Grouped Discrete Representation (GDR), further decomposes these template features into attributes. However, its naive channel grouping as decomposition may erroneously group channels belonging to different attributes together and discretize them as sub-optimal template attributes, which losses information and harms expressivity. We propose Organized GDR (OGDR) to organize channels belonging to the same attributes together for correct decomposition from features into attributes. In unsupervised segmentation experiments, OGDR is fully superior to GDR in augmentating classical transformer-based OCL methods; it even improves state-of-the-art diffusion-based ones. Codebook PCA and representation similarity analyses show that compared with GDR, our OGDR eliminates redundancy and preserves information better for guiding object representation learning. The source code is available in the supplementary material.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 分解と最適ランク選択によるニューラルネットワーク圧縮のための統一フレームワーク

Unified Framework for Neural Network Compression via Decomposition and Optimal Rank Selection ( http://arxiv.org/abs/2409.03555v1 )

ライセンス: Link先を確認
Ali Aghababaei-Harandi, Massih-Reza Amini, (参考訳) その高い精度にもかかわらず、複雑なニューラルネットワークは重要な計算資源を必要としており、携帯電話や組み込みシステムのようなリソースに制限されたデバイスに展開する上での課題となっている。 圧縮アルゴリズムは、精度を維持しながらモデルサイズと計算要求を削減し、これらの課題に対処するために開発された。 これらの手法の中で、テンソル分解に基づく分解法は理論的に健全で有効である。 しかし、分解に適する位階を選ぶのが困難である。 本稿では,分解と最適ランク選択を同時に適用する統一的なフレームワークを提案することでこの問題に対処する。 提案手法は連続空間におけるランクの自動探索を含み,トレーニングデータを用いることなく最適なランク構成を効率よく同定し,計算効率を向上する。 その後の微調整のステップと組み合わせて,本手法では,圧縮率の高いモデルの性能を元のモデルと同等に維持する。 様々なベンチマークデータセットを用いて,包括的解析により本手法の有効性を実証する。

Despite their high accuracy, complex neural networks demand significant computational resources, posing challenges for deployment on resource-constrained devices such as mobile phones and embedded systems. Compression algorithms have been developed to address these challenges by reducing model size and computational demands while maintaining accuracy. Among these approaches, factorization methods based on tensor decomposition are theoretically sound and effective. However, they face difficulties in selecting the appropriate rank for decomposition. This paper tackles this issue by presenting a unified framework that simultaneously applies decomposition and optimal rank selection, employing a composite compression loss within defined rank constraints. Our approach includes an automatic rank search in a continuous space, efficiently identifying optimal rank configurations without the use of training data, making it computationally efficient. Combined with a subsequent fine-tuning step, our approach maintains the performance of highly compressed models on par with their original counterparts. Using various benchmark datasets, we demonstrate the efficacy of our method through a comprehensive analysis.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# MaskVal: 単純だが効果的な不確かさの定量化

MaskVal: Simple but Effective Uncertainty Quantification for 6D Pose Estimation ( http://arxiv.org/abs/2409.03556v1 )

ライセンス: Link先を確認
Philipp Quentin, Daniel Goehring, (参考訳) ロボットアプリケーションで6Dポーズを推定するためには、安全で信頼性があり、予測可能な運用性能を確保するために、信頼性の高いポーズが最も重要である。 これらの要求にもかかわらず、最先端の6Dポーズ推定器は、ポーズ推定について全く不確実な定量化を提供していない場合や、それらがそうである場合、与えられた不確実性は実際の真の誤りと弱い相関しか持たないことが示されている。 この問題に対処するため,我々はMaskValと呼ばれる簡易かつ効果的な不確実性定量化について検討する。これは,ポーズ推定と対応するインスタンスセグメンテーションをレンダリングによって比較し,ポーズ推定器自体の変更を必要としない。 その単純さにもかかわらず、MaskValは、データセットとロボットのセットアップの両方で最先端のアンサンブル法を大幅に上回っている。 我々は,MaskValを用いて,最先端の6Dポーズ推定器の性能を安全かつ信頼性の高い操作に向けて大幅に改善したことを示す。 さらに,ロボット操作の文脈における6次元ポーズ推定のための不確実性定量化手法の比較と評価を行うための,新しい特異なアプローチを提案する。

For the use of 6D pose estimation in robotic applications, reliable poses are of utmost importance to ensure a safe, reliable and predictable operational performance. Despite these requirements, state-of-the-art 6D pose estimators often do not provide any uncertainty quantification for their pose estimates at all, or if they do, it has been shown that the uncertainty provided is only weakly correlated with the actual true error. To address this issue, we investigate a simple but effective uncertainty quantification, that we call MaskVal, which compares the pose estimates with their corresponding instance segmentations by rendering and does not require any modification of the pose estimator itself. Despite its simplicity, MaskVal significantly outperforms a state-of-the-art ensemble method on both a dataset and a robotic setup. We show that by using MaskVal, the performance of a state-of-the-art 6D pose estimator is significantly improved towards a safe and reliable operation. In addition, we propose a new and specific approach to compare and evaluate uncertainty quantification methods for 6D pose estimation in the context of robotic manipulation.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 少数のインスタンスでテストすることで、目に見えないデータで新しいLLMの成功を予測する。

100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances ( http://arxiv.org/abs/2409.03563v1 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo, (参考訳) 個々のタスクインスタンス上でのLCMの性能予測は、高いスループットのアプリケーションにおける信頼性を保証するために不可欠である。 そのために、タスクインスタンスのセット上で検討されたLCMを評価し、アセスメントをトレーニングして、インスタンスの特徴に基づいてそのパフォーマンスを予測することが可能になる。 しかし、このアプローチでは、各新しいLCMを十分に大きなタスクインスタンス上で評価し、それに特化した評価器をトレーニングする必要がある。 本研究では,従来のLLMの評価結果を利用して,新しいLLMの性能予測に必要な評価回数を削減する。 そこで,本研究では,少数の参照インスタンスに対して新しいLCMを試験し,参照セットの性能と興味のあるインスタンスの特徴に基づいて,インスタンス上でのLCMの性能を予測する汎用評価器を訓練することを提案する。 我々は,既存の推論データセットであるHELM-LiteとKidsOfReasoningについて実証的研究を行い,2024年1月のGPT4まで,命令を微調整したOpenAIモデルを評価した。 ジェネリックアセスタのトレーニングに使用されたのと同じ分布を持つインスタンスのパフォーマンスを予測すると、フルセットのインスタンスでトレーニングされたLLM固有のアセスタに匹敵するパフォーマンスが得られる。 さらに、参照インスタンスをランダムに選択するだけでなく、テストしたいくつかの高度な選択方法も実行します。 しかし、分布外においては、明確な勝者が出現せず、全体的な性能が悪くなり、LLMの固有の予測可能性が低いことが示唆される。

Predicting the performance of LLMs on individual task instances is essential to ensure their reliability in high-stakes applications. To do so, a possibility is to evaluate the considered LLM on a set of task instances and train an assessor to predict its performance based on features of the instances. However, this approach requires evaluating each new LLM on a sufficiently large set of task instances to train an assessor specific to it. In this work, we leverage the evaluation results of previously tested LLMs to reduce the number of evaluations required to predict the performance of a new LLM. In practice, we propose to test the new LLM on a small set of reference instances and train a generic assessor which predicts the performance of the LLM on an instance based on the performance of the former on the reference set and features of the instance of interest. We conduct empirical studies on HELM-Lite and KindsOfReasoning, a collection of existing reasoning datasets that we introduce, where we evaluate all instruction-fine-tuned OpenAI models until the January 2024 version of GPT4. When predicting performance on instances with the same distribution as those used to train the generic assessor, we find this achieves performance comparable to the LLM-specific assessors trained on the full set of instances. Additionally, we find that randomly selecting the reference instances performs as well as some advanced selection methods we tested. For out of distribution, however, no clear winner emerges and the overall performance is worse, suggesting that the inherent predictability of LLMs is low.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 実用的・プライバシ保護型画像処理の実現

Enabling Practical and Privacy-Preserving Image Processing ( http://arxiv.org/abs/2409.03568v1 )

ライセンス: Link先を確認
Chao Wang, Shubing Yang, Xiaoyan Sun, Jun Dai, Dongfang Zhao, (参考訳) FHE(Fully Homomorphic Encryption)は、暗号化されたデータの計算を可能にし、復号化を必要とせずに機密性を維持する。 しかしながら、FHEは、特に画像のような高精度で複雑なデータに対して、大きなパフォーマンス上のオーバーヘッドによって妨げられることが多い。 深刻な効率上の問題のため、従来のFHEメソッドはピクセルではなく、モノリシックなデータブロック(ピクセル行など)で画像を暗号化することが多い。 しかし、この戦略は同型演算の利点を損ね、画素レベルの画像処理を無効にする。 本研究では,CKKS方式に基づく画素レベルの同型暗号手法iCHEETAHの提案と実装により,これらの課題に対処する。 計算効率を向上させるために,3つの新しいキャッシング機構を導入する。 大規模な実験により,画像品質を保ちながら,元のCKKSに比べて19倍の高速化を実現した。 さらに、FHEに基づいて平均フィルタリング、輝度向上、画像マッチング、透かしなどの実世界の画像アプリケーションがテストされ、最大91.53%のスピード改善が示されている。 また,この手法がIND-CPA(Chosen Plaintext Attackによる識別性)の安全性を保証し,強力な暗号化セキュリティを実現することも実証した。 これらの結果は、iCHEETAHの実用性と効率性を強調し、大規模なプライバシー保護画像処理の大幅な進歩を示している。

Fully Homomorphic Encryption (FHE) enables computations on encrypted data, preserving confidentiality without the need for decryption. However, FHE is often hindered by significant performance overhead, particularly for high-precision and complex data like images. Due to serious efficiency issues, traditional FHE methods often encrypt images by monolithic data blocks (such as pixel rows), instead of pixels. However, this strategy compromises the advantages of homomorphic operations and disables pixel-level image processing. In this study, we address these challenges by proposing and implementing a pixel-level homomorphic encryption approach, iCHEETAH, based on the CKKS scheme. To enhance computational efficiency, we introduce three novel caching mechanisms to pre-encrypt radix values or frequently occurring pixel values, substantially reducing redundant encryption operations. Extensive experiments demonstrate that our approach achieves up to a 19-fold improvement in encryption speed compared to the original CKKS, while maintaining high image quality. Additionally, real-world image applications such as mean filtering, brightness enhancement, image matching and watermarking are tested based on FHE, showcasing up to a 91.53% speed improvement. We also proved that our method is IND-CPA (Indistinguishability under Chosen Plaintext Attack) secure, providing strong encryption security. These results underscore the practicality and efficiency of iCHEETAH, marking a significant advancement in privacy-preserving image processing at scale.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# CHIRPs:生涯強化学習のための変更誘発レグレトプロキシメトリクス

CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning ( http://arxiv.org/abs/2409.03577v1 )

ライセンス: Link先を確認
John Birkbeck, Adam Sobey, Federico Cerutti, Katherine Heseltine Hurley Flynn, Timothy J. Norman, (参考訳) 強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。 これにより、トレーニングエクスペリエンスが高価である実世界のシナリオや、センサの劣化や環境プロセス、ミッションの優先順位の変更といった要因によるコンテキスト変更が制限される。 生涯強化学習は、進化する問題においてエージェントがどのように機能するかを研究することによって、サンプル効率と適応性を向上させることを目的としている。 しかし、これらの変化が作用する難しさは直接的に測定されることはめったにない。 エージェントのパフォーマンスは変更全体で比較できるが、これはしばしば違法に高価である。 我々は、訓練されたエージェントの使用の高コストを回避しつつ、変更の難易度を評価するための指標のクラスである、CHRP(Change-induced Regret Proxy)メトリクスを提案する。 CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。 CHIRPメトリックに基づいてMDPをクラスタ化するエージェントは、MetaWorldタスクのシーケンスにおいて、既存の3つのエージェントよりも17\%$高い平均リターンを達成する。 また、CHIRPをキャリブレーションして、異なる環境にまたがる変更の難しさを比較する方法も示す。

Reinforcement learning agents can achieve superhuman performance in static tasks but are costly to train and fragile to task changes. This limits their deployment in real-world scenarios where training experience is expensive or the context changes through factors like sensor degradation, environmental processes or changing mission priorities. Lifelong reinforcement learning aims to improve sample efficiency and adaptability by studying how agents perform in evolving problems. The difficulty that these changes pose to an agent is rarely measured directly, however. Agent performances can be compared across a change, but this is often prohibitively expensive. We propose Change-Induced Regret Proxy (CHIRP) metrics, a class of metrics for approximating a change's difficulty while avoiding the high costs of using trained agents. A relationship between a CHIRP metric and agent performance is identified in two environments, a simple grid world and MetaWorld's suite of robotic arm tasks. We demonstrate two uses for these metrics: for learning, an agent that clusters MDPs based on a CHIRP metric achieves $17\%$ higher average returns than three existing agents in a sequence of MetaWorld tasks. We also show how a CHIRP can be calibrated to compare the difficulty of changes across distinctly different environments.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 長尺画像カテゴリ化に向けたテキストガイドミキシング

Text-Guided Mixup Towards Long-Tailed Image Categorization ( http://arxiv.org/abs/2409.03583v1 )

ライセンス: Link先を確認
Richard Franklin, Jiawei Yao, Deyang Zhong, Qi Qian, Juhua Hu, (参考訳) 多くの現実世界のアプリケーションでは、トレーニングデータのためのクラスラベルの頻度分布は長い尾の分布を示すことができ、大量のバランスデータを必要とするディープニューラルネットワークをトレーニングする従来のアプローチに挑戦する。 クラスラベルの分布のバランスをとるためのデータの収集とラベル付けは、コストと時間の両方を要します。 深層ニューラルネットワークに適用されるアンサンブル学習、再バランス戦略、あるいは微調整を可能にする既存のソリューションの多くは、クラスの一部にまたがる少数のクラスサンプルの不活性問題によって制限されている。 近年、CLIPのような視覚言語モデルは、画像とテキストのペアにおける視覚と言語の特徴の類似性を把握し、ゼロショットや少数ショット学習の効果的な解決策として観察されている。 大規模な事前学習型視覚言語モデルには,中小クラスに有用な副文情報が含まれる可能性があることを考慮し,長期学習の課題に対処するために,テキスト管理を活用することを提案する。 具体的には、事前学習したテキストエンコーダが認識したクラス間の意味的関係を利用して、長い尾の問題を緩和する新しいテキスト誘導混合手法を提案する。 長期タスクのベンチマークに関する実証的研究は,提案手法の有効性を理論的保証とともに示すものである。 私たちのコードはhttps://github.com/rsamf/text-guided-mixup.comで利用可能です。

In many real-world applications, the frequency distribution of class labels for training data can exhibit a long-tailed distribution, which challenges traditional approaches of training deep neural networks that require heavy amounts of balanced data. Gathering and labeling data to balance out the class label distribution can be both costly and time-consuming. Many existing solutions that enable ensemble learning, re-balancing strategies, or fine-tuning applied to deep neural networks are limited by the inert problem of few class samples across a subset of classes. Recently, vision-language models like CLIP have been observed as effective solutions to zero-shot or few-shot learning by grasping a similarity between vision and language features for image and text pairs. Considering that large pre-trained vision-language models may contain valuable side textual information for minor classes, we propose to leverage text supervision to tackle the challenge of long-tailed learning. Concretely, we propose a novel text-guided mixup technique that takes advantage of the semantic relations between classes recognized by the pre-trained text encoder to help alleviate the long-tailed problem. Our empirical study on benchmark long-tailed tasks demonstrates the effectiveness of our proposal with a theoretical guarantee. Our code is available at https://github.com/rsamf/text-guided-mixup.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# シミュレーションに基づく推論によるユニットコミット問題のコスト推定

Costs Estimation in Unit Commitment Problems using Simulation-Based Inference ( http://arxiv.org/abs/2409.03588v1 )

ライセンス: Link先を確認
Matthias Pirlet, Adrien Bolland, Gilles Louppe, Damien Ernst, (参考訳) ユニットコミット(UC)問題(英: Unit Commitment (UC) problem)は、需要と技術的制約を満たしながらコストを最小化することにより、電力ユニットの生成スケジュールを有限時間にわたって予測する電力システムにおいて重要な最適化タスクである。 しかし、コストなど、UCの問題で要求される多くのパラメータが不明である。 本研究では、これらの未知のコストを、実測的なUC問題に対するシミュレーションに基づく推論を用いて推定し、観測された生成スケジュールと要求のパラメータの近似後部分布を提供する。 この結果から,学習した後続分布はデータの基盤となる分布を効果的に把握し,過去の観測結果から未知のパラメータに対して可能な範囲の値を与えることがわかった。 この後付けにより、観測された過去の生成スケジュールを用いて過去のコストを推定することができ、オペレーターは将来のコストをより予測し、より堅牢な生成予測を行うことができる。 本稿では,ネットワーク制約と再生可能エネルギー源をモデル化したより複雑なUC問題に対して,後方推定における過信度に対処し,方法論のスケーラビリティを高めるための今後の研究の道程について述べる。

The Unit Commitment (UC) problem is a key optimization task in power systems to forecast the generation schedules of power units over a finite time period by minimizing costs while meeting demand and technical constraints. However, many parameters required by the UC problem are unknown, such as the costs. In this work, we estimate these unknown costs using simulation-based inference on an illustrative UC problem, which provides an approximated posterior distribution of the parameters given observed generation schedules and demands. Our results highlight that the learned posterior distribution effectively captures the underlying distribution of the data, providing a range of possible values for the unknown parameters given a past observation. This posterior allows for the estimation of past costs using observed past generation schedules, enabling operators to better forecast future costs and make more robust generation scheduling forecasts. We present avenues for future research to address overconfidence in posterior estimation, enhance the scalability of the methodology and apply it to more complex UC problems modeling the network constraints and renewable energy sources.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis ( http://arxiv.org/abs/2409.03597v1 )

ライセンス: Link先を確認
Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Faya Liang, Ming Li, (参考訳) 本稿では,喉頭内視鏡検査のためのマルチモーダル分析システム (MASL) について述べる。 MASLは、声帯検出とキーワードスポッティングを統合して、患者の発声を分析し、ビデオハイライトを精査し、声帯の動きをよりよく検査する。 本システムは、色調、飽和、および値ゆらぎを分析してフレームを識別するストロボングビデオ抽出モジュールを含む。 MASLはまた、声帯麻痺検出に有効な指標を提供し、U-Netを用いた2段階の声門分割プロセスを使用し、拡散に基づく改善を行い、偽陽性を減少させる。 声門領域波形の代わりに、MASLは声門マスクから前方声門角度波形(AGAW)を推定し、左右の声帯を評価して片側声門麻痺(UVFP)を検出する。 AGAWの差異を比較することで、MASLは左右の麻痺を区別する。 パブリックおよび実世界のデータセットに関するアブレーション研究と実験は、MASLのセグメンテーションモジュールを検証し、UVFP診断のための信頼性のあるメトリクスを提供する能力を示す。

This paper presents the Multimodal Analyzing System for Laryngoscope (MASL), a system that combines audio and video data to automatically extract key segments and metrics from laryngeal videostroboscopic videos for clinical assessment. MASL integrates glottis detection with keyword spotting to analyze patient vocalizations and refine video highlights for better inspection of vocal cord movements. The system includes a strobing video extraction module that identifies frames by analyzing hue, saturation, and value fluctuations. MASL also provides effective metrics for vocal cord paralysis detection, employing a two-stage glottis segmentation process using U-Net followed by diffusion-based refinement to reduce false positives. Instead of glottal area waveforms, MASL estimates anterior glottic angle waveforms (AGAW) from glottis masks, evaluating both left and right vocal cords to detect unilateral vocal cord paralysis (UVFP). By comparing AGAW variances, MASL distinguishes between left and right paralysis. Ablation studies and experiments on public and real-world datasets validate MASL's segmentation module and demonstrate its ability to provide reliable metrics for UVFP diagnosis.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 機械学習分類器の対向距離評価のための実践的アプローチ

A practical approach to evaluating the adversarial distance for machine learning classifiers ( http://arxiv.org/abs/2409.03598v1 )

ライセンス: Link先を確認
Georg Siedel, Ekagra Gupta, Andrey Morozov, (参考訳) ロバストネスは機械学習(ML)分類器にとって、モデルが破損または逆入力に遭遇する可能性がある現実世界のアプリケーションにおいて一貫した性能を保証するために重要である。 特に、システムの脆弱性から保護し、使用時の安全性を確保するためには、分類器の堅牢性を評価することが不可欠である。 しかし, 複雑なMLモデルや高次元データに対して, 対向ロバスト性を正確に計算する手法は困難である。 さらに、評価は通常、特定の攻撃予算における敵の精度を測定し、その結果の指標の情報的価値を制限する。 本稿では,反復的対角攻撃と認証手法を用いたより情報性の高い対角距離の推定について検討する。 本手法は, 対向距離の上下境界の推定値を計算することによって, 対向ロバスト性を総合的に評価する。 本稿では,この評価手法の適用方法とパラメータ化に関する知見を提供する可視化とアブレーション研究について紹介する。 我々は,我々の敵攻撃アプローチが関連する実装と比較して有効であるのに対して,認証手法は期待に届かなかった。 本稿では,ML分類器の対角的ロバスト性を評価するための,より情報的な手法を提案する。

Robustness is critical for machine learning (ML) classifiers to ensure consistent performance in real-world applications where models may encounter corrupted or adversarial inputs. In particular, assessing the robustness of classifiers to adversarial inputs is essential to protect systems from vulnerabilities and thus ensure safety in use. However, methods to accurately compute adversarial robustness have been challenging for complex ML models and high-dimensional data. Furthermore, evaluations typically measure adversarial accuracy on specific attack budgets, limiting the informative value of the resulting metrics. This paper investigates the estimation of the more informative adversarial distance using iterative adversarial attacks and a certification approach. Combined, the methods provide a comprehensive evaluation of adversarial robustness by computing estimates for the upper and lower bounds of the adversarial distance. We present visualisations and ablation studies that provide insights into how this evaluation method should be applied and parameterised. We find that our adversarial attack approach is effective compared to related implementations, while the certification method falls short of expectations. The approach in this paper should encourage a more informative way of evaluating the adversarial robustness of ML classifiers.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# TCDiff:合成顔のスチル化のための3次元制約付き3次元条件拡散モデル

TCDiff: Triple Condition Diffusion Model with 3D Constraints for Stylizing Synthetic Faces ( http://arxiv.org/abs/2409.03600v1 )

ライセンス: Link先を確認
Bernardo Biesseck, Pedro Vidal, Luiz Coelho, Roger Granada, David Menotti|, (参考訳) 堅牢な顔認識モデルは、さまざまな条件(ポーズ、表現、年齢、騒音、閉塞など)の下で、多数の被験者と被験者毎の多数のサンプルを含むデータセットを使用してトレーニングされなければならない。 倫理的・プライバシー上の懸念から、MS1MV3のような大規模な実顔データセットは廃止され、SynFace、SFace、DigiFace-1M、IDiff-Face、DCFace、GANDiffFaceといったGANと拡散モデルを利用した合成顔生成が提案されている。 これらの手法のいくつかは、高忠実な現実的な顔を生成することができるが、クラス内分散の低い顔を生成する一方、アイデンティティの整合性の低い顔を生成する。 本稿では,3つの条件拡散モデル(TCDiff, Triple Condition Diffusion Model, TCDiff)を提案する。 LFW,CFP-FP, AgeDB, BUPTなどの実顔ベンチマークにおいて, 最先端の合成データセットをトレーニングするための新しいデータセットの1k, 2k, 5kクラスを用いた顔認識実験を行った。 私たちのソースコードは、https://github.com/BOVIFOCR/tcdiff.comで公開されています。

A robust face recognition model must be trained using datasets that include a large number of subjects and numerous samples per subject under varying conditions (such as pose, expression, age, noise, and occlusion). Due to ethical and privacy concerns, large-scale real face datasets have been discontinued, such as MS1MV3, and synthetic face generators have been proposed, utilizing GANs and Diffusion Models, such as SYNFace, SFace, DigiFace-1M, IDiff-Face, DCFace, and GANDiffFace, aiming to supply this demand. Some of these methods can produce high-fidelity realistic faces, but with low intra-class variance, while others generate high-variance faces with low identity consistency. In this paper, we propose a Triple Condition Diffusion Model (TCDiff) to improve face style transfer from real to synthetic faces through 2D and 3D facial constraints, enhancing face identity consistency while keeping the necessary high intra-class variance. Face recognition experiments using 1k, 2k, and 5k classes of our new dataset for training outperform state-of-the-art synthetic datasets in real face benchmarks such as LFW, CFP-FP, AgeDB, and BUPT. Our source code is available at: https://github.com/BOVIFOCR/tcdiff.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# SegTalker: マスク誘導ローカル編集によるセグメンテーションに基づく音声生成

SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing ( http://arxiv.org/abs/2409.03605v1 )

ライセンス: Link先を確認
Lingyu Xiong, Xize Cheng, Jintao Tan, Xianjia Wu, Xiandong Li, Lei Zhu, Fei Ma, Minglei Li, Huang Xu, Zhihu Hu, (参考訳) 音声駆動音声顔生成は、入力音声に同期した唇の動きで映像を合成することを目的としている。 しかし、現在の生成技術は、複雑な局所的なテクスチャ(皮膚、歯)を保存するための課題に直面している。 以上の課題に対処するために,セグメンテーションを中間表現として導入することにより,唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。 具体的には、解析ネットワークが使用する画像のマスクを考慮し、まず音声を利用してマスクを駆動し、発声セグメンテーションを生成する。 次に、マスク誘導エンコーダを用いて、画像の意味領域をスタイルコードに分解する。 最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。 このように、ほとんどのテクスチャは保存されている。 さらに,本手法は背景分離を本質的に達成し,マスクガイドによる顔局所編集を容易にする。 特に、マスクを編集し、所定の基準画像(例えば、髪、唇、まぶた)から領域のテクスチャを交換することで、会話する顔ビデオを生成する際に、顔の編集をシームレスに行うことができる。 実験により,提案手法はテクスチャの詳細を効果的に保存し,時間的に一貫したビデオを生成するとともに,リップ同期の競争力を維持することができることが示された。 HDTFおよびMEADデータセットの定量的および定性的な結果から,本手法の既存手法よりも優れた性能を示す。

Audio-driven talking face generation aims to synthesize video with lip movements synchronized to input audio. However, current generative techniques face challenges in preserving intricate regional textures (skin, teeth). To address the aforementioned challenges, we propose a novel framework called SegTalker to decouple lip movements and image textures by introducing segmentation as intermediate representation. Specifically, given the mask of image employed by a parsing network, we first leverage the speech to drive the mask and generate talking segmentation. Then we disentangle semantic regions of image into style codes using a mask-guided encoder. Ultimately, we inject the previously generated talking segmentation and style codes into a mask-guided StyleGAN to synthesize video frame. In this way, most of textures are fully preserved. Moreover, our approach can inherently achieve background separation and facilitate mask-guided facial local editing. In particular, by editing the mask and swapping the region textures from a given reference image (e.g. hair, lip, eyebrows), our approach enables facial editing seamlessly when generating talking face video. Experiments demonstrate that our proposed approach can effectively preserve texture details and generate temporally consistent video while remaining competitive in lip synchronization. Quantitative and qualitative results on the HDTF and MEAD datasets illustrate the superior performance of our method over existing methods.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# ダイヤモンド中の窒素空孔アンサンブルの磁場依存性発光特性の温度変化

Temperature shift of magnetic-field-dependent photoluminescence features of nitrogen-vacancy ensembles in diamond ( http://arxiv.org/abs/2409.03608v1 )

ライセンス: Link先を確認
Irena Rodzoń, Xue Zhang, Viktor Ivády, Huijie Zheng, Arne Wickenbrock, Dmitry Budker, (参考訳) 近年,ダイヤモンド中の負電荷窒素空孔(NV)中心の磁場依存性発光(PL)特性に注目が集まっている。 これらの特徴は無マイクロ波センシングに使われ、ダイヤモンド試料のスピンバス特性を示す。 PL特性の温度依存性を検査することで、温度依存性と独立性の両方を識別し、ダイヤモンドベースの量子センシングおよび動的核偏極への応用に利用することができる。 本稿では,幅広い磁場で観測できる様々な特徴の温度変動について検討する。 この目的のために,まず特徴の起源を議論し,これまで同定されていなかった特徴を複数スピン系を含むNV中心の交差緩和に仮に割り当てる。 実験結果は、熱膨張と電子-フォノン相互作用の組み合わせから導かれる理論的に予測された温度変化と比較される。 幅広い特徴の温度挙動に関する深い洞察は、高精度なNV熱測定、ジャイロスコープ、固体時計、生体磁気測定における様々な応用に重要な結果をもたらす可能性がある。

Recently significant attention has been paid to magnetic-field-dependent photoluminescence (PL) features of the negatively charged nitrogen-vacancy (NV) centers in diamond. These features are used for microwave-free sensing and are indicative of the spin-bath properties in the diamond sample. Examinating the temperature dependence of the PL features allows to identify both temperature dependent and independent features, and to utilize them in diamond-based quantum sensing and dynamic nuclear polarization applications. Here, we study the thermal variability of many different features visible in a wide range of magnetic fields. To this end, we first discuss the origin of the features and tentatively assign the previously unidentified features to cross relaxation of NV center containing multi-spin systems. The experimental results are compared with theoretically predicted temperature shifts deduced from a combination of thermal expansion and electron-phonon interactions. A deeper insight into the thermal behavior of a wide array of the features may come with important consequences for various applications in high-precision NV thermometry, gyroscopes, solid-state clocks, and biomagnetic measurements.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# VFLGAN-TS: 垂直分割時間系列データ公開のための垂直フェデレーション学習に基づく生成的敵対ネットワーク

VFLGAN-TS: Vertical Federated Learning-based Generative Adversarial Networks for Publication of Vertically Partitioned Time-Series Data ( http://arxiv.org/abs/2409.03612v1 )

ライセンス: Link先を確認
Xun Yuan, Zilong Zhao, Prosanta Gope, Biplab Sikdar, (参考訳) 現在の人工知能(AI)時代には、データセットのスケールと品質が、高品質なAIモデルのトレーニングにおいて重要な役割を果たす。 しかし、プライバシの懸念や規制のため、オリジナルのデータは共有できないことが多い。 潜在的な解決策は、プライベートデータセットに類似した分布を持つ合成データセットをリリースすることである。 それでも、いくつかのシナリオでは、AIモデルをトレーニングするために必要な属性は、異なるパーティに分散しており、プライバシ規制による合成データ構築のために、ローカルデータを共有することはできない。 PETS 2024では、垂直に分割された静的データをパブリッシュする、VFLGAN(Vertical Federated Learning-based Generative Adversarial Network)を導入した。 しかしながら、VFLGANは時系列データを効果的に扱えず、時間次元と属性次元の両方を表わす。 本稿では,属性判別器と垂直フェデレーション学習を組み合わせたVFLGAN-TSを提案する。 VFLGAN-TSの性能は、集中的に訓練され、VFLGAN-TSの上限値を表すVFLGAN-TSに近い。 プライバシーをさらに保護するために、VFLGAN-TSが$(\epsilon,\delta)$-differential privacyを満たすようにガウス的なメカニズムを適用する。 さらに、VFLGAN-TSと合成データセットのフレームワークを用いて、潜在的なプライバシー侵害を評価するための強化されたプライバシ監査手法を開発した。

In the current artificial intelligence (AI) era, the scale and quality of the dataset play a crucial role in training a high-quality AI model. However, often original data cannot be shared due to privacy concerns and regulations. A potential solution is to release a synthetic dataset with a similar distribution to the private dataset. Nevertheless, in some scenarios, the attributes required to train an AI model are distributed among different parties, and the parties cannot share the local data for synthetic data construction due to privacy regulations. In PETS 2024, we recently introduced the first Vertical Federated Learning-based Generative Adversarial Network (VFLGAN) for publishing vertically partitioned static data. However, VFLGAN cannot effectively handle time-series data, presenting both temporal and attribute dimensions. In this article, we proposed VFLGAN-TS, which combines the ideas of attribute discriminator and vertical federated learning to generate synthetic time-series data in the vertically partitioned scenario. The performance of VFLGAN-TS is close to that of its counterpart, which is trained in a centralized manner and represents the upper limit for VFLGAN-TS. To further protect privacy, we apply a Gaussian mechanism to make VFLGAN-TS satisfy an $(\epsilon,\delta)$-differential privacy. Besides, we develop an enhanced privacy auditing scheme to evaluate the potential privacy breach through the framework of VFLGAN-TS and synthetic datasets.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# 長期ソフトロボットデータ収集のためのモジュール並列マニピュレータ

1 Modular Parallel Manipulator for Long-Term Soft Robotic Data Collection ( http://arxiv.org/abs/2409.03614v1 )

ライセンス: Link先を確認
Kiyn Chin, Carmel Majidi, Abhinav Gupta, (参考訳) ハードウェアの堅牢性と実験的柔軟性が要求されるため、ソフトロボティクスの分野における機械学習の長期的な実験や大規模なデータ収集は困難である。 本研究では,このような大規模データ収集に適した並列ロボット操作プラットフォームを提案する。 剛体ロボットシステムにおける大規模データ収集を可能にする高忠実で高速なリアルタイムシミュレーションを再現することの計算的および理論的困難を考えると、堅牢なソフトロボティックハードウェアプラットフォームがこの分野の優先度の高い開発課題となる。 プラットホームのモジュールは、一対のオフ・ザ・シェルフ電気モーターで構成されており、これに準拠する平行構造からなるカスタマイズ可能な指を作動させる。 指の平行機構は、3Dプリントされたウレタンやシリコーンのバルク構造のようにシンプルで、モーターが受動的構造を完全に活性化できるためである。 この設計の柔軟性は、柔らかい機構で様々な測地、バルク特性、表面特性を実験することができる。 さらに、並列機構は別個の電子部品や追加部品を必要としないが、これらを組み込むことができ、多機能軟質材料を用いて、学習過程において互換性のあるソフトセンサーやアクチュエータを研究することができる。 本研究では,ベンチマーク2D操作タスクにおいて,ハードウェア上でのポリシ勾配強化学習に使用するプラットフォームの能力を検証する。 さらに、複数の指との互換性を実証し、互換性のある拡張の設計制約を特徴付ける。

Performing long-term experimentation or large-scale data collection for machine learning in the field of soft robotics is challenging, due to the hardware robustness and experimental flexibility required. In this work, we propose a modular parallel robotic manipulation platform suitable for such large-scale data collection and compatible with various soft-robotic fabrication methods. Considering the computational and theoretical difficulty of replicating the high-fidelity, faster-than-real-time simulations that enable large-scale data collection in rigid robotic systems, a robust soft-robotic hardware platform becomes a high priority development task for the field. The platform's modules consist of a pair of off-the-shelf electrical motors which actuate a customizable finger consisting of a compliant parallel structure. The parallel mechanism of the finger can be as simple as a single 3D-printed urethane or molded silicone bulk structure, due to the motors being able to fully actuate a passive structure. This design flexibility allows experimentation with soft mechanism varied geometries, bulk properties and surface properties. Additionally, while the parallel mechanism does not require separate electronics or additional parts, these can be included, and it can be constructed using multi-functional soft materials to study compatible soft sensors and actuators in the learning process. In this work, we validate the platform's ability to be used for policy gradient reinforcement learning directly on hardware in a benchmark 2D manipulation task. We additionally demonstrate compatibility with multiple fingers and characterize the design constraints for compatible extensions.
翻訳日:2024-09-06 20:15:17 公開日:2024-09-05
# DART2: 便利な情報や誤解を招く情報を賢く活用する堅牢な多重テスト手法

DART2: a robust multiple testing method to smartly leverage helpful or misleading ancillary information ( http://arxiv.org/abs/2409.03618v1 )

ライセンス: Link先を確認
Xuechan Li, Jichun Xie, (参考訳) 多重テストの多くのアプリケーションでは、仮説nullまたは代替ステータスを反映した補助情報が利用可能である。 テスト能力を高めるためにこの補助情報を活用するために、いくつかの方法が開発されている。 本稿では,アシラリー情報の質に関わらず,強力かつ堅牢に設計されたDART2という,頑健で効果的な距離支援型多重試験手法を開発する。 補助情報が有効な場合、DART2は、パワーを向上しつつ、漸近的にFDRを制御でき、そうでなければ、DART2はFDRを制御でき、少なくとも補助情報を無視して電力を維持することができる。 各種条件下での数値実験により,DART2の既存手法と比較して優れた性能を示した。 さらに、DART2は2種類の相違点情報の下で、より優れた精度と堅牢性を示す遺伝子アソシエーション研究にも適用されている。

In many applications of multiple testing, ancillary information is available, reflecting the hypothesis null or alternative status. Several methods have been developed to leverage this ancillary information to enhance testing power, typically requiring the ancillary information is helpful enough to ensure favorable performance. In this paper, we develop a robust and effective distance-assisted multiple testing procedure named DART2, designed to be powerful and robust regardless of the quality of ancillary information. When the ancillary information is helpful, DART2 can asymptotically control FDR while improving power; otherwise, DART2 can still control FDR and maintain power at least as high as ignoring the ancillary information. We demonstrated DART2's superior performance compared to existing methods through numerical studies under various settings. In addition, DART2 has been applied to a gene association study where we have shown its superior accuracy and robustness under two different types of ancillary information.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# Attend First, Consolidate Later: 異なるLDM層における注意の重要性について

Attend First, Consolidate Later: On the Importance of Attention in Different LLM Layers ( http://arxiv.org/abs/2409.03621v1 )

ライセンス: Link先を確認
Amit Ben Artzy, Roy Schwartz, (参考訳) デコーダベースのLCMでは、与えられたレイヤの表現は、現在のトークンの計算中に次のレイヤへの入力として、将来のトークンの注意機構への入力として、2つの目的を果たす。 本研究では,後者の役割の重要性が過大評価される可能性があることを示す。 例えば、ある層 k の隠れた状態をランダムなベクトルに置き換えることで、以前のトークンの表現を操作することから始める。 4つのLDMと4つのタスクを実験したところ、この操作は、しばしば小さくて無視できない性能低下につながることが示されている。 重要なことに、モデル-kの上部で操作がおこなわれると、レイヤの最後の30~50%が処理される。 対照的に、以前のレイヤで同じ操作を行うと、チャンスレベルのパフォーマンスにつながる可能性がある。 我々は、あるトークンの隠された状態を他のプロンプトから他のトークンの隠された状態に切り替え、例えば、"Italy" を "What is the capital of Italy?" の "France" に置き換える。 モデルのトップ1/3にこのスイッチを適用すると、モデルはそれを無視する("Rome"を答える)。 しかし、前もってそれを適用すれば、モデルはスイッチ("Paris")に適合する。 以上の結果から,トランスフォーマーをベースとしたLLMにおける2段階のプロセスが示唆された。

In decoder-based LLMs, the representation of a given layer serves two purposes: as input to the next layer during the computation of the current token; and as input to the attention mechanism of future tokens. In this work, we show that the importance of the latter role might be overestimated. To show that, we start by manipulating the representations of previous tokens; e.g. by replacing the hidden states at some layer k with random vectors. Our experimenting with four LLMs and four tasks show that this operation often leads to small to negligible drop in performance. Importantly, this happens if the manipulation occurs in the top part of the model-k is in the final 30-50% of the layers. In contrast, doing the same manipulation in earlier layers might lead to chance level performance. We continue by switching the hidden state of certain tokens with hidden states of other tokens from another prompt; e.g., replacing the word "Italy" with "France" in "What is the capital of Italy?". We find that when applying this switch in the top 1/3 of the model, the model ignores it (answering "Rome"). However if we apply it before, the model conforms to the switch ("Paris"). Our results hint at a two stage process in transformer-based LLMs: the first part gathers input from previous tokens, while the second mainly processes that information internally.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# GDPR原則と自己主権的アイデンティティの適合性について:批判的レビュー

On the Compliance of Self-Sovereign Identity with GDPR Principles: A Critical Review ( http://arxiv.org/abs/2409.03624v1 )

ライセンス: Link先を確認
Abubakar-Sadiq Shehu, (参考訳) IdM(Identity Management Systems)は、ユーザの識別、認証、電子サービスによる認証を補完するシステムである。 この目的のために使用される手法には、ユーザーとサービスプロデューサ(SP)間の信頼を仲介するためにIDプロバイダ(IdP)に依存している伝統的なIdM(分離、集中、連合)がある。 IdPはまた、SPのオンバイフでユーザを特定し、認証し、ユーザの認証を決定する。 これらのプロセスでは、SPとIdPの両方がプライベートユーザーのデータを収集、処理、保存する。 データ漏洩に対処する1つのアプローチは、IdPを緩和し、個人データの制御と保存を所有者に返すことである。 IdMモデルとしてSSI(Self-Sovereign Identity)が導入され、所有者に個人情報の制御を提供することでデータ漏洩の可能性を低減する。 SSIは分散IDMであり、データ所有者はデジタルウォレットに格納された個人情報を主権的に制御する。 SSIは新興技術であるため、そのコンポーネントや手法は慎重に評価する必要がある。 本稿では、IdMの進化と最先端SSIフレームワークのレビューを行う。 我々は、General Data Protection Regulation(GDPR)のブロックチェーンソリューションをレビューする論文を調査した。 我々は、最近のSSIとブロックチェーンの提案を体系的に検索し、検索したドキュメントのGDPRプライバシ原則によるコンプライアンスを評価し、それらの可能性、制約、制限について議論した。 この研究は、潜在的な研究のギャップと機会を特定する。

Identity Management Systems (IdMs) have complemented how users are identified, authenticated, and authorised on e-services. Among the methods used for this purpose are traditional IdMs (isolated, centralised and federated) that mostly rely on identity providers (IdPs) to broker trust between a user and service-providers (SPs). An IdP also identifies and authenticates a user on-behalf of the SP, who then determines the authorisation of the user. In these processes, both SP and IdP collect, process or store private users' data, which can be prone to breach. One approach to address the data breach is to relieve the IdP, and return control and storage of personal data to the owner. Self-sovereign identity (SSI) was introduced as an IdM model to reduce the possibility of data breaches by offering control of personal data to the owner. SSI is a decentralised IdM, where the data owner has sovereign control of personal data stored in their digital wallet. Since SSI is an emerging technology, its components and methods require careful evaluation. This paper provides an evolution to IdMs and reviews the state-of-the-art SSI frameworks. We explored articles in the literature that reviewed blockchain solutions for General Data Protection Regulation (GDPR). We systematically searched recent SSI and blockchain proposals, evaluated the compliance of the retrieved documents with the GDPR privacy principles, and discussed their potentials, constraints, and limitations. This work identifies potential research gaps and opportunities.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# モデル解釈可能性を超えて:機械学習における社会構造説明

Beyond Model Interpretability: Socio-Structural Explanations in Machine Learning ( http://arxiv.org/abs/2409.03632v1 )

ライセンス: Link先を確認
Andrew Smart, Atoosa Kasirzadeh, (参考訳) 不透明な機械学習モデルのアウトプットを解釈するのは何でしょう? 1つのアプローチは、解釈可能な機械学習技術を開発することである。 これらの技術は、モデル中心の局所的または大域的な説明を提供することによって機械学習モデルがどのように機能するかを示すことを目的としており、モデルの内部動作機構を明らかにする機械的解釈や、入力された特徴データ関係を示す非機械的近似に基づいている。 本稿では,特定の規範的領域における機械学習のアウトプットの解釈は,社会構造的説明と呼ばれる第3のタイプの説明に訴える必要がある,という社会哲学を論じる。 この説明型の関連性は、機械学習モデルが独立した実体ではなく、社会構造に埋め込まれて形成されているという事実によって動機付けられている。 社会構造的説明は、社会構造がどのように機械学習モデルの出力に寄与し、部分的に説明するかを説明することを目的としている。 人種的に偏った医療割当アルゴリズムを検証し,社会構造的説明の重要性を実証する。 我々の提案は、モデルの解釈可能性を超えた透明性の必要性を強調し、機械学習システムのアウトプットを理解するには、機械学習モデル自体の理解を超えて、より広範な分析が必要である。

What is it to interpret the outputs of an opaque machine learning model. One approach is to develop interpretable machine learning techniques. These techniques aim to show how machine learning models function by providing either model centric local or global explanations, which can be based on mechanistic interpretations revealing the inner working mechanisms of models or nonmechanistic approximations showing input feature output data relationships. In this paper, we draw on social philosophy to argue that interpreting machine learning outputs in certain normatively salient domains could require appealing to a third type of explanation that we call sociostructural explanation. The relevance of this explanation type is motivated by the fact that machine learning models are not isolated entities but are embedded within and shaped by social structures. Sociostructural explanations aim to illustrate how social structures contribute to and partially explain the outputs of machine learning models. We demonstrate the importance of sociostructural explanations by examining a racially biased healthcare allocation algorithm. Our proposal highlights the need for transparency beyond model interpretability, understanding the outputs of machine learning systems could require a broader analysis that extends beyond the understanding of the machine learning model itself.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 高忠実性一般化型ニューラルサーフェス再構成のためのサーフェス中心モデリング

Surface-Centric Modeling for High-Fidelity Generalizable Neural Surface Reconstruction ( http://arxiv.org/abs/2409.03634v1 )

ライセンス: Link先を確認
Rui Peng, Shihe Shen, Kaiqiang Xiong, Huachen Gao, Jianbo Jiao, Xiaodong Gu, Ronggang Wang, (参考訳) 多視点画像、特にスパース画像から高忠実表面を再構成することは、近年広く注目を集めている重要かつ実践的な課題である。 しかし、既存の手法は、メモリ制約や地底深度の要求によって妨げられ、満足のいく幾何学的詳細を回復することができない。 この目的のために、SuRFという新しいSurface中心のフレームワークを提案する。これは、マッチングフィールドに基づいた新しいリージョンスペーシングを取り入れ、パフォーマンス、効率、スケーラビリティのトレードオフを良好に達成する。 我々の知る限り、これは導入したマッチングフィールドを利用したエンドツーエンドのスペーシングを実現するための最初の教師なし手法であり、重量分布を利用して表面を含む境界領域を効率的に見つける。 本研究では, 各ボクセルのSDF値を予測する代わりに, ボクセルが表面領域内にあるかどうかを判断して, 体積をスパースする新しい領域スカラー化手法を提案する。 このようにして、我々のモデルは、より少ないメモリと計算量で、表面上の高い周波数特性を利用することができる。 複雑な大規模シーンを含む複数のベンチマークの大規模な実験により、我々の再構成は高品質な詳細を示し、新しい最先端性能、すなわち、メモリ消費を80%削減した46%の改善を実現している。 コードはhttps://github.com/prstrive/SuRF.comで入手できる。

Reconstructing the high-fidelity surface from multi-view images, especially sparse images, is a critical and practical task that has attracted widespread attention in recent years. However, existing methods are impeded by the memory constraint or the requirement of ground-truth depths and cannot recover satisfactory geometric details. To this end, we propose SuRF, a new Surface-centric framework that incorporates a new Region sparsification based on a matching Field, achieving good trade-offs between performance, efficiency and scalability. To our knowledge, this is the first unsupervised method achieving end-to-end sparsification powered by the introduced matching field, which leverages the weight distribution to efficiently locate the boundary regions containing surface. Instead of predicting an SDF value for each voxel, we present a new region sparsification approach to sparse the volume by judging whether the voxel is inside the surface region. In this way, our model can exploit higher frequency features around the surface with less memory and computational consumption. Extensive experiments on multiple benchmarks containing complex large-scale scenes show that our reconstructions exhibit high-quality details and achieve new state-of-the-art performance, i.e., 46% improvements with 80% less memory consumption. Code is available at https://github.com/prstrive/SuRF.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 相対論的ゼロ知識量子証明について

On the Relativistic Zero Knowledge Quantum Proofs of Knowledge ( http://arxiv.org/abs/2409.03635v1 )

ライセンス: Link先を確認
Kaiyan Shi, Kaushik Chakraborty, Wen Yu Kon, Omar Amer, Marco Pistoia, Charles Lim, (参考訳) 我々は、古典的なコミュニケーションを伴う知識システムの相対論的ゼロ知識量子証明の研究を開始し、多くの有用な概念を正式に定義し、Unruh (EUROCRYPT 2012) による特殊音響特性の弱い変種を満たす相対論的設定において、既存のすべてのプロトコルに対して適切な知識抽出器を構築する。 知識誤差 1/2 + negl({\eta}) を持つ知識の量子証明は、Fehr と Fillinger (EUROCRYPT 2016) による有理結合性を示す一般相対論的コミットメントスキームを用いて、ハミルトニアンサイクル関係のためのシステムを構築することにより、NP のすべての関係に対して存在する。 さらに, 特殊性を示すことのできない証明システムに対して, 知識抽出器の量子的証明を構築することができ, 抽出器を複数回巻き戻す必要があることを示す。 量子巻き戻し障壁を破ることのできる絡み合いのモノガミーと温和な測定レムマのアイデアを組み合わせることで、新しいマルチプロデューサ量子巻き戻し手法を開発した。 最後に、連続測定による影響に新たな限界を証明し、Chailloux や Leverrier (EUROCRYPT 2017) など、既存の相対論的ゼロ知識証明システムの音質境界を大幅に改善する。

We initiate the study of relativistic zero-knowledge quantum proof of knowledge systems with classical communication, formally defining a number of useful concepts and constructing appropriate knowledge extractors for all the existing protocols in the relativistic setting which satisfy a weaker variant of the special soundness property due to Unruh (EUROCRYPT 2012). We show that there exists quantum proofs of knowledge with knowledge error 1/2 + negl({\eta}) for all relations in NP via a construction of such a system for the Hamiltonian cycle relation using a general relativistic commitment scheme exhibiting the fairly-binding property due to Fehr and Fillinger (EUROCRYPT 2016). We further show that one can construct quantum proof of knowledge extractors for proof systems which do not exhibit special soundness, and therefore require an extractor to rewind multiple times. We develop a new multi-prover quantum rewinding technique by combining ideas from monogamy of entanglement and gentle measurement lemmas that can break the quantum rewinding barrier. Finally, we prove a new bound on the impact of consecutive measurements and use it to significantly improve the soundness bound of some existing relativistic zero knowledge proof systems, such as the one due to Chailloux and Leverrier (EUROCRYPT 2017).
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 小さな浅量子回路のための測地補正による量子自然勾配

Quantum Natural Gradient with Geodesic Corrections for Small Shallow Quantum Circuits ( http://arxiv.org/abs/2409.03638v1 )

ライセンス: Link先を確認
Mourad Halla, (参考訳) 量子自然勾配法(Quantum Natural Gradient, QNG)は、フビニ・スタディ計量を通じて量子状態空間から幾何学的な洞察を取り入れ、変分量子アルゴリズム(VQA)の最適化を強化する。 本研究では,リーマン的オイラー更新則と測地方程式を用いて高階積分器と測地補正を導入し,測地補正による量子自然勾配(QNGGC)の更新則を導出した。 QNGGCは、小さくて浅い量子回路用に特別に設計されている。 また、これらの補正に必要なクリストッフェル記号の効率的な計算法を開発し、パラメータシフト則を利用して量子回路からの直接測定を可能にする。 理論的解析と実例により、QNGGCは標準QNGよりも収束率を大幅に改善し、測地補正を量子最適化プロセスに統合する利点を強調した。 我々のアプローチは、幾何学的手法の利点を生かして、より効率的な量子アルゴリズムの道を開く。

The Quantum Natural Gradient (QNG) method enhances optimization in variational quantum algorithms (VQAs) by incorporating geometric insights from the quantum state space through the Fubini-Study metric. In this work, we extend QNG by introducing higher-order integrators and geodesic corrections using the Riemannian Euler update rule and geodesic equations, deriving an updated rule for the Quantum Natural Gradient with Geodesic Correction (QNGGC). QNGGC is specifically designed for small, shallow quantum circuits. We also develop an efficient method for computing the Christoffel symbols necessary for these corrections, leveraging the parameter-shift rule to enable direct measurement from quantum circuits. Through theoretical analysis and practical examples, we demonstrate that QNGGC significantly improves convergence rates over standard QNG, highlighting the benefits of integrating geodesic corrections into quantum optimization processes. Our approach paves the way for more efficient quantum algorithms, leveraging the advantages of geometric methods.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# CDM: 公正かつ正確なフォーミュラ認識評価のための信頼性基準

CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation ( http://arxiv.org/abs/2409.03643v1 )

ライセンス: Link先を確認
Bin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He, (参考訳) 数式認識は、複雑な構造と数学的表現の様々な表記が原因で重要な課題を呈している。 公式認識モデルの継続的な進歩にもかかわらず、BLEUやEdit Distanceのようなこれらのモデルで使用される評価指標は、依然として顕著な限界を示している。 彼らは、同じ公式が多種多様な表現を持ち、訓練データの分布に非常に敏感であるという事実を軽視し、公式認識評価における不公平を生じさせる。 そこで本研究では,LaTexレベルのメトリクススコアではなく,画像レベルを設計することで,評価の客観性を確保できるキャラクタ検出マッチング(CDM)メトリクスを提案する。 具体的には、CDMはモデル予測されたLaTeXと基底構造LaTeXの2つの公式を画像整形式に描画し、視覚的特徴抽出と局所化技術を用いて正確な文字レベルのマッチングを行い、空間的位置情報を組み込む。 このような空間認識と文字マッチングは、テキストベースの文字マッチングのみに依存する以前のBLEUやEdit Distanceのメトリクスと比較して、より正確で公平な評価を提供する。 実験により, CDM, BLEU, ExpRate測定値を用いて各種式認識モデルの評価を行った。 これらの結果は、CDMが人間の評価基準とより緊密に整合し、多種多様な公式表現による相違を排除し、異なるモデル間でより公平な比較を行うことを示した。

Formula recognition presents significant challenges due to the complicated structure and varied notation of mathematical expressions. Despite continuous advancements in formula recognition models, the evaluation metrics employed by these models, such as BLEU and Edit Distance, still exhibit notable limitations. They overlook the fact that the same formula has diverse representations and is highly sensitive to the distribution of training data, thereby causing the unfairness in formula recognition evaluation. To this end, we propose a Character Detection Matching (CDM) metric, ensuring the evaluation objectivity by designing a image-level rather than LaTex-level metric score. Specifically, CDM renders both the model-predicted LaTeX and the ground-truth LaTeX formulas into image-formatted formulas, then employs visual feature extraction and localization techniques for precise character-level matching, incorporating spatial position information. Such a spatially-aware and character-matching method offers a more accurate and equitable evaluation compared with previous BLEU and Edit Distance metrics that rely solely on text-based character matching. Experimentally, we evaluated various formula recognition models using CDM, BLEU, and ExpRate metrics. Their results demonstrate that the CDM aligns more closely with human evaluation standards and provides a fairer comparison across different models by eliminating discrepancies caused by diverse formula representations.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# RealisHuman: 生成画像中の不正な部分の補修のための2段階的アプローチ

RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images ( http://arxiv.org/abs/2409.03644v1 )

ライセンス: Link先を確認
Benzhi Wang, Jingkai Zhou, Jingqi Bai, Yang Yang, Weihua Chen, Fan Wang, Zhen Lei, (参考訳) 近年、拡散モデルは視覚生成に革命をもたらし、GAN(Generative Adversarial Networks)のような従来のフレームワークを上回っている。 しかし、手や顔などの現実的な意味的な部分を持つ人間の画像を生成することは、複雑な構造上の複雑さのため、依然として重要な課題である。 この問題に対処するため,RealisHumanという新しいポストプロセッシングソリューションを提案する。 RealisHumanフレームワークは2段階で動作する。 まず、手や顔などの現実的な人間の部分を生成し、元の不正な部分を参照として使用し、元の画像と一貫した詳細を確保する。 第2に、周囲を塗り替えることで、整形されたヒトの部位をシームレスに統合し、スムーズでリアルなブレンディングを確実にする。 RealisHumanフレームワークは、質的および量的指標の両方において顕著な改善によって示されるように、人間の生成のリアリズムを著しく向上させる。 コードはhttps://github.com/Wangbenzhi/RealisHuman.comで入手できる。

In recent years, diffusion models have revolutionized visual generation, outperforming traditional frameworks like Generative Adversarial Networks (GANs). However, generating images of humans with realistic semantic parts, such as hands and faces, remains a significant challenge due to their intricate structural complexity. To address this issue, we propose a novel post-processing solution named RealisHuman. The RealisHuman framework operates in two stages. First, it generates realistic human parts, such as hands or faces, using the original malformed parts as references, ensuring consistent details with the original image. Second, it seamlessly integrates the rectified human parts back into their corresponding positions by repainting the surrounding areas to ensure smooth and realistic blending. The RealisHuman framework significantly enhances the realism of human generation, as demonstrated by notable improvements in both qualitative and quantitative metrics. Code is available at https://github.com/Wangbenzhi/RealisHuman.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 物体認識モデルと人間の脳波の協調学習による対向強靭性の限定的かつ一貫した向上

Limited but consistent gains in adversarial robustness by co-training object recognition models with human EEG ( http://arxiv.org/abs/2409.03646v1 )

ライセンス: Link先を確認
Manshan Guo, Bhavin Choksi, Sari Sadiya, Alessandro T. Gifford, Martina G. Vilas, Radoslaw M. Cichy, Gemma Roig, (参考訳) 人間のビジョンとは対照的に、人工知能(ANN)は敵の攻撃に比較的敏感である。 この脆弱性に対処するため、人間の脳からANNに誘導バイアスを移す努力がなされており、しばしば生物学的なバイアスと一致するようにANN表現を訓練している。 以前の研究は、脳の特定の領域から、非自然条件(麻酔動物)下で、そして多様性と自然性を欠いた刺激データセットを用いて、ネズミや霊長類から得られた脳のデータに頼っていた。 本研究では,モデル表現と人間の脳波応答との整合性について検討した。 具体的には、分類と脳波予測の2つのタスクでResNet50バックボーンモデルを訓練し、敵攻撃に対する脳波予測精度と堅牢性を評価した。 ネットワークの脳波予測精度は,刺激開始後100ms前後が最も高く,対向的強靭性では有意な相関がみられた。 効果の大きさは限られていたが、異なるランダムな初期化にまたがって効果は一貫しており、アーキテクチャ上の変異に対して堅牢であった。 さらに個々の脳波チャンネルからのデータを分解し,頭頂後頭頂部の電極からの強い寄与を観察した。 このようなタスクに対する人間の脳波の実証的な有用性は、様々な刺激条件下で大きなデータセットに拡張し、より強力な効果を約束する将来の取り組みの道を開く。

In contrast to human vision, artificial neural networks (ANNs) remain relatively susceptible to adversarial attacks. To address this vulnerability, efforts have been made to transfer inductive bias from human brains to ANNs, often by training the ANN representations to match their biological counterparts. Previous works relied on brain data acquired in rodents or primates using invasive techniques, from specific regions of the brain, under non-natural conditions (anesthetized animals), and with stimulus datasets lacking diversity and naturalness. In this work, we explored whether aligning model representations to human EEG responses to a rich set of real-world images increases robustness to ANNs. Specifically, we trained ResNet50-backbone models on a dual task of classification and EEG prediction; and evaluated their EEG prediction accuracy and robustness to adversarial attacks. We observed significant correlation between the networks' EEG prediction accuracy, often highest around 100 ms post stimulus onset, and their gains in adversarial robustness. Although effect size was limited, effects were consistent across different random initializations and robust for architectural variants. We further teased apart the data from individual EEG channels and observed strongest contribution from electrodes in the parieto-occipital regions. The demonstrated utility of human EEG for such tasks opens up avenues for future efforts that scale to larger datasets under diverse stimuli conditions with the promise of stronger effects.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 直接選好最適化によるインシシット・リワードモデルの限定一般化能力について

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization ( http://arxiv.org/abs/2409.03650v1 )

ライセンス: Link先を確認
Yong Lin, Skyler Seto, Maartje ter Hoeve, Katherine Metcalf, Barry-John Theobald, Xuan Wang, Yizhe Zhang, Chen Huang, Tong Zhang, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルと人間の嗜好を整合させる効果的なアプローチである。 RLHFの中心は、人間の好みを評価するための報酬関数を学んでいる。 報酬モデルを学ぶための2つの主要なアプローチ 1)RLHFのようにEXRM(Explicit Reward Model)を訓練し、 2) 直接選好最適化 (DPO) などの手法を用いて, 選好データから学習した暗黙の報奨を用いた。 これまでの研究では、DPO(DPORM)の暗黙の報酬モデルが、制限のEXRMを近似できることが示されている。 DPORMの有効性は,学習方針の最適性を直接的に示し,反復的DPOを含むLCMアライメント手法の実践的意味も持つ。 しかしながら,DPORM が EXRM の性能とどのように一致しているかは明らかでない。 本研究は,DPORM と EXRM の双方に対して,推奨回答と拒否回答を区別する精度について検討した。 この結果から,DPORMはトレーニングデータセットに適合するが,特に検証データセットが分散シフトを含む場合,EXRMよりも効率が低いことが示唆された。 5つのアウト・オブ・ディストリビューション設定の中で、DPORMの精度は平均3%低下し、最大で7%低下した。 これらの結果から,DPORMは限定的な一般化能力を有し,反復的DPOアプローチにおける明示的な報酬モデルの統合を裏付けている。

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM's effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 感情保存話者匿名化におけるプライバシーと感情保存のトレードオフ

Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization ( http://arxiv.org/abs/2409.03655v1 )

ライセンス: Link先を確認
Zexin Cai, Henry Li Xinyuan, Ashi Garg, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Nicholas Andrews, Matthew Wiesner, (参考訳) 音声技術の進歩により、音声による個人識別情報への前例のないアクセスが可能になった。 このような情報を保護するために、差分プライバシー分野は、言語的・パラ言語的側面を含むその実用性を保ちながら、音声を匿名化する方法を模索してきた。 しかし,感情状態を維持しながら発話を匿名化することは依然として困難である。 我々はこの問題をVoicePrivacy 2024チャレンジの文脈で探求する。 具体的には、様々な話者匿名化パイプラインを開発し、匿名化や感情状態の保存においてアプローチが優れているが、同時にはならないことを発見した。 両方の達成にはドメイン内の感情認識が必要だ。 さらに、感情表現のみを用いて半効果的な話者検証システムを訓練することは可能であり、これらの2つのモダリティを分離することの難しさを示す。

Advances in speech technology now allow unprecedented access to personally identifiable information through speech. To protect such information, the differential privacy field has explored ways to anonymize speech while preserving its utility, including linguistic and paralinguistic aspects. However, anonymizing speech while maintaining emotional state remains challenging. We explore this problem in the context of the VoicePrivacy 2024 challenge. Specifically, we developed various speaker anonymization pipelines and find that approaches either excel at anonymization or preserving emotion state, but not both simultaneously. Achieving both would require an in-domain emotion recognizer. Additionally, we found that it is feasible to train a semi-effective speaker verification system using only emotion representations, demonstrating the challenge of separating these two modalities.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# ランダム量子回路における量子複雑性と局在

Quantum complexity and localization in random quantum circuits ( http://arxiv.org/abs/2409.03656v1 )

ライセンス: Link先を確認
Himanshu Sahu, Aranya Bhattacharya, Pingal Pratyush Nath, (参考訳) 量子複雑性は、量子コンピューティングからブラックホールの理論まで、物理学の様々な領域において中心的な概念として現れてきた。 ランダム量子回路の複雑性を計測・無測定で体系的に研究する。 一定の値に飽和する前に、複雑性が線形に増加するのを観察する。 測定なしの$N$ qubitsの場合、飽和値は$2^{N-1}$、飽和時間は$2^N$となる。 この振る舞いは、異なる確率を持つランダムな測定の存在下では同一であり、この複雑さの概念は測定速度に無関心であることを示している。 また、ランダムなユニタリ・フロケット回路の2つの変種における複雑性の挙動について検討し、アンダーソンの局所化と多体局在の新たなプローブとして複雑性が働くことを観察した。

Quantum complexity has emerged as a central concept in diverse areas of physics, ranging from quantum computing to the theory of black holes. We perform a systematic study of complexity in random quantum circuits with and without measurements. We observe that complexity grows linearly before saturating to a constant value. For $N$ qubits without measurements, the saturation value scales as $2^{N-1}$, and the saturation time scales as $2^N$. This behaviour remains identical in the presence of random measurements with different probabilities, indicating that this notion of complexity is insensitive to the rate of measurement. We also study the behaviour of complexity in two variants of the random unitary floquet circuit, where we observe that complexity acts as a novel probe of Anderson localization and many-body localization.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 生成逆ネットワークによる教師なし異常検出と位置決め

Unsupervised Anomaly Detection and Localization with Generative Adversarial Networks ( http://arxiv.org/abs/2409.03657v1 )

ライセンス: Link先を確認
Khouloud Abdelli, Matteo Lonardi, Jurgen Gripp, Samuel Olsson, Fabien Boitier, Patricia Layec, (参考訳) 生成逆数ネットワークとSOP由来のスペクトログラムを用いた新しい教師なし異常検出手法を提案する。 顕著な有効性を示すため,本手法は海底および地上のファイバリンクからのSOPデータセットに対して97%以上の精度を達成し,ラベル付きデータを必要とせずに達成した。

We propose a novel unsupervised anomaly detection approach using generative adversarial networks and SOP-derived spectrograms. Demonstrating remarkable efficacy, our method achieves over 97% accuracy on SOP datasets from both submarine and terrestrial fiber links, all achieved without the need for labelled data.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# トポロジカルおよび静電特性を持つDNN生体物理モデル

A DNN Biophysics Model with Topological and Electrostatic Features ( http://arxiv.org/abs/2409.03658v1 )

ライセンス: Link先を確認
Elyssa Sliheet, Md Abu Talha, Weihua Geng, (参考訳) 本稿では,タンパク質の性質を予測するために,ディープラーニングニューラルネットワーク(DNN)に基づく生体物理モデルを提案する。 このモデルは、タンパク質の構造情報と力場によって生成される多スケールおよび均一なトポロジカルおよび静電特性を用いており、分子力学を制御している。 トポロジ的特徴は要素指定持続ホモロジー(ESPH)を用いて生成され、静電気的特徴はカルテシアンツリーコードを用いて高速に計算される。 これらの特徴は、様々な大きさのタンパク質に対して一様であり、ネットワークのトレーニングに広く利用可能なタンパク質構造データベースを使用することができる。 これらの機能はマルチスケールであるため、解像度と計算コストはユーザによってバランスがとれる。 4000以上のタンパク質構造に関する機械学習シミュレーションは、静電溶解エネルギーなどの生体物性の予測のためのタンパク質構造と力場を表現する上で、これらの特徴の効率性と忠実性を示している。 トポロジカルな特徴と静電気的な特徴を単独で試験し,両特徴を併用した場合の最適性能を示した。 このモデルは、理論計算と実験の両方のデータを用いて、幅広い生体分子の生物物理学的性質と機能予測を支援する一般的なツールとしての可能性を示している。

In this project, we provide a deep-learning neural network (DNN) based biophysics model to predict protein properties. The model uses multi-scale and uniform topological and electrostatic features generated with protein structural information and force field, which governs the molecular mechanics. The topological features are generated using the element specified persistent homology (ESPH) while the electrostatic features are fast computed using a Cartesian treecode. These features are uniform in number for proteins with various sizes thus the broadly available protein structure database can be used in training the network. These features are also multi-scale thus the resolution and computational cost can be balanced by the users. The machine learning simulation on over 4000 protein structures shows the efficiency and fidelity of these features in representing the protein structure and force field for the predication of their biophysical properties such as electrostatic solvation energy. Tests on topological or electrostatic features alone and the combination of both showed the optimal performance when both features are used. This model shows its potential as a general tool in assisting biophysical properties and function prediction for the broad biomolecules using data from both theoretical computing and experiments.
翻訳日:2024-09-06 20:03:34 公開日:2024-09-05
# 非協調環境におけるLLMに基づくマルチエージェント詩生成

LLM-based multi-agent poetry generation in non-cooperative environments ( http://arxiv.org/abs/2409.03659v1 )

ライセンス: Link先を確認
Ran Zhang, Steffen Eger, (参考訳) 自動詩生成のための大規模言語モデル(LLM)の大幅な進歩にもかかわらず、生成された詩は多様性に欠けており、訓練過程は人間の学習と大きく異なる。 詩生成システムの学習過程は、より人間らしく、その出力はより多様で斬新であるべきだという理論的根拠のもと、我々は、多様性を促進するために協調的相互作用以外の非協調的相互作用を強調する社会学習に基づく枠組みを導入する。 本実験は, TRAINING-BASED エージェント (GPT-2) と PROMPING-BASED エージェント (GPT-3 と GPT-4) を併用した非協調的な詩生成環境における LLM ベースのマルチエージェントシステムの試みである。 96kの詩から評価したところ,本フレームワークはTRAINING-BASEDエージェントの詩生成プロセスに有効であり,1)多様性が3.0~3.7ポイント(pp)増加し,5.6~11.3ppが新鮮で新規なn-gramによる新規性の増加を示す。 TRAINING-BASEDエージェントから生成された詩は、語彙、スタイル、意味論の点で集団的な違いを示す。 本研究のフレームワークにおけるPromptting-BASEDエージェントは,非協調的環境の恩恵を受けるとともに,非均一性エージェントを用いたより多様なモデルのアンサンブルにより,多様性をさらに向上させる可能性があり,実験によると7.0-17.5pp。 しかし、Promptting-BASEDエージェントは、時間とともに語彙の多様性が低下し、ソーシャルネットワークで意図されるグループベースのばらつきは示さない。 本稿では,人的相互作用に類似した社会的学習プロセス(LLMに基づくエージェントモデリング)を取り入れた自動詩生成などの創造的タスクのパラダイムシフトを論じる。

Despite substantial progress of large language models (LLMs) for automatic poetry generation, the generated poetry lacks diversity while the training process differs greatly from human learning. Under the rationale that the learning process of the poetry generation systems should be more human-like and their output more diverse and novel, we introduce a framework based on social learning where we emphasize non-cooperative interactions besides cooperative interactions to encourage diversity. Our experiments are the first attempt at LLM-based multi-agent systems in non-cooperative environments for poetry generation employing both TRAINING-BASED agents (GPT-2) and PROMPTING-BASED agents (GPT-3 and GPT-4). Our evaluation based on 96k generated poems shows that our framework benefits the poetry generation process for TRAINING-BASED agents resulting in 1) a 3.0-3.7 percentage point (pp) increase in diversity and a 5.6-11.3 pp increase in novelty according to distinct and novel n-grams. The generated poetry from TRAINING-BASED agents also exhibits group divergence in terms of lexicons, styles and semantics. PROMPTING-BASED agents in our framework also benefit from non-cooperative environments and a more diverse ensemble of models with non-homogeneous agents has the potential to further enhance diversity, with an increase of 7.0-17.5 pp according to our experiments. However, PROMPTING-BASED agents show a decrease in lexical diversity over time and do not exhibit the group-based divergence intended in the social network. Our paper argues for a paradigm shift in creative tasks such as automatic poetry generation to include social learning processes (via LLM-based agent modeling) similar to human interaction.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 大規模言語モデルにおける少数ショット学習と微調整の表現的景観

The representation landscape of few-shot learning and fine-tuning in large language models ( http://arxiv.org/abs/2409.03662v1 )

ライセンス: Link先を確認
Diego Doimo, Alessandro Serra, Alessio Ansuini, Alberto Cazzaniga, (参考訳) In-context Learning (ICL) と supervised fine-tuning (SFT) は、現代の大規模言語モデル(LLM) の性能向上のための2つの一般的な戦略である。 異なる性質にもかかわらず、これらの戦略はしばしば同等のパフォーマンス向上につながる。 しかし、それらがLLMの内部で類似した表現を誘導するかどうかはほとんど分かっていない。 本稿では,2つのケースで隠れた表現の確率的景観を解析することにより,この問題に対処する。 より具体的には、LLMが同じ質問応答タスクをどのように解決するかを比較し、ICLとSFTがネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成することを発見した。 ネットワークの前半では、ICLは意味的内容に応じて階層的に解釈可能な表現を形作る。 対照的に、SFTで得られる確率ランドスケープはファジィであり、意味的に混合される。 モデル後半では、微調整された表現は、回答のアイデンティティをよりよくエンコードする確率モードを発達させ、ICL表現のランドスケープは、定義の少ないピークによって特徴づけられる。 提案手法は,LLMの内部で開発されている多種多様な計算戦略を用いて,異なる条件で同じ課題を解決し,言語モデルから情報を抽出する最適な手法を設計するための一歩を踏み出したものである。

In-context learning (ICL) and supervised fine-tuning (SFT) are two common strategies for improving the performance of modern large language models (LLMs) on specific tasks. Despite their different natures, these strategies often lead to comparable performance gains. However, little is known about whether they induce similar representations inside LLMs. We approach this problem by analyzing the probability landscape of their hidden representations in the two cases. More specifically, we compare how LLMs solve the same question-answering task, finding that ICL and SFT create very different internal structures, in both cases undergoing a sharp transition in the middle of the network. In the first half of the network, ICL shapes interpretable representations hierarchically organized according to their semantic content. In contrast, the probability landscape obtained with SFT is fuzzier and semantically mixed. In the second half of the model, the fine-tuned representations develop probability modes that better encode the identity of answers, while the landscape of ICL representations is characterized by less defined peaks. Our approach reveals the diverse computational strategies developed inside LLMs to solve the same task across different conditions, allowing us to make a step towards designing optimal methods to extract information from language models.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# ウェーブレットニューラルネットワークを用いた空気繊維の偏光変化状態の天気適応型マルチステップ予測

Weather-Adaptive Multi-Step Forecasting of State of Polarization Changes in Aerial Fibers Using Wavelet Neural Networks ( http://arxiv.org/abs/2409.03663v1 )

ライセンス: Link先を確認
Khouloud Abdelli, Matteo Lonardi, Jurgen Gripp, Samuel Olsson Fabien Boitier, Patricia Layec, (参考訳) 本研究では,大気ファイバリンクにおけるマルチスケールSOP変化の多段階予測のための新しい気象適応手法を提案する。 本手法では,離散ウェーブレット変換と気象データの導入により,RMSEでは65%,MAPEでは63%の精度で予測精度を向上する。

We introduce a novel weather-adaptive approach for multi-step forecasting of multi-scale SOP changes in aerial fiber links. By harnessing the discrete wavelet transform and incorporating weather data, our approach improves forecasting accuracy by over 65% in RMSE and 63% in MAPE compared to baselines.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# ランダム正則グラフ上の量子貯水池計算

Quantum reservoir computing on random regular graphs ( http://arxiv.org/abs/2409.03665v1 )

ライセンス: Link先を確認
Moein N. Ivaki, Achilleas Lazarides, Tapio Ala-Nissila, (参考訳) 量子貯水池コンピューティング(QRC)は、入力駆動多体量子系の固有力学と非線形時間的データ処理の古典的学習技術を組み合わせた低複雑性学習パラダイムである。 QRCプロセスと計算装置の最適化は、多体量子システムの様々な要因への依存のため、複雑な作業である。 これを探るため、ランダムな正則グラフ上の強相互作用スピンモデルを量子成分として導入し、静的障害、相互作用、グラフ接続間の相互作用について検討し、量子メモリ容量と学習可能性の正確性に重要な影響を明らかにした。 線形量子および非線形古典的タスクに取り組み、情報局在化、動的量子相関、乱れハミルトニアン多体構造の研究を通して最適学習と記憶規則を同定する。 特に、これまで見過ごされていたネットワーク接続の役割を明らかにし、量子相関の存在が学習性能を大幅に向上させることを示す。 そこで本研究では、乱れたアナログ量子学習プラットフォームの最適設計のためのガイドラインを提供する。

Quantum reservoir computing (QRC) is a low-complexity learning paradigm that combines the inherent dynamics of input-driven many-body quantum systems with classical learning techniques for nonlinear temporal data processing. Optimizing the QRC process and computing device is a complex task due to the dependence of many-body quantum systems to various factors. To explore this, we introduce a strongly interacting spin model on random regular graphs as the quantum component and investigate the interplay between static disorder, interactions, and graph connectivity, revealing their critical impact on quantum memory capacity and learnability accuracy. We tackle linear quantum and nonlinear classical tasks, and identify optimal learning and memory regimes through studying information localization, dynamical quantum correlations, and the many-body structure of the disordered Hamiltonian. In particular, we uncover the role of previously overlooked network connectivity and demonstrate how the presence of quantum correlations can significantly enhance the learning performance. Our findings thus provide guidelines for the optimal design of disordered analog quantum learning platforms.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# MIMOディジタルファイバーセンシング,ウェーブレット,機械学習を用いた展開光ネットワークの脅威分類

Threat Classification on Deployed Optical Networks Using MIMO Digital Fiber Sensing, Wavelets, and Machine Learning ( http://arxiv.org/abs/2409.03667v1 )

ライセンス: Link先を確認
Khouloud Abdelli, Henrique Pavani, Christian Dorize, Sterenn Guerrier, Haik Mardoyan, Patricia Layec, Jeremie Renaudier, (参考訳) 57kmのネットワークリンク上でMIMO-DFS出力データのウェーブレット変換を利用して, 削岩機や掘削機を含む機械的脅威分類を行う。 我々の機械学習フレームワークは、転送学習を取り入れ、フィールドデータから93%の分類精度を示し、光ネットワークの監視に有効である。

We demonstrate mechanical threats classification including jackhammers and excavators, leveraging wavelet transform of MIMO-DFS output data across a 57-km operational network link. Our machine learning framework incorporates transfer learning and shows 93% classification accuracy from field data, with benefits for optical network supervision.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# スタートアップの成功を予測するための融合した大規模言語モデル

A Fused Large Language Model for Predicting Startup Success ( http://arxiv.org/abs/2409.03668v1 )

ライセンス: Link先を確認
Abdurahman Maarouf, Stefan Feuerriegel, Nicolas Pröllochs, (参考訳) 投資家は継続的にスタートアップへの投資機会を求めており、効果的な意思決定のためには、スタートアップの成功の確率を予測する必要がある。 今日では、投資家はスタートアップに関するさまざまな基本的な情報(例えば、スタートアップの年齢、創業者の数、そしてビジネスセクター)だけでなく、Crunchbaseのようなオンラインベンチャーキャピタル(VC)プラットフォームを通じて広く利用できるスタートアップのイノベーションとビジネスモデルのテキスト記述も利用できる。 投資家の意思決定を支援するため、VCプラットフォーム上で成功したスタートアップを見つけることを目的とした機械学習アプローチを開発しました。 具体的には、スタートアップの成功を予測するために、調整された、融合した大きな言語モデルを開発し、訓練し、評価します。 これにより、VCプラットフォーム上での自己説明がスタートアップの成功を予測できる範囲を評価する。 Crunchbaseのオンラインプロフィール20,172枚を使って、われわれの融合した大きな言語モデルがスタートアップの成功を予測し、テキストによる自己記述が予測能力のかなりの部分を占めていることを突き止めた。 私たちの仕事は、投資家が利益を得る投資機会を見つけるための意思決定支援ツールを提供します。

Investors are continuously seeking profitable investment opportunities in startups and, hence, for effective decision-making, need to predict a startup's probability of success. Nowadays, investors can use not only various fundamental information about a startup (e.g., the age of the startup, the number of founders, and the business sector) but also textual description of a startup's innovation and business model, which is widely available through online venture capital (VC) platforms such as Crunchbase. To support the decision-making of investors, we develop a machine learning approach with the aim of locating successful startups on VC platforms. Specifically, we develop, train, and evaluate a tailored, fused large language model to predict startup success. Thereby, we assess to what extent self-descriptions on VC platforms are predictive of startup success. Using 20,172 online profiles from Crunchbase, we find that our fused large language model can predict startup success, with textual self-descriptions being responsible for a significant part of the predictive power. Our work provides a decision support tool for investors to find profitable investment opportunities.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 高次元プロセスドリフト検出のベンチマーク法

A method to benchmark high-dimensional process drift detection ( http://arxiv.org/abs/2409.03669v1 )

ライセンス: Link先を確認
Edgar Wolf, Tobias Windisch, (参考訳) プロセス曲線は製造プロセスから得られる多変量有限時系列データである。 本稿では,プロセス曲線のドリフトに対する機械学習手法について検討する。 プロセスドリフト検出のための機械学習アルゴリズムをベンチマークするために、制御された方法でプロセス曲線を合成的に生成する理論フレームワークを導入する。 曲線の下の時間領域と呼ばれる評価スコアを導入し、機械学習モデルがドリフトセグメントに属する曲線をどれだけうまく提示するかを定量化する。 最後に、導入したフレームワークで生成された合成データに対する一般的な機械学習アプローチを比較したベンチマーク研究を行った。

Process curves are multi-variate finite time series data coming from manufacturing processes. This paper studies machine learning methods for drifts of process curves. A theoretic framework to synthetically generate process curves in a controlled way is introduced in order to benchmark machine learning algorithms for process drift detection. A evaluation score, called the temporal area under the curve, is introduced, which allows to quantify how well machine learning models unveil curves belonging to drift segments. Finally, a benchmark study comparing popular machine learning approaches on synthetic data generated with the introduced framework shown.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# TRACE-cs:授業スケジューリング問題におけるコントラスト説明のための信頼できる推論

TRACE-cs: Trustworthy Reasoning for Contrastive Explanations in Course Scheduling Problems ( http://arxiv.org/abs/2409.03671v1 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, William Yeoh, (参考訳) 本稿では,シンボル推論と大言語モデル(LLM)を組み合わせた新しいハイブリッドシステムTRACE-csを提案する。 TRACE-csはSATソルバ技術を活用してスケジューリング制約を符号化し、ユーザクエリの説明を生成するとともに、LLMを使用してユーザクエリを論理句に処理し、シンボルソルバによって生成された説明を自然言語文に洗練する。 これらのコンポーネントを統合することで、LLMとシンボリックメソッドを組み合わせることで、説明可能なAIエージェントを正確性保証で作成する可能性を実証する。

We present TRACE-cs, a novel hybrid system that combines symbolic reasoning with large language models (LLMs) to address contrastive queries in scheduling problems. TRACE-cs leverages SAT solving techniques to encode scheduling constraints and generate explanations for user queries, while utilizing an LLM to process the user queries into logical clauses as well as refine the explanations generated by the symbolic solver to natural language sentences. By integrating these components, our approach demonstrates the potential of combining symbolic methods with LLMs to create explainable AI agents with correctness guarantees.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# ファーム内およびファーム間連携学習に基づく風力タービン状態のモニタリング

Wind turbine condition monitoring based on intra- and inter-farm federated learning ( http://arxiv.org/abs/2409.03672v1 )

ライセンス: Link先を確認
Albin Grataloup, Stefan Jonas, Angela Meyer, (参考訳) 風力エネルギーの普及が進むにつれて、風力タービンの効率的な運転と維持がエネルギー生産の最大化とコストとダウンタイムの最小化に欠かせないものとなる。 コンディションモニタリングや電力予測など、風力エネルギーに関する多くのAI応用は、個々の風力タービンだけでなく、複数のタービンや複数の風力発電所からの運用データを使用することで恩恵を受けることができる。 データプライバシを保存するコラボレーティブな分散AIは、これらのアプリケーションにとって大きな可能性を秘めている。 フェデレーテッド・ラーニングは、この文脈で、プライバシを保存する分散機械学習のアプローチとして登場した。 風力タービン条件モニタリングにおけるフェデレート学習,特に正常な挙動モデルを用いた故障検出について検討する。 本研究では,異なる風力発電所とタービンモデル間の協調や,同じ風力発電所とタービンモデルに限定した協調など,各種の連合学習戦略について検討する。 本研究の結果から,複数の風力タービンを横断する連合学習は,特に訓練データが少ない場合において,1つのタービンで訓練したモデルより一貫して優れていたことが示唆された。 さらに,協調学習戦略を用いることで,実効モデルを訓練するために必要な履歴データの量を大幅に削減することができる。 最後に,複数の風力発電所への協力の延長は,農業における学習の制限,特に統計的不均一性や不均衡なデータセットに直面する場合に比べて性能が劣る可能性が示唆された。

As wind energy adoption is growing, ensuring the efficient operation and maintenance of wind turbines becomes essential for maximizing energy production and minimizing costs and downtime. Many AI applications in wind energy, such as in condition monitoring and power forecasting, may benefit from using operational data not only from individual wind turbines but from multiple turbines and multiple wind farms. Collaborative distributed AI which preserves data privacy holds a strong potential for these applications. Federated learning has emerged as a privacy-preserving distributed machine learning approach in this context. We explore federated learning in wind turbine condition monitoring, specifically for fault detection using normal behaviour models. We investigate various federated learning strategies, including collaboration across different wind farms and turbine models, as well as collaboration restricted to the same wind farm and turbine model. Our case study results indicate that federated learning across multiple wind turbines consistently outperforms models trained on a single turbine, especially when training data is scarce. Moreover, the amount of historical data necessary to train an effective model can be significantly reduced by employing a collaborative federated learning strategy. Finally, our findings show that extending the collaboration to multiple wind farms may result in inferior performance compared to restricting learning within a farm, specifically when faced with statistical heterogeneity and imbalanced datasets.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 相関パターンを用いたクリプトコインタイムリーの実用的な予測

Practical Forecasting of Cryptocoins Timeseries using Correlation Patterns ( http://arxiv.org/abs/2409.03674v1 )

ライセンス: Link先を確認
Pasquale De Rosa, Pascal Felber, Valerio Schiavoni, (参考訳) クリプトコイン(Cryptocoins, Bitcoin, Ether, Litecoin)は、取引可能なデジタル資産である。 暗号通貨の所有者は、分散台帳(ブロックチェーン)に登録される。 セキュアな暗号化技術は、台帳に登録されたトランザクション(所有者間のコインの転送)のセキュリティを保証する。 暗号通貨は特定の取引価格で交換される。 こうした取引価格の急激なボラティリティは、あらゆる異なる暗号資産にまたがっている。 しかし、異なる暗号通貨間の取引価格の関係はほとんど解明されていない。 主要な硬貨取引所は、販売または購入の助言に関するトレンド相関を示す。 しかし、価格の相関はほとんど解明されていない。 我々は、過去2年間のコイン/価格相関の傾向を調査することで、さまざまな暗号通貨間のトレンド相関にいくつかの光を当てた。 相関暗号の時系列モデリング(例えば、GBM、LSTM、GRU)における最先端予測手法の精度を理解するために、傾向間の因果関係を考察し、導出相関を利用した。 私たちの評価は (i)最も取引された硬貨(例えば、ビットコイン、イーサ)と他の種類の暗号通貨との強い相関パターン (II)最先端の時系列予測アルゴリズムを用いて暗号通貨の価格動向を予測できる。 研究コミュニティに分析を再現するためのデータセットとコードを公開しました。

Cryptocoins (i.e., Bitcoin, Ether, Litecoin) are tradable digital assets. Ownerships of cryptocoins are registered on distributed ledgers (i.e., blockchains). Secure encryption techniques guarantee the security of the transactions (transfers of coins among owners), registered into the ledger. Cryptocoins are exchanged for specific trading prices. The extreme volatility of such trading prices across all different sets of crypto-assets remains undisputed. However, the relations between the trading prices across different cryptocoins remains largely unexplored. Major coin exchanges indicate trend correlation to advise for sells or buys. However, price correlations remain largely unexplored. We shed some light on the trend correlations across a large variety of cryptocoins, by investigating their coin/price correlation trends over the past two years. We study the causality between the trends, and exploit the derived correlations to understand the accuracy of state-of-the-art forecasting techniques for time series modeling (e.g., GBMs, LSTM and GRU) of correlated cryptocoins. Our evaluation shows (i) strong correlation patterns between the most traded coins (e.g., Bitcoin and Ether) and other types of cryptocurrencies, and (ii) state-of-the-art time series forecasting algorithms can be used to forecast cryptocoins price trends. We released datasets and code to reproduce our analysis to the research community.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 光子が原子雲で負の時間を過ごすことができるという実験的証拠

Experimental evidence that a photon can spend a negative amount of time in an atom cloud ( http://arxiv.org/abs/2409.03680v1 )

ライセンス: Link先を確認
Daniela Angulo, Kyle Thompson, Vida-Michelle Nixon, Andy Jiao, Howard M. Wiseman, Aephraim M. Steinberg, (参考訳) 光のパルスが物質を横切ると、群遅延と呼ばれる時間遅延が発生する。 光子によって経験されるグループ遅延は、原子励起として過ごす時間に起因すべきなのか? この接続は合理的に思えるかもしれないが、光の周波数が原子共鳴に近いときに問題があり、群遅延がこの状態において負となる。 この問題に対処するために、我々はクロスカー効果を用いて、弱い非共鳴ビーム上の位相シフトを測定することにより、共鳴透過光子による原子励起の度合いを探索する。 我々の結果は、パルス時間と光深度の範囲において、透過光子による平均原子励起時間(観測位相シフトの時間積分による測定)が光が経験する群遅延と等しいという最近の理論的予測と一致している。 具体的には、最も狭帯域パルスに対して$(-0.82\pm 0.31) \tau_0$から、最も広帯域パルスに対して$(0.54\pm 0.28) \tau_0$まで、平均原子励起時間を測定する。 以上の結果から,グループ遅延などの時間による負の値は,一般に評価されるよりも物理的に重要であることが示唆された。

When a pulse of light traverses a material, it incurs a time delay referred to as the group delay. Should the group delay experienced by photons be attributed to the time they spend as atomic excitations? However reasonable this connection may seem, it appears problematic when the frequency of the light is close to the atomic resonance, as the group delay becomes negative in this regime. To address this question, we use the cross-Kerr effect to probe the degree of atomic excitation caused by a resonant transmitted photon, by measuring the phase shift on a separate beam that is weak and off-resonant. Our results, over a range of pulse durations and optical depths, are consistent with the recent theoretical prediction that the mean atomic excitation time caused by a transmitted photon (as measured via the time integral of the observed phase shift) equals the group delay experienced by the light. Specifically, we measure mean atomic excitation times ranging from $(-0.82\pm 0.31) \tau_0$ for the most narrowband pulse to $(0.54\pm 0.28) \tau_0$ for the most broadband pulse, where $\tau_0$ is the non-post-selected excitation time, given by the scattering (absorption) probability multiplied by the atomic lifetime $\tau_{\rm sp}$. These results suggest that negative values taken by times such as the group delay have more physical significance than has generally been appreciated.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 収束保証付き一階メタラーニングアルゴリズム

A New First-Order Meta-Learning Algorithm with Convergence Guarantees ( http://arxiv.org/abs/2409.03682v1 )

ライセンス: Link先を確認
El Mahdi Chayti, Martin Jaggi, (参考訳) 他の(関連する)タスクから収集された事前経験に基づいて新しいタスクを学ぶことは、インテリジェントシステムの中核的な特性である。 グラディエントベースのメタ学習、特にMAMLとその変種は、この目標を達成するための実行可能なソリューションとして登場した。 MAMLが遭遇する問題の1つは、メタグラディエントを計算するのに必要な計算とメモリの負荷である。 我々は、他の一階変種とは異なり、MAMLの目的の定常点に収束することを証明した新しい一階変種を提案する。 また,MAMLの目的が従来の研究で仮定された滑らかさの仮定を満たさないことを示すとともに,その滑らかさ定数がメタグラディエントのノルムとともに増加することを示す。 我々はこの理論を合成実験で検証する。

Learning new tasks by drawing on prior experience gathered from other (related) tasks is a core property of any intelligent system. Gradient-based meta-learning, especially MAML and its variants, has emerged as a viable solution to accomplish this goal. One problem MAML encounters is its computational and memory burdens needed to compute the meta-gradients. We propose a new first-order variant of MAML that we prove converges to a stationary point of the MAML objective, unlike other first-order variants. We also show that the MAML objective does not satisfy the smoothness assumption assumed in previous works; we show instead that its smoothness constant grows with the norm of the meta-gradient, which theoretically suggests the use of normalized or clipped-gradient methods compared to the plain gradient method used in previous works. We validate our theory on a synthetic experiment.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 一般積分布上の量子チャネルの予測

Predicting quantum channels over general product distributions ( http://arxiv.org/abs/2409.03684v1 )

ライセンス: Link先を確認
Sitan Chen, Jaume de Dios Pont, Jun-Ting Hsieh, Hsin-Yuan Huang, Jane Lange, Jerry Li, (参考訳) 未知の量子チャネルの出力挙動を予測する問題について検討する。 n$-qubit チャネル $E$ と観測可能な $O$ へのクエリアクセスを前提にすると、分布 $D$ からサンプリングされたほとんどの $\rho$ に対して小さなエラーの範囲内で、マッピング \begin{equation*} \rho \mapsto \mathrm{Tr}(O E[\rho]) \end{equation*} を学習することを目指している。 これまで、Huang、Chen、Preskillは、$E$が任意の場合でも、このタスクはおよそ$n^{O(\log(1/\epsilon))}$で解決できるという驚くべき結果を示した。 しかし、それらの保証は全ての単一量子ビットクリフォードゲートの下での入力分布に対してのみ$D$不変であり、それらのアルゴリズムは製品状態上の一般積分布のような重要なケースでは$\rho$である。 本研究では, 自明な指数的下界が存在する場合の「古典的」ではないことを前提として, 基本的に任意の積分布に対して正確な予測を行う新しい手法を提案する。 この手法は古典的偏りのあるフーリエ解析に類似した「バイアスド・パウリ解析」を用いている。 このアプローチを実装するには、適切な直交性を持つ基底の欠如を含む、量子設定に特有のいくつかの課題を克服する必要がある。 これらの問題に対処するために開発された技術は、量子情報に幅広い応用をもたらす可能性がある。

We investigate the problem of predicting the output behavior of unknown quantum channels. Given query access to an $n$-qubit channel $E$ and an observable $O$, we aim to learn the mapping \begin{equation*} \rho \mapsto \mathrm{Tr}(O E[\rho]) \end{equation*} to within a small error for most $\rho$ sampled from a distribution $D$. Previously, Huang, Chen, and Preskill proved a surprising result that even if $E$ is arbitrary, this task can be solved in time roughly $n^{O(\log(1/\epsilon))}$, where $\epsilon$ is the target prediction error. However, their guarantee applied only to input distributions $D$ invariant under all single-qubit Clifford gates, and their algorithm fails for important cases such as general product distributions over product states $\rho$. In this work, we propose a new approach that achieves accurate prediction over essentially any product distribution $D$, provided it is not "classical" in which case there is a trivial exponential lower bound. Our method employs a "biased Pauli analysis," analogous to classical biased Fourier analysis. Implementing this approach requires overcoming several challenges unique to the quantum setting, including the lack of a basis with appropriate orthogonality properties. The techniques we develop to address these issues may have broader applications in quantum information.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# ゼロショット新規ビュー合成によるビュー不変政策学習

View-Invariant Policy Learning via Zero-Shot Novel View Synthesis ( http://arxiv.org/abs/2409.03685v1 )

ライセンス: Link先を確認
Stephen Tian, Blake Wulfe, Kyle Sargent, Katherine Liu, Sergey Zakharov, Vitor Guizilini, Jiajun Wu, (参考訳) 大規模ビズモータ政策学習は、一般化可能な操作システムを開発するための有望なアプローチである。 しかし, 多様な実施形態, 環境, 観察的モダリティに展開可能な政策はいまだ解明されていない。 本研究では,世界の大規模視覚データからの知識が,一般化可能な操作のための一軸の変動にどのように対応できるかを考察する。 具体的には、単一入力画像から同一シーンの画像をレンダリングすることで、3D認識されたシーンレベルを学習する単一画像の新規ビュー合成モデルについて検討する。 多様なロボットデータに実用的に適用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を実行する必要がある。 我々は、ビュー合成拡張(VISTA)と呼ばれる単純なデータ拡張スキームにおいて、ビュー合成モデルを経験的に分析し、ビューの表示データから視点不変ポリシーを学習する能力を理解する。 提案手法を用いて訓練したカメラ視点外におけるロバスト性を評価することにより,シミュレーションおよび実世界の操作作業において,ベースラインよりも優れていることがわかった。 ビデオと追加の視覚化はhttps://s-tian.github.io/projects/vista.orgで公開されている。

Large-scale visuomotor policy learning is a promising approach toward developing generalizable manipulation systems. Yet, policies that can be deployed on diverse embodiments, environments, and observational modalities remain elusive. In this work, we investigate how knowledge from large-scale visual data of the world may be used to address one axis of variation for generalizable manipulation: observational viewpoint. Specifically, we study single-image novel view synthesis models, which learn 3D-aware scene-level priors by rendering images of the same scene from alternate camera viewpoints given a single input image. For practical application to diverse robotic data, these models must operate zero-shot, performing view synthesis on unseen tasks and environments. We empirically analyze view synthesis models within a simple data-augmentation scheme that we call View Synthesis Augmentation (VISTA) to understand their capabilities for learning viewpoint-invariant policies from single-viewpoint demonstration data. Upon evaluating the robustness of policies trained with our method to out-of-distribution camera viewpoints, we find that they outperform baselines in both simulated and real-world manipulation tasks. Videos and additional visualizations are available at https://s-tian.github.io/projects/vista.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 超低温原子ガスに結合した閉じ込められたイオン中のフォノンを介する量子ゲート

Phonon-mediated quantum gates in trapped ions coupled to an ultracold atomic gas ( http://arxiv.org/abs/2409.03693v1 )

ライセンス: Link先を確認
Lorenzo Oghittu, Arghavan Safavi-Naini, Antonio Negretti, Rene Gerritsma, (参考訳) 我々は,極低温の原子ガスの存在下での捕捉されたイオン間のフォノンを介する量子ビット相互作用のダイナミクスについて検討した。 連成系を記述するためのマスター方程式の導出と解法により、原子の存在が量子ゲートの品質を減少させることを示した。 一方, 電界ノイズによる外部加熱の存在下では, イオン結晶の低温維持にガスが用いられる可能性がある。 原子-イオン散乱長の調整により、イオンの冷却速度を調整でき、長期にわたってイオンを冷やしながら、量子ゲート中のガスの影響を一時的に低減できることを示す。 このように、捕捉されたイオン量子コンピュータはバッファガスを冷却することができる。 また、原子-イオン相互作用や原子浴の性質を量子的に測定するためにも用いられる。

We study the dynamics of phonon-mediated qubit-qubit interactions between trapped ions in the presence of an ultracold atomic gas. By deriving and solving a master equation to describe the combined system, we show that the presence of the atoms causes the quantum gate quality to reduce because of motional decoherence. On the other hand, we calculate that the gas may be used to keep the ion crystal cold in the presence of external heating due to electric field noise. We show that tuning the atom-ion scattering length allows to tune the cooling rate of the ions and would make it possible to temporarily reduce the effects of the gas during a quantum gate while keeping the ions cold over long timescales. In this way, the trapped ion quantum computer may be buffer gas cooled. The system may also be used for quantum-enhanced measurements of the atom-ion interactions or properties of the atomic bath.
翻訳日:2024-09-06 19:53:43 公開日:2024-09-05
# 機械学習アルゴリズムを用いた心臓疾患の分類と予測

Classification and Prediction of Heart Diseases using Machine Learning Algorithms ( http://arxiv.org/abs/2409.03697v1 )

ライセンス: Link先を確認
Akua Sekyiwaa Osei-Nkwantabisa, Redeemer Ntumy, (参考訳) 心臓病は世界中で深刻な健康問題となっている。 世界の主要な死因は心臓血管疾患であり、通常は心臓病と呼ばれる。 これらの病気の信頼性、有効、そして正確な予測を作成することは、今日医療界が直面している最大の課題の1つだ。 心臓病を予測するツールは存在するが、患者のリスクを判断するために費用がかかるか、あるいは適用が難しい。 心疾患の診断・発見に最適な分類法が本研究の目的であった。 この実験では、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbor(K-Nearest Neighbor)、サポートベクトルマシン(Support Vector Machine)、人工知能ニューラルネットワーク(Artificial Neural Networks)など、さまざまな機械学習アプローチを調査し、どの機械学習アルゴリズムが心臓疾患の予測に最も効果的であるかを判定した。 この目的のために最もよく利用されるデータセットの1つとして、UCI心臓病リポジトリがこの研究のためのデータセットを提供した。 K-Nearest Neighbor法は、患者が心臓病を患っているかどうかを判断する最も効果的な機械学習アルゴリズムであることが示されている。 追加の機械学習アルゴリズムの心臓疾患予測への応用について、さらなる研究を行うことは有益である。

Heart disease is a serious worldwide health issue because it claims the lives of many people who might have been treated if the disease had been identified earlier. The leading cause of death in the world is cardiovascular disease, usually referred to as heart disease. Creating reliable, effective, and precise predictions for these diseases is one of the biggest issues facing the medical world today. Although there are tools for predicting heart diseases, they are either expensive or challenging to apply for determining a patient's risk. The best classifier for foretelling and spotting heart disease was the aim of this research. This experiment examined a range of machine learning approaches, including Logistic Regression, K-Nearest Neighbor, Support Vector Machine, and Artificial Neural Networks, to determine which machine learning algorithm was most effective at predicting heart diseases. One of the most often utilized data sets for this purpose, the UCI heart disease repository provided the data set for this study. The K-Nearest Neighbor technique was shown to be the most effective machine learning algorithm for determining whether a patient has heart disease. It will be beneficial to conduct further studies on the application of additional machine learning algorithms for heart disease prediction.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# LAST:言語モデルが音声認識を意識する

LAST: Language Model Aware Speech Tokenization ( http://arxiv.org/abs/2409.03701v1 )

ライセンス: Link先を確認
Arnon Turetzky, Yossi Adi, (参考訳) 音声トークン化は、音声言語モデル(LM)の基礎として機能し、音声言語モデリング、テキスト音声、音声音声テキストなど様々なタスクを実行できる。 ほとんどの音声トークンは、別々の音響モデルと量子化法に依存して、LMトレーニングプロセスとは独立して訓練される。 このようなアプローチに従うと、トークン化プロセスとその使用方法のミスマッチが発生する可能性がある。 本研究では,事前学習されたテキストLMの目的を生かして,音声トークン化者の訓練を行う新しい手法を提案する。 我々は、この目的を個別の音声表現を学習するプロセスに統合することを提唱する。 本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。 音声語彙サイズやテキストLMサイズなど,様々なモデル設計選択の影響を実証的に検討する。 提案手法は,音声言語モデルと音声テキストの両方を考慮した評価ベースラインよりも優れていることを示す。 さらに,従来のトークン化手法とは違って,提案手法では,音声入力とテキスト入力の両処理に1つの事前学習されたLMを用いることが可能である。

Speech tokenization serves as the foundation of speech language model (LM), enabling them to perform various tasks such as spoken language modeling, text-to-speech, speech-to-text, etc. Most speech tokenizers are trained independently of the LM training process, relying on separate acoustic models and quantization methods. Following such an approach may create a mismatch between the tokenization process and its usage afterward. In this study, we propose a novel approach to training a speech tokenizer by leveraging objectives from pre-trained textual LMs. We advocate for the integration of this objective into the process of learning discrete speech representations. Our aim is to transform features from a pre-trained speech model into a new feature space that enables better clustering for speech LMs. We empirically investigate the impact of various model design choices, including speech vocabulary size and text LM size. Our results demonstrate the proposed tokenization method outperforms the evaluated baselines considering both spoken language modeling and speech-to-text. More importantly, unlike prior work, the proposed method allows the utilization of a single pre-trained LM for processing both speech and text inputs, setting it apart from conventional tokenization approaches.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 強い$\varepsilon$-contaminationモデルにおける非線形学習の反復しきい値付け

Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model ( http://arxiv.org/abs/2409.03703v1 )

ライセンス: Link先を確認
Arvind Rathnashyam, Alex Gittens, (参考訳) ラベルと共変量の両方が逆向きに劣化している場合,閾値勾配勾配を用いた単一ニューロンモデル学習のための近似バウンダリを導出する。 モデル $y = \sigma(\mathbf{w}^{*} \cdot \mathbf{x}) + \xi,$ ここで、$\sigma$ は非線形活性化関数であり、ノイズ $\xi$ はガウスであり、共変ベクトル $\mathbf{x}$ はガウス分布からサンプリングされる。 我々はSigmoidal, leaky-ReLU, ReLU 活性化関数を研究し、$O(\nu\sqrt{\epsilon\log(1/\epsilon)})$ approximation bound in $\ell_{2}$-norm, with sample complexity $O(d/\epsilon)$ and failure probability $e^{-\Omega(d)}$を導出する。 線形回帰問題も研究し、$\sigma(\mathbf{x}) = \mathbf{x}$ となる。 我々は、Bhatia et al (NeurIPS 2015) と Shen and Sanghavi (ICML 2019) の勾配差に基づく反復しきい値アルゴリズムに対して、以前の$O(\nu)$近似境界を改善した$O(\nu\epsilon\log(1/\epsilon))$近似境界を導出した。 我々のアルゴリズムは、$O(\text{polylog}(N,d)\log(R/\epsilon))$ Runtime complexity when $\|\mathbf{w}^{*}\|_2 \leq R$, improve on the $O(\text{polylog}(N,d)/\epsilon^2)$ Runtime complexity of Awasthi et al (NeurIPS 2022)である。

We derive approximation bounds for learning single neuron models using thresholded gradient descent when both the labels and the covariates are possibly corrupted adversarially. We assume the data follows the model $y = \sigma(\mathbf{w}^{*} \cdot \mathbf{x}) + \xi,$ where $\sigma$ is a nonlinear activation function, the noise $\xi$ is Gaussian, and the covariate vector $\mathbf{x}$ is sampled from a sub-Gaussian distribution. We study sigmoidal, leaky-ReLU, and ReLU activation functions and derive a $O(\nu\sqrt{\epsilon\log(1/\epsilon)})$ approximation bound in $\ell_{2}$-norm, with sample complexity $O(d/\epsilon)$ and failure probability $e^{-\Omega(d)}$. We also study the linear regression problem, where $\sigma(\mathbf{x}) = \mathbf{x}$. We derive a $O(\nu\epsilon\log(1/\epsilon))$ approximation bound, improving upon the previous $O(\nu)$ approximation bounds for the gradient-descent based iterative thresholding algorithms of Bhatia et al. (NeurIPS 2015) and Shen and Sanghavi (ICML 2019). Our algorithm has a $O(\textrm{polylog}(N,d)\log(R/\epsilon))$ runtime complexity when $\|\mathbf{w}^{*}\|_2 \leq R$, improving upon the $O(\text{polylog}(N,d)/\epsilon^2)$ runtime complexity of Awasthi et al. (NeurIPS 2022).
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 差分プライバシーをもつ異なるレベルのテキスト保護機構

A Different Level Text Protection Mechanism With Differential Privacy ( http://arxiv.org/abs/2409.03707v1 )

ライセンス: Link先を確認
Qingwen Fu, (参考訳) 本稿では,BERT事前学習モデルに基づいて,重要度が異なる単語を抽出する方法を紹介し,本手法の有効性を実証する。 本稿は、テキストユーティリティ全体において、異なる重要性を持つ単語に対して、同じ摂動結果を維持することが及ぼす影響についても論じる。 この方法は長文保護に適用できる。

The article introduces a method for extracting words of different degrees of importance based on the BERT pre-training model and proves the effectiveness of this method. The article also discusses the impact of maintaining the same perturbation results for words of different importance on the overall text utility. This method can be applied to long text protection.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# RAGに基づく文脈応答予測システムに対する質問応答

RAG based Question-Answering for Contextual Response Prediction System ( http://arxiv.org/abs/2409.03708v1 )

ライセンス: Link先を確認
Sriram Veturi, Saurabh Vaichal, Nafis Irtiza Tripto, Reshma Lal Jagadheesh, Nian Yan, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、効果的な質問応答システムとしての可能性を含む汎用性を示している。 しかし、業界環境で特定の顧客の問い合わせに応答して正確な情報を提供するためには、幻覚を避けるために総合的な知識ベースにアクセスする必要がある。 Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。 しかし、RAGを用いた現実世界アプリケーションのための正確な問合せフレームワークの開発にはいくつかの課題が伴う。 1)データ可用性の問題。 2 生成されたコンテンツの質の評価及び 3)人的評価の費用性。 本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。 顧客からの問い合わせに応じて、提案システムは関連する知識文書を検索し、それらを過去のチャット履歴とともに活用し、大手小売店の連絡先センターにおけるカスタマーサービスエージェントに対する応答提案を生成する。 総合的な自動評価と人的評価により、このソリューションは現在のBERTベースのアルゴリズムよりも精度と妥当性が優れていることを示す。 以上の結果から,RAGをベースとしたLCMは,作業負荷の軽減によるカスタマーサービス代表者への優れた支援となる可能性が示唆された。

Large Language Models (LLMs) have shown versatility in various Natural Language Processing (NLP) tasks, including their potential as effective question-answering systems. However, to provide precise and relevant information in response to specific customer queries in industry settings, LLMs require access to a comprehensive knowledge base to avoid hallucinations. Retrieval Augmented Generation (RAG) emerges as a promising technique to address this challenge. Yet, developing an accurate question-answering framework for real-world applications using RAG entails several challenges: 1) data availability issues, 2) evaluating the quality of generated content, and 3) the costly nature of human evaluation. In this paper, we introduce an end-to-end framework that employs LLMs with RAG capabilities for industry use cases. Given a customer query, the proposed system retrieves relevant knowledge documents and leverages them, along with previous chat history, to generate response suggestions for customer service agents in the contact centers of a major retail company. Through comprehensive automated and human evaluations, we show that this solution outperforms the current BERT-based algorithms in accuracy and relevance. Our findings suggest that RAG-based LLMs can be an excellent support to human customer service representatives by lightening their workload.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 幾何学的画像拡散:画像に基づく表面表現を用いた高速かつデータ効率のテキストから3D

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation ( http://arxiv.org/abs/2409.03718v1 )

ライセンス: Link先を確認
Slava Elizarov, Ciara Rowles, Simon Donné, (参考訳) テキスト記述から高品質な3Dオブジェクトを生成することは、計算コスト、3Dデータの不足、複雑な3D表現のために難しい問題である。 幾何学画像を用いた3次元形状表現モデルであるGIMDiffusion(Geometry Image Diffusion)を導入する。 協調制御機構を統合することで、安定拡散のような既存のテキスト・画像モデルのリッチな2次元先行を活用できる。 これにより、限られた3Dトレーニングデータ(高品質なトレーニングデータしか使用できない)でも強力な一般化が可能になり、IPAdapterのようなガイダンス技術との互換性を維持します。 簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。 生成されたオブジェクトは意味的に意味のある別々の部分で構成され、内部構造を含み、ユーザビリティと汎用性の両方を高める。

Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 信用計算の透明性

Confidential Computing Transparency ( http://arxiv.org/abs/2409.03720v1 )

ライセンス: Link先を確認
Ceren Kocaoğullar, Tina Marjanov, Ivan Petrov, Ben Laurie, Al Cutter, Christoph Kern, Alice Hutchings, Alastair R. Beresford, (参考訳) Confidential Computingは、ハードウェアベースのTrusted Execution Environments(TEEs)を活用することで、データ使用を保護するために設計されたセキュリティパラダイムである。 TEEは重大なセキュリティ上のメリットを提供するが、認証だけで脆弱性やバックドアの欠如を保証できないため、ユーザ信頼の必要性は依然として課題である。 この問題に対処するため,我々は,段階的な透明性を有する信頼度コンピューティング透明性フレームワークを提案する。 このフレームワークは、レビュアーへの説明責任と堅牢な技術的保護を取り入れ、包括的な信頼連鎖を作ることによって、オープンソースのコードや監査のような現在の手段を越えています。 私たちの結びついたアプローチは、複雑な現実世界のシステムにおいて透明性を実現するための実践的な経路を提供します。 400人の参加者によるユーザスタディを通じて、高レベルの透明性がユーザの快適性、特に機密データタイプに結びついていることが実証された。

Confidential Computing is a security paradigm designed to protect data in-use by leveraging hardware-based Trusted Execution Environments (TEEs). While TEEs offer significant security benefits, the need for user trust remains a challenge, as attestation alone cannot guarantee the absence of vulnerabilities or backdoors. To address this, we propose a Confidential Computing Transparency framework with progressive levels of transparency. This framework goes beyond current measures like open-source code and audits by incorporating accountability for reviewers and robust technical safeguards, creating a comprehensive trust chain. Our tiered approach provides a practical pathway to achieving transparency in complex, real-world systems. Through a user study with 400 participants, we demonstrate that higher levels of transparency are associated with increased user comfort, particularly for sensitive data types.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# ハードウェア支援パラメタライズド回路の実行

Hardware-Assisted Parameterized Circuit Execution ( http://arxiv.org/abs/2409.03725v1 )

ライセンス: Link先を確認
Abhi D. Rajagopala, Akel Hashim, Neelay Fruitwala, Gang Huang, Yilun Xu, Jordan Hines, Irfan Siddiqi, Katherine Klymko, Kasra Nowrouzi, (参考訳) 量子回路の標準的なコンパイラは、任意の単一量子ビットゲートを物理X(pi/2)パルスと仮想Z相ゲートの列に分解する。 その結果、多くの回路クラスは異なる論理演算を実装しているが、仮想位相の変化によってのみ異なる物理パルスの等価構造を持つ。 多くの構造等価回路を計測する必要がある場合、古典的な制御ハードウェアにシーケンスをコンパイルおよびロードすることは、量子回路の実行において主要なボトルネックとなるため、各回路のシーケンスの生成は不要で面倒である。 本研究では,FPGA ベースの制御ハードウェア QubiC 上でパラメータ化回路を実行するためのハードウェア支援プロトコルを開発した。 このプロトコルは、ソフトウェアが回路の構造的等価性を識別し、関連するパラメータ化された角度から"ピール"して、全体的な波形のコンパイル時間を短縮する、ハードウェアとソフトウェアの共同設計技術に依存している。 ハードウェアアーキテクチャは、異なる論理演算を実装する回路を計測するために、回路内のパラメータのリアルタイムな「スティッチ」を実行する。 本研究は,数種類の量子回路の総実行時間において,大幅な高速化を示すものである。

Standard compilers for quantum circuits decompose arbitrary single-qubit gates into a sequence of physical X(pi/2) pulses and virtual-Z phase gates. Consequently, many circuit classes implement different logic operations but have an equivalent structure of physical pulses that only differ by changes in virtual phases. When many structurally-equivalent circuits need to be measured, generating sequences for each circuit is unnecessary and cumbersome, since compiling and loading sequences onto classical control hardware is a primary bottleneck in quantum circuit execution. In this work, we develop a hardware-assisted protocol for executing parameterized circuits on our FPGA-based control hardware, QubiC. This protocol relies on a hardware-software co-design technique in which software identifies structural equivalency in circuits and "peels" off the relevant parameterized angles to reduce the overall waveform compilation time. The hardware architecture then performs real-time "stitching" of the parameters in the circuit to measure circuits that implement a different overall logical operation. This work demonstrates significant speed ups in the total execution time for several different classes of quantum circuits.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 2段階適応ロバスト最適化のための深層生成学習手法

A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization ( http://arxiv.org/abs/2409.03731v1 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Jennifer Sun, Saurabh Amin, (参考訳) 2段階適応型ロバスト最適化は、不確実性を実現した後の「待機と視」のリコース決定のコストと「現在」のファーストステージ決定のコストのバランスをとることを目的とした、不確実性の下での計画のための強力なアプローチである。 不確実性に対するロバストさを埋め込むために、モデラーは典型的に単純な多面体あるいは楕円体集合を仮定する。 しかし、これらの単純な不確実性集合は、不確実性が高次元であるときに非常に保守的な決定をもたらす傾向がある。 本稿では,多変量オートエンコーダを用いた2段階適応型ロバスト最適化のための逆生成を行うコラム・アンド・制約生成アルゴリズムAGROを紹介する。 AGROは、ラテント空間における球面不確実性集合を最適化し、ラテント変数に対する最適リコースコストを区別する射影勾配上昇アプローチを用いて、現実的でコストを最大化する一致を識別する。 提案手法のコスト・時間効率を実験的に実証するため,AGROを地域電力系統の適応的ロバスト容量拡張問題に適用し,従来のカラム・アンド・制約生成アルゴリズムと比較して最大7.8%,ランタイムを最大77%削減できることを示す。

Two-stage adaptive robust optimization is a powerful approach for planning under uncertainty that aims to balance costs of "here-and-now" first-stage decisions with those of "wait-and-see" recourse decisions made after uncertainty is realized. To embed robustness against uncertainty, modelers typically assume a simple polyhedral or ellipsoidal set over which contingencies may be realized. However, these simple uncertainty sets tend to yield highly conservative decision-making when uncertainties are high-dimensional. In this work, we introduce AGRO, a column-and-constraint generation algorithm that performs adversarial generation for two-stage adaptive robust optimization using a variational autoencoder. AGRO identifies realistic and cost-maximizing contingencies by optimizing over spherical uncertainty sets in a latent space using a projected gradient ascent approach that differentiates the optimal recourse cost with respect to the latent variable. To demonstrate the cost- and time-efficiency of our approach experimentally, we apply AGRO to an adaptive robust capacity expansion problem for a regional power system and show that AGRO is able to reduce costs by up to 7.8% and runtimes by up to 77% in comparison to the conventional column-and-constraint generation algorithm.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 自然言語のプランニングによりコード生成のためのLLM検索が改善

Planning In Natural Language Improves LLM Search For Code Generation ( http://arxiv.org/abs/2409.03733v1 )

ライセンス: Link先を確認
Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, Hugh Zhang, (参考訳) 大規模言語モデル(LLM)では、スケールトレーニング計算が顕著に改善されているが、スケーリング推論計算では、まだ類似のゲインが得られていない。 我々は、中核的な欠落成分は多様なLCM出力の欠如であり、モデルが非常によく似ているが誤りな世代を繰り返しサンプリングするため、非効率な探索につながると仮定する。 この多様性の欠如は、自然言語の問題を解決するための候補プランを探索することによって緩和可能であることを実証的に実証する。 この知見に基づいて,HumanEval+,MBPP+,LiveCodeBench(競合コーディングのための汚染のないベンチマーク)にまたがる強力な結果を示す新しい検索アルゴリズムPLANSEARCHを提案する。 PLANSEARCHは問題に関する様々な観測結果を生成し、これらの観測結果を用いて問題を解決するための計画を構築する。 PLANSEARCHは、コード解を直接ではなく自然言語で探索することによって、ベースライン探索法よりもはるかに多様な潜在的な解を探索する。 Claude 3.5 Sonnet上でPLANSEARCHを使用すると、LiveCodeBench上で77.0%の最先端パス@200が達成され、検索なしで最高のスコア(pass@1 = 41.4%)と標準繰り返しサンプリング(pass@200 = 60.6%)の両方を上回っている。 最後に、分析したモデル、検索アルゴリズム、およびベンチマークにおいて、生成したアイデアに対する多様性の直接的な関数として検索による性能向上を正確に予測できることを示す。

While scaling training compute has led to remarkable improvements in large language models (LLMs), scaling inference compute has not yet yielded analogous gains. We hypothesize that a core missing component is a lack of diverse LLM outputs, leading to inefficient search due to models repeatedly sampling highly similar, yet incorrect generations. We empirically demonstrate that this lack of diversity can be mitigated by searching over candidate plans for solving a problem in natural language. Based on this insight, we propose PLANSEARCH, a novel search algorithm which shows strong results across HumanEval+, MBPP+, and LiveCodeBench (a contamination-free benchmark for competitive coding). PLANSEARCH generates a diverse set of observations about the problem and then uses these observations to construct plans for solving the problem. By searching over plans in natural language rather than directly over code solutions, PLANSEARCH explores a significantly more diverse range of potential solutions compared to baseline search methods. Using PLANSEARCH on top of Claude 3.5 Sonnet achieves a state-of-the-art pass@200 of 77.0% on LiveCodeBench, outperforming both the best score achieved without search (pass@1 = 41.4%) and using standard repeated sampling (pass@200 = 60.6%). Finally, we show that, across all models, search algorithms, and benchmarks analyzed, we can accurately predict performance gains due to search as a direct function of the diversity over generated ideas.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# 安全性とパフォーマンス - マルチオブジェクト学習がバリアを市場投入に還元する方法

Safety vs. Performance: How Multi-Objective Learning Reduces Barriers to Market Entry ( http://arxiv.org/abs/2409.03734v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Michael I. Jordan, Jacob Steinhardt, (参考訳) 大規模言語モデルやその他の大規模機械学習(ML)モデルのための新興市場は、市場に集中しているように見える。 本研究では,この課題を経済的・アルゴリズム的両面から検討し,参入障壁を低減する現象に着目した。 具体的には、既存の会社は、そのモデルが十分に安全目標と整合しない限り、評判のダメージを危険にさらす一方、新会社は評判のダメージを回避できる。 この問題を正式に研究するために、評価のダメージを捉えた多目的高次元回帰フレームワークを定義し、新しい企業が市場に参入するために必要なデータポイントの数を特徴付ける。 私たちの結果は、マルチオブジェクトの考慮が、エントリの障壁を根本的に減らす方法を示しています -- 必要となるデータポイントの数は、既存の企業のデータセットサイズよりも大幅に小さくなります。 これらの結果を証明するために,多目的環境における高次元線形回帰のスケーリング法則を開発し,データセットサイズが大きいとスケーリング速度が遅くなることを示す。

Emerging marketplaces for large language models and other large-scale machine learning (ML) models appear to exhibit market concentration, which has raised concerns about whether there are insurmountable barriers to entry in such markets. In this work, we study this issue from both an economic and an algorithmic point of view, focusing on a phenomenon that reduces barriers to entry. Specifically, an incumbent company risks reputational damage unless its model is sufficiently aligned with safety objectives, whereas a new company can more easily avoid reputational damage. To study this issue formally, we define a multi-objective high-dimensional regression framework that captures reputational damage, and we characterize the number of data points that a new company needs to enter the market. Our results demonstrate how multi-objective considerations can fundamentally reduce barriers to entry -- the required number of data points can be significantly smaller than the incumbent company's dataset size. En route to proving these results, we develop scaling laws for high-dimensional linear regression in multi-objective environments, showing that the scaling rate becomes slower when the dataset size is large, which could be of independent interest.
翻訳日:2024-09-06 19:43:43 公開日:2024-09-05
# LLM-CI:言語モデルにおける文脈積分ノルムの評価

LLM-CI: Assessing Contextual Integrity Norms in Language Models ( http://arxiv.org/abs/2409.03735v1 )

ライセンス: Link先を確認
Yan Shvartzshnaider, Vasisht Duddu, John Lacalamita, (参考訳) 大規模言語モデル(LLM)は、インターネットから取り除かれたトレーニングデータの一部を記憶する一方で、社会的嗜好や規範を意図せずに符号化することもある。 これらのモデルが社会技術システムに統合されるため、それらが符号化する規範は社会的期待と整合することが不可欠である。 これらの規範は、モデル、ハイパーパラメータ、最適化テクニック、データセットによって異なる可能性がある。 これは特に、プロンプトの感度が$$$$小であることから、既存の評価手法の信頼性を損なうためである。 さまざまなモデル、最適化、データセットをカバーする包括的なフレームワークと、エンコードされた規範を評価するための信頼性の高い方法論が必要である。 LLM-CIは,LLMに符号化されたプライバシ規範を評価するための,最初のオープンソースフレームワークである。 LLM-CIは、コンテキスト積分に基づく因子的ウィグレット手法を使用して、異なるコンテキストとLLMのエンコードされた規範を評価する。 本稿では,複数の変種に対して一貫した応答を与えるプロンプトのみからノルムを評価することで,プロンプト感度に対処するマルチプロンプト評価手法を提案する。 LLM-CI と提案手法を用いて,IoT および COPPA ビグネッツデータセットを用いた LLM の総合評価を行い,モデル特性(例えば,ハイパーパラメータ,キャパシティ)と最適化戦略(例えば,アライメント,量子化)の影響について検討した。

Large language models (LLMs), while memorizing parts of their training data scraped from the Internet, may also inadvertently encode societal preferences and norms. As these models are integrated into sociotechnical systems, it is crucial that the norms they encode align with societal expectations. These norms could vary across models, hyperparameters, optimization techniques, and datasets. This is especially challenging due to prompt sensitivity$-$small variations in prompts yield different responses, rendering existing assessment methodologies unreliable. There is a need for a comprehensive framework covering various models, optimization, and datasets, along with a reliable methodology to assess encoded norms. We present LLM-CI, the first open-sourced framework to assess privacy norms encoded in LLMs. LLM-CI uses a Contextual Integrity-based factorial vignette methodology to assess the encoded norms across different contexts and LLMs. We propose the multi-prompt assessment methodology to address prompt sensitivity by assessing the norms from only the prompts that yield consistent responses across multiple variants. Using LLM-CI and our proposed methodology, we comprehensively evaluate LLMs using IoT and COPPA vignettes datasets from prior work, examining the impact of model properties (e.g., hyperparameters, capacity) and optimization strategies (e.g., alignment, quantization).
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# 有限位数のグロタンディーク定数のより良い境界

Better bounds on Grothendieck constants of finite orders ( http://arxiv.org/abs/2409.03739v1 )

ライセンス: Link先を確認
Sébastien Designolle, Tamás Vértesi, Sebastian Pokutta, (参考訳) Grothendieck constants $K_G(d)$ bound the advantage of $d$-dimensional strategy over $1$-dimensional ones in a specific optimization task。 近似アルゴリズムから量子非局所性まで、様々な応用がある。 しかし、$d=2$以外は、値は不明である。 ここでは、これらの定数のいくつかを下げるためのよい候補を提供するために、最近のフランク・ウルフのアプローチを利用する。 完全証明は難解な二項最適化問題を解くことに依存する。 d\in\{3,4,5\}$の場合、従来よりも優れた境界を証明できる特定の長方形のインスタンスを構築します。 d\in\{4,7,8\}$の場合、高対称性のインスタンスを構築するためにエレガントな構造を利用する。 またベルの不等式に反する標準的な関係を思い出し、それについて精巧に説明し、一般化されたグロタンディーク定数$K_G(d\mapsto2)$を実量子力学よりも複雑な量子力学の利点として解釈する。 この接続により、$K_G(d\mapsto2)$のバウンダリも改善される。

Grothendieck constants $K_G(d)$ bound the advantage of $d$-dimensional strategies over $1$-dimensional ones in a specific optimisation task. They have applications ranging from approximation algorithms to quantum nonlocality. However, apart from $d=2$, their values are unknown. Here, we exploit a recent Frank-Wolfe approach to provide good candidates for lower bounding some of these constants. The complete proof relies on solving difficult binary quadratic optimisation problems. For $d\in\{3,4,5\}$, we construct specific rectangular instances that we can solve to certify better bounds than those previously known; by monotonicity, our lower bounds improve on the state of the art for $d\leqslant9$. For $d\in\{4,7,8\}$, we exploit elegant structures to build highly symmetric instances achieving even greater bounds; however, we can only solve them heuristically. We also recall the standard relation with violations of Bell inequalities and elaborate on it to interpret generalised Grothendieck constants $K_G(d\mapsto2)$ as the advantage of complex quantum mechanics over real quantum mechanics. Motivated by this connection, we also improve the bounds on $K_G(d\mapsto2)$.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# キューイングネットワーク制御のための離散イベントの微分可能シミュレーション

Differentiable Discrete Event Simulation for Queuing Network Control ( http://arxiv.org/abs/2409.03740v1 )

ライセンス: Link先を確認
Ethan Che, Jing Dong, Hongseok Namkoong, (参考訳) ネットワーク制御は、サービスシステム、通信ネットワーク、製造プロセスなどのジョブ処理システムにおける混雑管理に不可欠である。 強化学習(RL)技術の適用への関心が高まっているにもかかわらず、待ち行列ネットワーク制御は、高い確率性、大きな状態と行動空間、安定性の欠如など、異なる課題を提起している。 これらの課題に対処するために、微分可能な離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。 我々の主な洞察は、離散イベントダイナミクスのためのよく設計された平滑化技術を実装することで、自動微分ソフトウェア(例えば、Tensorflow、PyTorch)とGPU並列化を用いて、大規模キューネットワークのパスワイズポリシー勾配を計算することができるということである。 広範な実証実験を通して、我々の政策勾配推定器は、典型的なREINFORCEに基づく推定器よりも数桁精度が高いことが観察された。 さらに,ニューラルネットワークポリシの柔軟性を維持しつつ,安定性を大幅に向上させる新しいポリシアーキテクチャを提案する。 様々なスケジューリングおよび入出力制御タスクにおいて、パスワイド勾配によるトレーニング制御ポリシーが、最先端のRL法よりも50-1000倍の効率向上をもたらすことを示す。 待ち行列に対する事前の調整アプローチとは異なり、我々の手法は、非定常環境で稼働するシステムや、非指数的インターアリバル/サービス時間を持つシステムなど、現実的なシナリオを柔軟に処理できる。

Queuing network control is essential for managing congestion in job-processing systems such as service systems, communication networks, and manufacturing processes. Despite growing interest in applying reinforcement learning (RL) techniques, queueing network control poses distinct challenges, including high stochasticity, large state and action spaces, and lack of stability. To tackle these challenges, we propose a scalable framework for policy optimization based on differentiable discrete event simulation. Our main insight is that by implementing a well-designed smoothing technique for discrete event dynamics, we can compute pathwise policy gradients for large-scale queueing networks using auto-differentiation software (e.g., Tensorflow, PyTorch) and GPU parallelization. Through extensive empirical experiments, we observe that our policy gradient estimators are several orders of magnitude more accurate than typical REINFORCE-based estimators. In addition, We propose a new policy architecture, which drastically improves stability while maintaining the flexibility of neural-network policies. In a wide variety of scheduling and admission control tasks, we demonstrate that training control policies with pathwise gradients leads to a 50-1000x improvement in sample efficiency over state-of-the-art RL methods. Unlike prior tailored approaches to queueing, our methods can flexibly handle realistic scenarios, including systems operating in non-stationary environments and those with non-exponential interarrival/service times.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# 機械学習アタックにおけるデータの重要性を理解する: 価値あるデータはより大きなハームを持つか?

Understanding Data Importance in Machine Learning Attacks: Does Valuable Data Pose Greater Harm? ( http://arxiv.org/abs/2409.03741v1 )

ライセンス: Link先を確認
Rui Wen, Michael Backes, Yang Zhang, (参考訳) 機械学習は多くのドメインに革命をもたらし、進歩を加速し、データ中心のプロセスを可能にする上で重要な役割を担っている。 トレーニングモデルにおけるデータの重要性と、それらのパフォーマンスを形作ることは、過大評価できない。 最近の研究は、個々のデータサンプルの不均一な影響、特に機械学習モデルの有用性と有効性に大きく寄与する貴重なデータの存在を強調している。 これらの貴重なデータサンプルは、マシンラーニングの攻撃に対してより脆弱なのでしょうか? 本研究では,5つの異なる攻撃タイプを分析し,データ重要度と機械学習攻撃との関係について検討する。 我々の発見は顕著な洞察を浮き彫りにした。 例えば、高重要性データサンプルは、メンバーシップ推論やモデル盗難などの特定の攻撃において、脆弱性が増大していることを観察する。 会員推測の脆弱性とデータの重要度を関連づけることで、サンプル固有の基準を導入することで、サンプル特性を会員評価基準に統合できることを示し、会員推定性能を向上させる。 これらの知見は、実用性を最大化することと、潜在的搾取に対する価値あるデータを保護することのバランスを崩す革新的な防衛メカニズムの緊急の必要性を強調している。

Machine learning has revolutionized numerous domains, playing a crucial role in driving advancements and enabling data-centric processes. The significance of data in training models and shaping their performance cannot be overstated. Recent research has highlighted the heterogeneous impact of individual data samples, particularly the presence of valuable data that significantly contributes to the utility and effectiveness of machine learning models. However, a critical question remains unanswered: are these valuable data samples more vulnerable to machine learning attacks? In this work, we investigate the relationship between data importance and machine learning attacks by analyzing five distinct attack types. Our findings reveal notable insights. For example, we observe that high importance data samples exhibit increased vulnerability in certain attacks, such as membership inference and model stealing. By analyzing the linkage between membership inference vulnerability and data importance, we demonstrate that sample characteristics can be integrated into membership metrics by introducing sample-specific criteria, therefore enhancing the membership inference performance. These findings emphasize the urgent need for innovative defense mechanisms that strike a balance between maximizing utility and safeguarding valuable data against potential exploitation.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# Libra: 原則的でセキュアで効率的なハイエンドプロセッサ上でのバランスの取れた実行(拡張バージョン)のためのアーキテクチャサポート

Libra: Architectural Support For Principled, Secure And Efficient Balanced Execution On High-End Processors (Extended Version) ( http://arxiv.org/abs/2409.03743v1 )

ライセンス: Link先を確認
Hans Winderix, Marton Bognar, Lesly-Ann Daniel, Frank Piessens, (参考訳) 制御フローリーク(CFL)攻撃は、攻撃者がサイドチャネルの観測を通して、被害者プログラムの制御フロー決定を公開することを可能にする。 シークレット依存制御フローの線形化(すなわち除去)は、これらの攻撃に対する主要な対策であるが、無視できないコストが伴う。 逆に、秘密依存のブランチのバランシングはオーバーヘッドを小さくすることが多いが、ハイエンドプロセッサでは安全でないことが知られている。 したがって、線形化はCFL攻撃に対する唯一の効果的な対策であると広く信じられている。 本稿では,この信念に異議を唱え,探索されていない代替案として,ハイエンドプロセッサ上の秘密依存ブランチをセキュアにバランスさせる方法について検討する。 我々は、ハイエンドプロセッサ上でCFLを効率的に処理するための汎用的で原則化されたハードウェア・ソフトウェア・コーデックであるLibraを提案する。 文献から制御フローをリークするハードウェアプリミティブを体系的に分類し、設計でそれらを処理するためのガイドラインを提供する。 重要な点として、Libraは命令キャッシュやプレフィッシャーのようなパフォーマンスクリティカルなハードウェアを無効にすることなく、セキュアな制御フローバランシングを可能にする。 我々は,Libraのセマンティクスを形式化し,プログラムをセキュアにするためのコード変換アルゴリズムを提案する。 最後に, RISC-Vプロセッサ上でのLibraの実装と評価を行い, 安全性の低いバランスの取れたコードと同等の性能上のオーバーヘッドを示し, 最先端の線形化コードを19.3%向上させた。

Control-flow leakage (CFL) attacks enable an attacker to expose control-flow decisions of a victim program via side-channel observations. Linearization (i.e., elimination) of secret-dependent control flow is the main countermeasure against these attacks, yet it comes at a non-negligible cost. Conversely, balancing secret-dependent branches often incurs a smaller overhead, but is notoriously insecure on high-end processors. Hence, linearization has been widely believed to be the only effective countermeasure against CFL attacks. In this paper, we challenge this belief and investigate an unexplored alternative: how to securely balance secret-dependent branches on higher-end processors? We propose Libra, a generic and principled hardware-software codesign to efficiently address CFL on high-end processors. We perform a systematic classification of hardware primitives leaking control flow from the literature, and provide guidelines to handle them with our design. Importantly, Libra enables secure control-flow balancing without the need to disable performance-critical hardware such as the instruction cache and the prefetcher. We formalize the semantics of Libra and propose a code transformation algorithm for securing programs, which we prove correct and secure. Finally, we implement and evaluate Libra on an out-of-order RISC-V processor, showing performance overhead on par with insecure balanced code, and outperforming state-of-the-art linearized code by 19.3%.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# ランダム化による量子アルゴリズムのコスト削減

Halving the Cost of Quantum Algorithms with Randomization ( http://arxiv.org/abs/2409.03744v1 )

ライセンス: Link先を確認
John M. Martyn, Patrick Rall, (参考訳) 量子信号処理(QSP)は、線形作用素の多項式変換を実装するための体系的なフレームワークを提供し、ほとんどすべての既知の量子アルゴリズムを統一する。 並行して、最近の研究はランダム化されたコンパイルを開発した。これはユニタリゲートを量子チャネルにプロモートし、誤りの二次的な抑制を可能にする技術である($\epsilon \rightarrow O(\epsilon^2)$)。 ここでは、確率量子信号処理によるランダム化コンパイルをQSPに統合する。 提案アルゴリズムは, 平均進化が対象関数に収束するように戦略的に選択された多項式の確率的混合を実装し, 誤差は等価な個々の多項式よりも2次的に小さい。 ほとんど全てのQSPベースのアルゴリズムは、$O(\log(1/\epsilon))$ -- 関数解析の結果から生じる -- のクエリ複雑さを示すので、このエラーは、漸近的に1/2$に近づいた要因によって、クエリの複雑さを減少させる。 QSPの統一能力により、この削減は量子アルゴリズムにまで拡張され、実時間と想像の時間進化、位相推定、基底状態の準備、行列逆転のアルゴリズムで示される。

Quantum signal processing (QSP) provides a systematic framework for implementing a polynomial transformation of a linear operator, and unifies nearly all known quantum algorithms. In parallel, recent works have developed randomized compiling, a technique that promotes a unitary gate to a quantum channel and enables a quadratic suppression of error (i.e., $\epsilon \rightarrow O(\epsilon^2)$) at little to no overhead. Here we integrate randomized compiling into QSP through Stochastic Quantum Signal Processing. Our algorithm implements a probabilistic mixture of polynomials, strategically chosen so that the average evolution converges to that of a target function, with an error quadratically smaller than that of an equivalent individual polynomial. Because nearly all QSP-based algorithms exhibit query complexities scaling as $O(\log(1/\epsilon))$ -- stemming from a result in functional analysis -- this error suppression reduces their query complexity by a factor that asymptotically approaches $1/2$. By the unifying capabilities of QSP, this reduction extends broadly to quantum algorithms, which we demonstrate on algorithms for real and imaginary time evolution, phase estimation, ground state preparation, and matrix inversion.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# ArtiFade: ブレンド画像から高品質な課題を生成する学習

ArtiFade: Learning to Generate High-quality Subject from Blemished Images ( http://arxiv.org/abs/2409.03745v1 )

ライセンス: Link先を確認
Shuya Yang, Shaozhe Hao, Yukang Cao, Kwan-Yee K. Wong, (参考訳) 被写体駆動のテキスト・ツー・イメージ生成は、限られた数の画像のみを用いて、被写体の特徴を学習し、捉える能力において、顕著な進歩をみせている。 しかし、既存の手法では、訓練に高品質な画像に頼っていることが多く、入力画像が人工物によってブレンドされる場合、適切な画像を生成するのに苦労する可能性がある。 これは主に、主観的特徴と破壊的アーティファクトを区別する現在のテクニックの不十分な能力に起因している。 本稿では,この問題を解決するためにArtiFadeを導入し,ブレンドデータセットから高品質なアーティファクトフリーな画像を生成する。 具体的には、ArtiFadeは、アーティファクトを削除することを目的として、トレーニング済みのテキスト・ツー・イメージモデルの微調整を利用する。 アーティファクトの除去は、微調整中に未処理の画像と対応するブレンド画像の両方を含む特別なデータセットを利用することによって達成される。 ArtiFadeはまた、拡散モデルに固有のオリジナルの生成能力の保存を保証し、高品質でアーティファクトのない画像を生成するために、被写体駆動方式の全体的なパフォーマンスを向上させる。 このタスクに適した評価ベンチマークをさらに考案する。 定性的かつ定量的な実験を通じて,ArtiFadeの分布内および分布外の両方のシナリオ下での効率的なアーティファクト除去における一般化可能性を示す。

Subject-driven text-to-image generation has witnessed remarkable advancements in its ability to learn and capture characteristics of a subject using only a limited number of images. However, existing methods commonly rely on high-quality images for training and may struggle to generate reasonable images when the input images are blemished by artifacts. This is primarily attributed to the inadequate capability of current techniques in distinguishing subject-related features from disruptive artifacts. In this paper, we introduce ArtiFade to tackle this issue and successfully generate high-quality artifact-free images from blemished datasets. Specifically, ArtiFade exploits fine-tuning of a pre-trained text-to-image model, aiming to remove artifacts. The elimination of artifacts is achieved by utilizing a specialized dataset that encompasses both unblemished images and their corresponding blemished counterparts during fine-tuning. ArtiFade also ensures the preservation of the original generative capabilities inherent within the diffusion model, thereby enhancing the overall performance of subject-driven methods in generating high-quality and artifact-free images. We further devise evaluation benchmarks tailored for this task. Through extensive qualitative and quantitative experiments, we demonstrate the generalizability of ArtiFade in effective artifact removal under both in-distribution and out-of-distribution scenarios.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# ハイブリッドオシレータ-量子プロセッサ:フェルミオン、ボソン、ゲージ場のシミュレーション

Hybrid Oscillator-Qubit Quantum Processors: Simulating Fermions, Bosons, and Gauge Fields ( http://arxiv.org/abs/2409.03747v1 )

ライセンス: Link先を確認
Eleanor Crane, Kevin C. Smith, Teague Tomesh, Alec Eickbusch, John M. Martyn, Stefan Kühn, Lena Funcke, Michael Austin DeMarco, Isaac L. Chuang, Nathan Wiebe, Alexander Schuckert, Steven M. Girvin, (参考訳) 量子ビットハードウェアで発生するボソン-量子ビットマッピングオーバーヘッドを回避するために,強い相関を持つフェルミオンとボソンの量子シミュレーションのためのハイブリッド発振器-量子ビットプロセッサフレームワークを開発した。 この枠組みは密度密度項やゲージ不変ホッピングなどの粒子相互作用の正確な分解とベーカー・カンベル・ハウスドルフの公式に基づく近似手法を提供し、$(2+1)$Dの量子リンクモデルの磁場項を含む。 我々は、このフレームワークを用いて、トロタライゼーションを用いたダイナミクスのシミュレート、ガウスの法則によるアンシラフリー部分誤差検出、非局所観測値の測定、発振器-量子変動量子固有解器を用いた基底状態エネルギーの推定、量子信号処理、および回路QED実験におけるハードウェアエラーの影響を数値的に研究する。 全量子ビットハードウェアの利点を示すため、ゲージ不変ホッピング項のゲート複雑性の終端比較を行い、ボソン数カットオフによる漸近スケーリングの改善を、我々のフレームワークおよびボソニックマターにおいて10^4$以上の定数係数改善も行い、ボソン数カットオフを$S$から$\mathcal{O}(\log(S)^2)$から$\mathcal{O}(1)$までとする。 また、$U(1)$の磁場項に対して$\mathcal{O}(\log(S))$から$\mathcal{O}(1)$への改善も見出す。 我々の研究は超伝導ハードウェアの実装に焦点を当てているが、我々のフレームワークはトラップされたイオンや中性原子ハードウェアにも使用できる。 この研究は、物質科学、化学、高エネルギー物理学における量子ボソンモデルの研究において、ハイブリッド振動子量子ビットハードウェアを用いたデジタル量子シミュレーションを有効かつ有利な方法として確立する。

We develop a hybrid oscillator-qubit processor framework for quantum simulation of strongly correlated fermions and bosons that avoids the boson-to-qubit mapping overhead encountered in qubit hardware. This framework gives exact decompositions of particle interactions such as density-density terms and gauge-invariant hopping, as well as approximate methods based on the Baker-Campbell Hausdorff formulas including the magnetic field term for the $U(1)$ quantum link model in $(2+1)$D. We use this framework to show how to simulate dynamics using Trotterisation, perform ancilla-free partial error detection using Gauss's law, measure non-local observables, estimate ground state energies using a oscillator-qubit variational quantum eigensolver as well as quantum signal processing, and we numerically study the influence of hardware errors in circuit QED experiments. To show the advantages over all-qubit hardware, we perform an end-to-end comparison of the gate complexity for the gauge-invariant hopping term and find an improvement of the asymptotic scaling with the boson number cutoff $S$ from $\mathcal{O}(\log(S)^2)$ to $\mathcal{O}(1)$ in our framework as well as, for bosonic matter, a constant factor improvement of better than $10^4$. We also find an improvement from $\mathcal{O}(\log(S))$ to $\mathcal{O}(1)$ for the $U(1)$ magnetic field term. While our work focusses on an implementation in superconducting hardware, our framework can also be used in trapped ion, and neutral atom hardware. This work establishes digital quantum simulation with hybrid oscillator-qubit hardware as a viable and advantageous method for the study of qubit-boson models in materials science, chemistry, and high-energy physics.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# 量子状態判別のためのニューラルプロセッシングアプローチ

A neural processing approach to quantum state discrimination ( http://arxiv.org/abs/2409.03748v1 )

ライセンス: Link先を確認
Saeed A. Khan, Fangjun Hu, Gerasimos Angelatos, Michael Hatridge, Hakan E. Türeci, (参考訳) 線形量子増幅は弱い量子信号の処理に不可欠であることが証明されているが、原理的に非線形演算を必要とする相関のような高次量子特徴を抽出している。 しかし、量子信号の非線形処理は、しばしば非イデアル性や余剰ノイズと関連付けられ、非線形性を利用する一般的な枠組みが欠如しているため、そのような規則は避けられる。 本稿では,広帯域のボソニック量子非線形プロセッサ(QNP)の一般量子信号処理原理を明らかにする枠組みを提案する。 量子信号源を監視するQNPの量子コヒーレントな記述を用いて、入射量子信号の高次特性を計算するために量子非線形性を利用でき、線形増幅器では不可能な線形測定可能な可観測器に濃縮することができることを示す。 第2に、QNPは、独自のノイズを含む量子ゆらぎに対するコヒーレントな非線形制御を提供し、伝達された情報を抑制することなく観測可能なノイズ抑圧を可能にする。 ニューラルケースと異なり,QNPによる雑音分布は非古典的相関を示し,絡み合いなどの資源を活用する新たな手段を提供する。 最後に,実測鎖における単純なQNPであっても,量子状態判別などの実用的なタスクにおいて,信号対雑音比の増大が期待できることを示す。 我々の研究は、非線形量子システムを一般的な計算装置として活用するための経路を提供し、非線形量子情報処理の新しいパラダイムを可能にする。

Although linear quantum amplification has proven essential to the processing of weak quantum signals, extracting higher-order quantum features such as correlations in principle demands nonlinear operations. However, nonlinear processing of quantum signals is often associated with non-idealities and excess noise, and absent a general framework to harness nonlinearity, such regimes are typically avoided. Here we present a framework to uncover general quantum signal processing principles of a broad class of bosonic quantum nonlinear processors (QNPs), inspired by a remarkably analogous paradigm in nature: the processing of environmental stimuli by nonlinear, noisy neural ensembles, to enable perception. Using a quantum-coherent description of a QNP monitoring a quantum signal source, we show that quantum nonlinearity can be harnessed to calculate higher-order features of an incident quantum signal, concentrating them into linearly-measurable observables, a transduction not possible using linear amplifiers. Secondly, QNPs provide coherent nonlinear control over quantum fluctuations including their own added noise, enabling noise suppression in an observable without suppressing transduced information, a paradigm that bears striking similarities to optimal neural codings that allow perception even under highly stochastic neural dynamics. Unlike the neural case, we show that QNP-engineered noise distributions can exhibit non-classical correlations, providing a new means to harness resources such as entanglement. Finally, we show that even simple QNPs in realistic measurement chains can provide enhancements of signal-to-noise ratio for practical tasks such as quantum state discrimination. Our work provides pathways to utilize nonlinear quantum systems as general computation devices, and enables a new paradigm for nonlinear quantum information processing.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# 非線形パーセプトロンにおける教師付き強化学習のダイナミクス

Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron ( http://arxiv.org/abs/2409.03749v1 )

ライセンス: Link先を確認
Christian Schmid, James M. Murray, (参考訳) 脳やニューラルネットワークが効率的に学習する能力は、タスク構造と学習規則の両方に大きく依存する。 従来の研究は、学生-教師の枠組みや線形化された出力の仮定の下で、知覚論の比較的単純化された文脈で学習を記述する力学方程式を解析してきた。 これらの仮定は理論的な理解を促進する一方で、学習力学の決定における非線形性と入力データ分布の役割の詳細な理解を排除し、理論の実際の生物学的または人工知能ニューラルネットワークへの適用性を制限する。 本稿では,学習を記述する流れ方程式の導出に確率的手法を用いており,この枠組みを非線形パーセプトロンが二項分類を行う場合に適用する。 本研究では,学習ルール(教師付きあるいは強化学習,SL/RL)と入力データ分布が,知覚者の学習曲線および忘れる曲線に与える影響を,その後の課題として特徴づける。 特に、入力データノイズがSL対RLの学習速度に異なる影響を及ぼし、その後の学習によってタスクの学習がいかに早く書き直されるかを決定する。 さらに,本手法をMNISTデータセットを用いて実データで検証する。 このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。

The ability of a brain or a neural network to efficiently learn depends crucially on both the task structure and the learning rule. Previous works have analyzed the dynamical equations describing learning in the relatively simplified context of the perceptron under assumptions of a student-teacher framework or a linearized output. While these assumptions have facilitated theoretical understanding, they have precluded a detailed understanding of the roles of the nonlinearity and input-data distribution in determining the learning dynamics, limiting the applicability of the theories to real biological or artificial neural networks. Here, we use a stochastic-process approach to derive flow equations describing learning, applying this framework to the case of a nonlinear perceptron performing binary classification. We characterize the effects of the learning rule (supervised or reinforcement learning, SL/RL) and input-data distribution on the perceptron's learning curve and the forgetting curve as subsequent tasks are learned. In particular, we find that the input-data noise differently affects the learning speed under SL vs. RL, as well as determines how quickly learning of a task is overwritten by subsequent learning. Additionally, we verify our approach with real data using the MNIST dataset. This approach points a way toward analyzing learning dynamics for more-complex circuit architectures.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# 大規模言語モデルの注意:調査

Attention Heads of Large Language Models: A Survey ( http://arxiv.org/abs/2409.03752v1 )

ライセンス: Link先を確認
Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li, (参考訳) ChatGPTの登場以来、Large Language Models (LLMs) は様々なタスクに優れてきたが、ブラックボックスシステムとして維持されている。 その結果、その開発はデータ駆動アプローチに大きく依存しており、内部アーキテクチャや推論経路の変更によるパフォーマンス向上を制限している。 その結果、多くの研究者がLPMの内部メカニズムの可能性を探求し始めており、ほとんどの研究は注目の頭脳に焦点をあてて、彼らの推論ボトルネックの本質を特定することを目的としている。 本調査は,LLMの内部的推論過程の解明を目的としたもので,注目頭部の解釈可能性と基盤機構に焦点をあてたものである。 まず,人間の思考過程を,知識リコール,文脈内同定,潜時推論,表現準備という4段階の枠組みに抽出する。 この枠組みを用いて,既存の研究を体系的に検証し,特定の注目者の機能を特定し,分類する。 さらに,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング不要法という2つのカテゴリに分けて要約した。 また、関連する評価手法とベンチマークについて概説する。 最後に、現在の研究の限界について論じ、将来の可能性についていくつか提案する。 我々の参照リストは、 \url{https://github.com/IAAR-Shanghai/Awesome-Attention-Heads} でオープンソース化されています。

Since the advent of ChatGPT, Large Language Models (LLMs) have excelled in various tasks but remain largely as black-box systems. Consequently, their development relies heavily on data-driven approaches, limiting performance enhancement through changes in internal architecture and reasoning pathways. As a result, many researchers have begun exploring the potential internal mechanisms of LLMs, aiming to identify the essence of their reasoning bottlenecks, with most studies focusing on attention heads. Our survey aims to shed light on the internal reasoning processes of LLMs by concentrating on the interpretability and underlying mechanisms of attention heads. We first distill the human thought process into a four-stage framework: Knowledge Recalling, In-Context Identification, Latent Reasoning, and Expression Preparation. Using this framework, we systematically review existing research to identify and categorize the functions of specific attention heads. Furthermore, we summarize the experimental methodologies used to discover these special heads, dividing them into two categories: Modeling-Free methods and Modeling-Required methods. Also, we outline relevant evaluation methods and benchmarks. Finally, we discuss the limitations of current research and propose several potential future directions. Our reference list is open-sourced at \url{https://github.com/IAAR-Shanghai/Awesome-Attention-Heads}.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# WildVis: 数百万のチャットログを対象とするオープンソースのビジュアライザ

WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild ( http://arxiv.org/abs/2409.03753v1 )

ライセンス: Link先を確認
Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi, (参考訳) 現実世界の会話データの増加は、研究者がユーザーとチャットボットのインタラクションを研究するエキサイティングな機会を提供する。 しかし、このデータの膨大な量は、個々の会話を手動で調べることができない。 この課題を克服するために、高速で多目的で大規模な会話分析を可能にする対話型ツールWildVisを紹介した。 WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。 百万規模のデータセットを管理するため,検索インデックスの構築,事前計算と圧縮の埋め込み,キャッシュなどの最適化を行い,数秒以内に応答性のあるユーザインタラクションを保証した。 チャットボットの誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証した。 WildVisはオープンソースで、拡張可能で、追加のデータセットとカスタマイズされた検索と視覚化機能をサポートする。

The increasing availability of real-world conversation data offers exciting opportunities for researchers to study user-chatbot interactions. However, the sheer volume of this data makes manually examining individual conversations impractical. To overcome this challenge, we introduce WildVis, an interactive tool that enables fast, versatile, and large-scale conversation analysis. WildVis provides search and visualization capabilities in the text and embedding spaces based on a list of criteria. To manage million-scale datasets, we implemented optimizations including search index construction, embedding precomputation and compression, and caching to ensure responsive user interactions within seconds. We demonstrate WildVis's utility through three case studies: facilitating chatbot misuse research, visualizing and comparing topic distributions across datasets, and characterizing user-specific conversation patterns. WildVis is open-source and designed to be extendable, supporting additional datasets and customized search and visualization functionalities.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# ファンデーションモデルかファインチューンか? : 河川汚染に対する少数ショットセマンティックセマンティックセグメンテーションの評価

Foundation Model or Finetune? Evaluation of few-shot semantic segmentation for river pollution ( http://arxiv.org/abs/2409.03754v1 )

ライセンス: Link先を確認
Marga Don, Stijn Pinson, Blanca Guillen Cebrian, Yuki M. Asano, (参考訳) ファンデーションモデル(FM)はAIの研究の一般的なトピックである。 大量のデータをリトレーニングしたり必要としたりすることなく、新しいタスクやデータセットに一般化できるため、スペシャリストデータセット上のアプリケーションには魅力的な候補となる。 本研究では,全く新しいデータセット上でのセマンティックセグメンテーションのタスクにおいて,FMの性能と訓練済みの教師付きモデルを比較した。 微調整されたモデルは、データが不足している場合でも、テスト対象のFMより一貫して優れています。 この作業のためのコードとデータセットをGitHubでリリースしています。

Foundation models (FMs) are a popular topic of research in AI. Their ability to generalize to new tasks and datasets without retraining or needing an abundance of data makes them an appealing candidate for applications on specialist datasets. In this work, we compare the performance of FMs to finetuned pre-trained supervised models in the task of semantic segmentation on an entirely new dataset. We see that finetuned models consistently outperform the FMs tested, even in cases were data is scarce. We release the code and dataset for this work on GitHub.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# DCソルバー:動的補償による予測器・コレクタ拡散サンプリングの改善

DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation ( http://arxiv.org/abs/2409.03755v1 )

ライセンス: Link先を確認
Wenliang Zhao, Haolin Wang, Jie Zhou, Jiwen Lu, (参考訳) 拡散確率モデル(DPM)は、視覚合成において顕著な性能を示すが、サンプリング中に複数の評価を必要とするため、計算コストが高い。 最近の予測器-相関器拡散サンプリング器は、必要な関数評価(NFE)を著しく削減しているが、本質的には、特に大規模な分類器フリーガイダンス尺度(CFG)による追加補正ステップによる誤調整問題に悩まされている。 本稿では,DC-Solverと呼ばれる新しい高速DPMサンプリング装置について紹介する。 動的補償はサンプリングステップに適応する補償比で制御され、サンプリング軌道を基底真理軌道にプッシュすることで、サンプリング軌道を10個のデータポイントだけに最適化できる。 さらに,カスケード多項式回帰(CPR)を提案する。 さらに,提案した動的補償は,予測器のみの性能を高めるためのプラグ・アンド・プレイ・モジュールとしても機能することがわかった。 非条件サンプリングと条件サンプリングの両方に関する大規模な実験により、我々のDC-Solverは1024$\times$1024までの広範囲の解像度を持つ異なるDPMにおいて、サンプリング品質を常に改善できることを示した。 特に,無条件FFHQでは10.38 FID (NFE=5) ,安定拡散2.1では0.394 MSE (NFE=5, CFG=7.5) を達成する。 コードはhttps://github.com/wl-zhao/DC-Solverで入手できる。

Diffusion probabilistic models (DPMs) have shown remarkable performance in visual synthesis but are computationally expensive due to the need for multiple evaluations during the sampling. Recent predictor-corrector diffusion samplers have significantly reduced the required number of function evaluations (NFE), but inherently suffer from a misalignment issue caused by the extra corrector step, especially with a large classifier-free guidance scale (CFG). In this paper, we introduce a new fast DPM sampler called DC-Solver, which leverages dynamic compensation (DC) to mitigate the misalignment of the predictor-corrector samplers. The dynamic compensation is controlled by compensation ratios that are adaptive to the sampling steps and can be optimized on only 10 datapoints by pushing the sampling trajectory toward a ground truth trajectory. We further propose a cascade polynomial regression (CPR) which can instantly predict the compensation ratios on unseen sampling configurations. Additionally, we find that the proposed dynamic compensation can also serve as a plug-and-play module to boost the performance of predictor-only samplers. Extensive experiments on both unconditional sampling and conditional sampling demonstrate that our DC-Solver can consistently improve the sampling quality over previous methods on different DPMs with a wide range of resolutions up to 1024$\times$1024. Notably, we achieve 10.38 FID (NFE=5) on unconditional FFHQ and 0.394 MSE (NFE=5, CFG=7.5) on Stable-Diffusion-2.1. Code is available at https://github.com/wl-zhao/DC-Solver
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# Lexicon3D:複雑な3Dシーン理解のためのビジュアルファウンデーションモデルの提案

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding ( http://arxiv.org/abs/2409.03757v1 )

ライセンス: Link先を確認
Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui, Yu-Xiong Wang, (参考訳) 複雑な3Dシーン理解が注目され、シーンエンコーディング戦略がこの成功に重要な役割を果たしている。 しかし、様々なシナリオに対する最適なシーン符号化戦略は、特に画像ベースの手法と比較して不明確である。 この問題に対処するため,我々は3次元シーン理解のための様々な視覚的エンコーディングモデルを探索し,各モデルの強みと限界を異なるシナリオで識別する総合的研究を行った。 評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。 視覚言語シーン推論,視覚接地,セグメンテーション,レジストレーションの4つのタスクでこれらのモデルを評価し,それぞれがシーン理解の異なる側面に焦点を当てている。 DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、拡散モデルは幾何学的タスクに有益であり、言語予測モデルは言語関連タスクに予期せぬ制限を示す。 これらの洞察は、いくつかの従来の理解に挑戦し、視覚基盤モデルを活用するための新しい視点を提供し、将来の視覚言語およびシーン理解タスクにおけるより柔軟なエンコーダ選択の必要性を強調している。

Complex 3D scene understanding has gained increasing attention, with scene encoding strategies playing a crucial role in this success. However, the optimal scene encoding strategies for various scenarios remain unclear, particularly compared to their image-based counterparts. To address this issue, we present a comprehensive study that probes various visual encoding models for 3D scene understanding, identifying the strengths and limitations of each model across different scenarios. Our evaluation spans seven vision foundation encoders, including image-based, video-based, and 3D foundation models. We evaluate these models in four tasks: Vision-Language Scene Reasoning, Visual Grounding, Segmentation, and Registration, each focusing on different aspects of scene understanding. Our evaluations yield key findings: DINOv2 demonstrates superior performance, video models excel in object-level tasks, diffusion models benefit geometric tasks, and language-pretrained models show unexpected limitations in language-related tasks. These insights challenge some conventional understandings, provide novel perspectives on leveraging visual foundation models, and highlight the need for more flexible encoder selection in future vision-language and scene-understanding tasks.
翻訳日:2024-09-06 19:33:34 公開日:2024-09-05
# LogicGame: 大規模言語モデルのルールベースの推論能力のベンチマーク

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2408.15778v2 )

ライセンス: Link先を確認
Jiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 複雑なルールの理解と実行は、多段階計画とともに、論理的推論の基本であり、実用的なLCMエージェントや意思決定システムにとって重要である。 しかし、LSMを効果的なルールベースの実行者およびプランナーとして評価することは未定である。 本稿では,LLMの包括的なルール理解,実行,計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。 従来のベンチマークとは異なり、LogicGameは初期状態の一連のルールを含む多様なゲームを提供しており、モデルの理解と問題を解決するために事前定義された規則を適用する必要がある。 モデルが特定の結果を達成するためにオペレーションを実行または計画するシミュレーションシナリオを作成します。 これらのゲームシナリオは、予め定義されたルールにのみ依存することで、論理的推論と単なる知識を区別するように特別に設計されている。 この分離により、ルールベースの推論能力を純粋に評価できる。 評価は最終結果だけでなく中間段階も考慮し、モデル性能の総合的な評価を提供する。 さらに、これらの中間ステップは決定論的であり、自動的に検証することができる。 LogicGameは、ルール理解とマルチステップ実行におけるモデルパフォーマンスの正確な評価を提供するために、単純なルールアプリケーションから複雑な推論チェーンまで、さまざまな難易度を持つゲームシナリオを定義している。 LogicGameを利用することで、様々なLCMをテストし、ルールベースの論理的推論能力において顕著な欠点を識別する。

Large Language Models (LLMs) have demonstrated notable capabilities across various tasks, showcasing complex problem-solving abilities. Understanding and executing complex rules, along with multi-step planning, are fundamental to logical reasoning and critical for practical LLM agents and decision-making systems. However, evaluating LLMs as effective rule-based executors and planners remains underexplored. In this paper, we introduce LogicGame, a novel benchmark designed to evaluate the comprehensive rule understanding, execution, and planning capabilities of LLMs. Unlike traditional benchmarks, LogicGame provides diverse games that contain a series of rules with an initial state, requiring models to comprehend and apply predefined regulations to solve problems. We create simulated scenarios in which models execute or plan operations to achieve specific outcomes. These game scenarios are specifically designed to distinguish logical reasoning from mere knowledge by relying exclusively on predefined rules. This separation allows for a pure assessment of rule-based reasoning capabilities. The evaluation considers not only final outcomes but also intermediate steps, providing a comprehensive assessment of model performance. Moreover, these intermediate steps are deterministic and can be automatically verified. LogicGame defines game scenarios with varying difficulty levels, from simple rule applications to complex reasoning chains, in order to offer a precise evaluation of model performance on rule understanding and multi-step execution. Utilizing LogicGame, we test various LLMs and identify notable shortcomings in their rule-based logical reasoning abilities.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-05
# LogicGame: 大規模言語モデルのルールベースの推論能力のベンチマーク

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2408.15778v3 )

ライセンス: Link先を確認
Jiayi Gui, Yiming Liu, Jiale Cheng, Xiaotao Gu, Xiao Liu, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 複雑なルールの理解と実行は、多段階計画とともに、論理的推論の基本であり、実用的なLCMエージェントや意思決定システムにとって重要である。 しかし、LSMを効果的なルールベースの実行者およびプランナーとして評価することは未定である。 本稿では,LLMの包括的なルール理解,実行,計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。 従来のベンチマークとは異なり、LogicGameは初期状態の一連のルールを含む多様なゲームを提供しており、モデルの理解と問題を解決するために事前定義された規則を適用する必要がある。 モデルが特定の結果を達成するためにオペレーションを実行または計画するシミュレーションシナリオを作成します。 これらのゲームシナリオは、予め定義されたルールにのみ依存することで、論理的推論と単なる知識を区別するように特別に設計されている。 この分離により、ルールベースの推論能力を純粋に評価できる。 評価は最終結果だけでなく中間段階も考慮し、モデル性能の総合的な評価を提供する。 さらに、これらの中間ステップは決定論的であり、自動的に検証することができる。 LogicGameは、ルール理解とマルチステップ実行におけるモデルパフォーマンスの正確な評価を提供するために、単純なルールアプリケーションから複雑な推論チェーンまで、さまざまな難易度を持つゲームシナリオを定義している。 LogicGameを利用することで、様々なLCMをテストし、ルールベースの論理的推論能力において顕著な欠点を識別する。

Large Language Models (LLMs) have demonstrated notable capabilities across various tasks, showcasing complex problem-solving abilities. Understanding and executing complex rules, along with multi-step planning, are fundamental to logical reasoning and critical for practical LLM agents and decision-making systems. However, evaluating LLMs as effective rule-based executors and planners remains underexplored. In this paper, we introduce LogicGame, a novel benchmark designed to evaluate the comprehensive rule understanding, execution, and planning capabilities of LLMs. Unlike traditional benchmarks, LogicGame provides diverse games that contain a series of rules with an initial state, requiring models to comprehend and apply predefined regulations to solve problems. We create simulated scenarios in which models execute or plan operations to achieve specific outcomes. These game scenarios are specifically designed to distinguish logical reasoning from mere knowledge by relying exclusively on predefined rules. This separation allows for a pure assessment of rule-based reasoning capabilities. The evaluation considers not only final outcomes but also intermediate steps, providing a comprehensive assessment of model performance. Moreover, these intermediate steps are deterministic and can be automatically verified. LogicGame defines game scenarios with varying difficulty levels, from simple rule applications to complex reasoning chains, in order to offer a precise evaluation of model performance on rule understanding and multi-step execution. Utilizing LogicGame, we test various LLMs and identify notable shortcomings in their rule-based logical reasoning abilities.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-05
# ROADデータセット上のAI駆動侵入検知システム(IDS: Automotive Controller Area Network, CAN)の比較分析

AI-Driven Intrusion Detection Systems (IDS) on the ROAD Dataset: A Comparative Analysis for Automotive Controller Area Network (CAN) ( http://arxiv.org/abs/2408.17235v2 )

ライセンス: Link先を確認
Lorenzo Guerra, Linhan Xu, Paolo Bellavista, Thomas Chapuis, Guillaume Duc, Pavlo Mozharovskyi, Van-Tam Nguyen, (参考訳) 現代の自動車へのデジタルデバイスの統合は、自動車技術に革命をもたらし、安全性と全体の運転体験を高めた。 コントロールエリアネットワーク(Controller Area Network, CAN)は、電子制御ユニット(ECU)間の車内通信を管理する中央システムである。 しかし、CANプロトコルは、固有の脆弱性、暗号化と認証の欠如、攻撃面の拡大、堅牢なセキュリティ対策を必要とするセキュリティ上の問題を引き起こす。 この課題に対して、多数の侵入検知システム(IDS)が開発され、デプロイされている。 それでも、そのようなIDSの有効性をテストするオープンで包括的で現実的なデータセットは、既存の文献には残っていない。 本稿では、ステルスと洗練された注入を含む最新のROADデータセットを考慮し、このギャップに対処する。 この手法はデータセットのラベル付けと、最先端のディープラーニングモデルと従来の機械学習モデルの両方の実装を含んでおり、文献で最も一般的に使用されるデータセットと、より現実的な代替手段であるROADデータセットとの間のパフォーマンスの相違を示す。

The integration of digital devices in modern vehicles has revolutionized automotive technology, enhancing safety and the overall driving experience. The Controller Area Network (CAN) bus is a central system for managing in-vehicle communication between the electronic control units (ECUs). However, the CAN protocol poses security challenges due to inherent vulnerabilities, lacking encryption and authentication, which, combined with an expanding attack surface, necessitates robust security measures. In response to this challenge, numerous Intrusion Detection Systems (IDS) have been developed and deployed. Nonetheless, an open, comprehensive, and realistic dataset to test the effectiveness of such IDSs remains absent in the existing literature. This paper addresses this gap by considering the latest ROAD dataset, containing stealthy and sophisticated injections. The methodology involves dataset labelling and the implementation of both state-of-the-art deep learning models and traditional machine learning models to show the discrepancy in performance between the datasets most commonly used in the literature and the ROAD dataset, a more realistic alternative.
翻訳日:2024-09-06 17:07:21 公開日:2024-09-05
# EgoHDM: オンラインEgocentric-Inertial Human Motion Capture, Localization, Dense Mapping System

EgoHDM: An Online Egocentric-Inertial Human Motion Capture, Localization, and Dense Mapping System ( http://arxiv.org/abs/2409.00343v1 )

ライセンス: Link先を確認
Bonan Liu, Handi Yin, Manuel Kaufmann, Jinhao He, Sammy Christen, Jie Song, Pan Hui, (参考訳) EgoHDMはオンライン・エゴセントリック・慣性人体モーションキャプチャー(モキャップ)、ローカライゼーション、高密度マッピングシステムである。 本システムは6つの慣性測定ユニット(IMU)とコモディティヘッドマウントRGBカメラを使用する。 EgoHDMは、ほぼリアルタイムで密集したシーンマッピングを提供する最初の人間のモキャップシステムである。 さらに、物理的に可視な地図対応のグローバルな人間の動き推定と、モカプ対応の3Dシーン再構成の間のループを初期化し、完全に閉じることが高速で堅牢である。 我々のキーとなるアイデアは、カメラのローカライゼーションとマッピング情報と慣性人間のモーションキャプチャを双方向に統合することである。 これを実現するために,局所的な体中心標高マップを利用した密結合型モカプ対応高密度バンドル調整および物理ベースの体ポーズ補正モジュールを設計した。 後者は、新しい地形対応接触PDコントローラを導入し、キャラクタが与えられた局所標高マップに物理的に接触することで、人間の浮動や浸透を減らすことができる。 構築された総合的および実世界のベンチマークにおいて,本システムの性能を実証する。 その結果,本手法は,最先端技術と比較して,人体位置推定,カメラポーズ,マッピング精度の誤差を41%,71%,46%削減することがわかった。 新たに取得したデータに対する定性的な評価は、エゴHDMが階段を踏むことや野生の屋外シーンなど、平らでない地形の難易度をカバーできることを示している。

We present EgoHDM, an online egocentric-inertial human motion capture (mocap), localization, and dense mapping system. Our system uses 6 inertial measurement units (IMUs) and a commodity head-mounted RGB camera. EgoHDM is the first human mocap system that offers dense scene mapping in near real-time. Further, it is fast and robust to initialize and fully closes the loop between physically plausible map-aware global human motion estimation and mocap-aware 3D scene reconstruction. Our key idea is integrating camera localization and mapping information with inertial human motion capture bidirectionally in our system. To achieve this, we design a tightly coupled mocap-aware dense bundle adjustment and physics-based body pose correction module leveraging a local body-centric elevation map. The latter introduces a novel terrain-aware contact PD controller, which enables characters to physically contact the given local elevation map thereby reducing human floating or penetration. We demonstrate the performance of our system on established synthetic and real-world benchmarks. The results show that our method reduces human localization, camera pose, and mapping accuracy error by 41%, 71%, 46%, respectively, compared to the state of the art. Our qualitative evaluations on newly captured data further demonstrate that EgoHDM can cover challenging scenarios in non-flat terrain including stepping over stairs and outdoor scenes in the wild.
翻訳日:2024-09-06 15:23:54 公開日:2024-09-05
# EgoHDM: オンラインEgocentric-Inertial Human Motion Capture, Localization, Dense Mapping System

EgoHDM: An Online Egocentric-Inertial Human Motion Capture, Localization, and Dense Mapping System ( http://arxiv.org/abs/2409.00343v2 )

ライセンス: Link先を確認
Bonan Liu, Handi Yin, Manuel Kaufmann, Jinhao He, Sammy Christen, Jie Song, Pan Hui, (参考訳) EgoHDMはオンライン・エゴセントリック・慣性人体モーションキャプチャー(モキャップ)、ローカライゼーション、高密度マッピングシステムである。 本システムは6つの慣性測定ユニット(IMU)とコモディティヘッドマウントRGBカメラを使用する。 EgoHDMは、ほぼリアルタイムで密集したシーンマッピングを提供する最初の人間のモキャップシステムである。 さらに、物理的に可視な地図対応のグローバルな人間の動き推定と、モカプ対応の3Dシーン再構成の間のループを初期化し、完全に閉じることが高速で堅牢である。 我々のキーとなるアイデアは、カメラのローカライゼーションとマッピング情報と慣性人間のモーションキャプチャを双方向に統合することである。 これを実現するために,局所的な体中心標高マップを利用した密結合型モカプ対応高密度バンドル調整および物理ベースの体ポーズ補正モジュールを設計した。 後者は、新しい地形対応接触PDコントローラを導入し、キャラクタが与えられた局所標高マップに物理的に接触することで、人間の浮動や浸透を減らすことができる。 構築された総合的および実世界のベンチマークにおいて,本システムの性能を実証する。 その結果,本手法は,最先端技術と比較して,人体位置推定,カメラポーズ,マッピング精度の誤差を41%,71%,46%削減することがわかった。 新たに取得したデータに対する定性的な評価は、エゴHDMが階段を踏むことや野生の屋外シーンなど、平らでない地形の難易度をカバーできることを示している。

We present EgoHDM, an online egocentric-inertial human motion capture (mocap), localization, and dense mapping system. Our system uses 6 inertial measurement units (IMUs) and a commodity head-mounted RGB camera. EgoHDM is the first human mocap system that offers dense scene mapping in near real-time. Further, it is fast and robust to initialize and fully closes the loop between physically plausible map-aware global human motion estimation and mocap-aware 3D scene reconstruction. Our key idea is integrating camera localization and mapping information with inertial human motion capture bidirectionally in our system. To achieve this, we design a tightly coupled mocap-aware dense bundle adjustment and physics-based body pose correction module leveraging a local body-centric elevation map. The latter introduces a novel terrain-aware contact PD controller, which enables characters to physically contact the given local elevation map thereby reducing human floating or penetration. We demonstrate the performance of our system on established synthetic and real-world benchmarks. The results show that our method reduces human localization, camera pose, and mapping accuracy error by 41%, 71%, 46%, respectively, compared to the state of the art. Our qualitative evaluations on newly captured data further demonstrate that EgoHDM can cover challenging scenarios in non-flat terrain including stepping over stairs and outdoor scenes in the wild.
翻訳日:2024-09-06 15:23:54 公開日:2024-09-05
# 複数話者音声認識のための重複符号化分離によるシリアライズされた音声情報誘導

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition ( http://arxiv.org/abs/2409.00815v2 )

ライセンス: Link先を確認
Hao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara, (参考訳) SOT(Serialized output training)は、マルチ話者自動音声認識(ASR)の利便性と柔軟性から注目されている。 しかし、注意をそらすだけの訓練は容易ではない。 本稿では、コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために、重複符号化分離(EncSep)を提案する。 この追加セパレータはエンコーダの後に挿入され、CTC損失を伴うマルチスピーカ情報を抽出する。 さらに、分離された符号化をさらに活用するために、シリアライズされた音声情報誘導SOT(GEncSep)を提案する。 分離されたストリームは、デコード時に注意を誘導する単一話者情報を提供するために連結される。 LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。 CTC損失は複雑なシナリオ下でのエンコーダ表現の改善に役立つ。 GEncSepはさらにパフォーマンスを改善した。

Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for multi-speaker automatic speech recognition (ASR). However, it is not easy to train with attention loss only. In this paper, we propose the overlapped encoding separation (EncSep) to fully utilize the benefits of the connectionist temporal classification (CTC) and attention hybrid loss. This additional separator is inserted after the encoder to extract the multi-speaker information with CTC losses. Furthermore, we propose the serialized speech information guidance SOT (GEncSep) to further utilize the separated encodings. The separated streams are concatenated to provide single-speaker information to guide attention during decoding. The experimental results on LibriMix show that the single-speaker encoding can be separated from the overlapped encoding. The CTC loss helps to improve the encoder representation under complex scenarios. GEncSep further improved performance.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# 信頼できるAIコラボレーション:人間のフィードバックによる強化学習と安全な自律運転のための物理知識

Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving ( http://arxiv.org/abs/2409.00858v2 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Sikai Chen, (参考訳) 自動運転の分野では、安全で信頼性の高い自動運転政策の開発は依然として大きな課題である。 近年,RLHF(Reinforcement Learning with Human Feedback)が注目されている。 それでも、既存のRLHF対応の方法は、不完全な人間のデモンストレーションに直面した時にしばしば失敗し、トレーニングの振動や、ルールベースのアプローチよりもパフォーマンスが悪くなる可能性がある。 人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。 このフレームワークは、人間からのフィードバック(例えば、人間の介入とデモンストレーション)と物理知識(例えば、交通流モデル)を、強化学習のトレーニングループに相乗的に統合する。 PE-RLHFの鍵となる利点は、人間のフィードバック品質が悪化しても、学習されたポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証することで、信頼性の高い安全性の向上が保証されることである。 PE-RLHFは、人間と物理学に基づくアクション間の動的アクション選択のための物理強化されたHuman-AI(PE-HAI)協調パラダイムを導入し、人間の嗜好を捉えるためにプロキシ値関数を用いた報酬のないアプローチを採用し、人間のメンターに対する認知負荷を減らすために最小限の介入メカニズムを組み込んだ。 多様な運転シナリオにわたる大規模な実験により、PE-RLHFは従来の方法よりも大幅に優れ、安全性、効率、一般化性において、人間のフィードバックの質が変化しても、最先端(SOTA)のパフォーマンスを達成することが示されている。 PE-RLHFの背景にある哲学は、自動運転技術の発展だけでなく、他の安全上重要な領域にも価値ある洞察を与えることができる。 デモビデオとコードは以下の通りである。

In the field of autonomous driving, developing safe and trustworthy autonomous driving policies remains a significant challenge. Recently, Reinforcement Learning with Human Feedback (RLHF) has attracted substantial attention due to its potential to enhance training safety and sampling efficiency. Nevertheless, existing RLHF-enabled methods often falter when faced with imperfect human demonstrations, potentially leading to training oscillations or even worse performance than rule-based approaches. Inspired by the human learning process, we propose Physics-enhanced Reinforcement Learning with Human Feedback (PE-RLHF). This novel framework synergistically integrates human feedback (e.g., human intervention and demonstration) and physics knowledge (e.g., traffic flow model) into the training loop of reinforcement learning. The key advantage of PE-RLHF is its guarantee that the learned policy will perform at least as well as the given physics-based policy, even when human feedback quality deteriorates, thus ensuring trustworthy safety improvements. PE-RLHF introduces a Physics-enhanced Human-AI (PE-HAI) collaborative paradigm for dynamic action selection between human and physics-based actions, employs a reward-free approach with a proxy value function to capture human preferences, and incorporates a minimal intervention mechanism to reduce the cognitive load on human mentors. Extensive experiments across diverse driving scenarios demonstrate that PE-RLHF significantly outperforms traditional methods, achieving state-of-the-art (SOTA) performance in safety, efficiency, and generalizability, even with varying quality of human feedback. The philosophy behind PE-RLHF not only advances autonomous driving technology but can also offer valuable insights for other safety-critical domains. Demo video and code are available at: \https://zilin-huang.github.io/PE-RLHF-website/
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# 説明空間: 時系列解釈可能性の新しい視点

Explanation Space: A New Perspective into Time Series Interpretability ( http://arxiv.org/abs/2409.01354v2 )

ライセンス: Link先を確認
Shahbaz Rezaei, Xin Liu, (参考訳) 深層学習モデルの人間による理解可能な説明は、多くの重要かつ敏感なアプリケーションに必要である。 各入力特徴(分類器の決定のために)の重要性を直接入力に投影できる画像や表データとは異なり、時系列識別可能な特徴(例えば支配周波数)は、ユーザが容易に理解できる時間領域に現れにくいことが多い。 さらに、ほとんどの説明手法は、どんな特徴も欠如していることを示す指標として基準値を必要とする。 しかしながら、視覚タスクのブラックピクセルや表データのゼロ/平均値として定義される特徴の欠如の概念は、時系列ではよく定義されていない。 表と視覚ドメインから時系列ドメインへの説明可能なAIメソッド(XAI)の採用にもかかわらず、これらの違いは実際にはこれらのXAIメソッドの適用を制限する。 本稿では,既存の手法を用いて時間領域で訓練されたモデルを他の説明空間で解釈できる簡易かつ効果的な手法を提案する。 それぞれが特定の時系列でこれらの問題を緩和できる4つの説明空間を提案する。 トレーニングされたモデルやXAIメソッドを変更することなく,既存のプラットフォームで簡単に適用することができる。 コードはhttps://github.com/shrezaei/TS-X-spacesで入手できる。

Human understandable explanation of deep learning models is necessary for many critical and sensitive applications. Unlike image or tabular data where the importance of each input feature (for the classifier's decision) can be directly projected into the input, time series distinguishable features (e.g. dominant frequency) are often hard to manifest in time domain for a user to easily understand. Moreover, most explanation methods require a baseline value as an indication of the absence of any feature. However, the notion of lack of feature, which is often defined as black pixels for vision tasks or zero/mean values for tabular data, is not well-defined in time series. Despite the adoption of explainable AI methods (XAI) from tabular and vision domain into time series domain, these differences limit the application of these XAI methods in practice. In this paper, we propose a simple yet effective method that allows a model originally trained on time domain to be interpreted in other explanation spaces using existing methods. We suggest four explanation spaces that each can potentially alleviate these issues in certain types of time series. Our method can be readily adopted in existing platforms without any change to trained models or XAI methods. The code is available at https://github.com/shrezaei/TS-X-spaces.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# ケースミックス変化下における予測モデルの性能に関する因果的視点--予後と診断予測に異なる対応性を示す識別と校正

A causal viewpoint on prediction model performance under changes in case-mix: discrimination and calibration respond differently for prognosis and diagnosis predictions ( http://arxiv.org/abs/2409.01444v2 )

ライセンス: Link先を確認
Wouter A. C. van Amsterdam, (参考訳) 予測モデルは、診断、予後、および治療計画において重要な臨床的決定を通知する。 これらのモデルの予測性能は通常、識別と校正によって評価される。 しかし、データインパクトモデルの性能の分布の変化。 医療における典型的な変化はケースミックスの変化であり、例えば、心臓血管のリスク管理では、一般の開業医は、第3次病院の専門医とは異なる患者の混在を見る。 本研究は,予測タスクの因果方向に基づいて,ケースミックスシフトが識別と校正に与える影響を識別する新しい枠組みを導入する。 予測が因果方向にある場合(しばしば予後予測の場合)、キャリブレーションはケースミックスシフトの下で安定するが、識別はしない。 逆に、反因果方向(しばしば診断予測を伴う)で予測する場合、識別は安定しているが、校正は行われない。 循環器疾患予測モデルを用いたシミュレーション研究と実証検証により,この枠組みの意義が示された。 この枠組みは, 様々な臨床領域における予測モデルの評価と展開に重要な洞察を与え, 予測課題の因果構造を理解することの重要性を強調している。

Prediction models inform important clinical decisions, aiding in diagnosis, prognosis, and treatment planning. The predictive performance of these models is typically assessed through discrimination and calibration. However, changes in the distribution of the data impact model performance. In health-care, a typical change is a shift in case-mix: for example, for cardiovascular risk management, a general practitioner sees a different mix of patients than a specialist in a tertiary hospital. This work introduces a novel framework that differentiates the effects of case-mix shifts on discrimination and calibration based on the causal direction of the prediction task. When prediction is in the causal direction (often the case for prognosis predictions), calibration remains stable under case-mix shifts, while discrimination does not. Conversely, when predicting in the anti-causal direction (often with diagnosis predictions), discrimination remains stable, but calibration does not. A simulation study and empirical validation using cardiovascular disease prediction models demonstrate the implications of this framework. This framework provides critical insights for evaluating and deploying prediction models across different clinical settings, emphasizing the importance of understanding the causal structure of the prediction task.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# ゼロサム確率ゲームにおけるペイオフ型独立学習の終局収束

Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games ( http://arxiv.org/abs/2409.01447v2 )

ライセンス: Link先を確認
Zaiwei Chen, Kaiqing Zhang, Eric Mazumdar, Asuman Ozdaglar, Adam Wierman, (参考訳) 本稿では,2人プレイヤゼロサム行列と確率ゲームについて考察し,2人プレイヤ間のペイオフベース,収束,有理,対称な学習ダイナミクスを開発する。 具体的には、行列ゲームに対する学習ダイナミクスは、スムーズ化された最適応答ダイナミクスに基づいており、一方確率ゲームに対する学習ダイナミクスは、行列ゲームに対する学習ダイナミクスの上に構築され、最小値の反復を付加する。 我々の知る限り、我々の理論的結果は、最後の保証付き学習力学の有限サンプル解析を初めて提示する。 行列ゲーム設定では、結果は、ナッシュ分布を見つけるために$O(\epsilon^{-1})$のサンプル複雑性と、ナッシュ平衡を求めるために$O(\epsilon^{-8})$のサンプル複雑性を意味する。 確率ゲーム設定では、結果はナッシュ均衡を求めるために$O(\epsilon^{-8})$のサンプル複雑性をも意味している。 これらの結果を確立するために、主な課題は、(おそらく)異なる時間スケールで進化する複数の結合および確率的反復からなる確率近似アルゴリズムを扱うことである。 この課題を克服するため,我々は,確率近似アルゴリズムの収束挙動を研究対象とする,リアプノフをベースとした手法を開発した。

In this paper, we consider two-player zero-sum matrix and stochastic games and develop learning dynamics that are payoff-based, convergent, rational, and symmetric between the two players. Specifically, the learning dynamics for matrix games are based on the smoothed best-response dynamics, while the learning dynamics for stochastic games build upon those for matrix games, with additional incorporation of the minimax value iteration. To our knowledge, our theoretical results present the first finite-sample analysis of such learning dynamics with last-iterate guarantees. In the matrix game setting, the results imply a sample complexity of $O(\epsilon^{-1})$ to find the Nash distribution and a sample complexity of $O(\epsilon^{-8})$ to find a Nash equilibrium. In the stochastic game setting, the results also imply a sample complexity of $O(\epsilon^{-8})$ to find a Nash equilibrium. To establish these results, the main challenge is to handle stochastic approximation algorithms with multiple sets of coupled and stochastic iterates that evolve on (possibly) different time scales. To overcome this challenge, we developed a coupled Lyapunov-based approach, which may be of independent interest to the broader community studying the convergence behavior of stochastic approximation algorithms.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# RパッケージpsvmSDR:主機による十分次元削減のための統一アルゴリズム

The R package psvmSDR: A Unified Algorithm for Sufficient Dimension Reduction via Principal Machines ( http://arxiv.org/abs/2409.01547v2 )

ライセンス: Link先を確認
Jungmin Shin, Seung Jun Shin, Andreas Artemiou, (参考訳) 回帰情報や分類情報を含む予測器の低次元部分空間を求めるSDR(Sufficient dimension reduction)は、機械学習コミュニティで人気がある。 本稿では,主サポートベクトルマシン(PSVM)から一般化された主マシン(PM)と呼ぶ新しいSDR推定器のクラスを実装した新しいRソフトウェアパッケージpsvmSDRを提案する。 このパッケージは線形SDRと非線形SDRの両方をカバーし、リアルタイム更新シナリオに適用可能な機能を提供する。 パッケージは、PMが様々な状況でSDR推定器を効率的に計算するための降下アルゴリズムを実装している。 この使い勝手の良いパッケージは、古典的なSDRメソッドを実装したDr Rパッケージの魅力的な代替となるだろう。

Sufficient dimension reduction (SDR), which seeks a lower-dimensional subspace of the predictors containing regression or classification information has been popular in a machine learning community. In this work, we present a new R software package psvmSDR that implements a new class of SDR estimators, which we call the principal machine (PM) generalized from the principal support vector machine (PSVM). The package covers both linear and nonlinear SDR and provides a function applicable to realtime update scenarios. The package implements the descent algorithm for the PMs to efficiently compute the SDR estimators in various situations. This easy-to-use package will be an attractive alternative to the dr R package that implements classical SDR methods.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# 知識蒸留のための適応的明示的知識伝達

Adaptive Explicit Knowledge Transfer for Knowledge Distillation ( http://arxiv.org/abs/2409.01679v2 )

ライセンス: Link先を確認
Hyungkeun Park, Jong-Seok Lee, (参考訳) 分類のためのログベースの知識蒸留(KD)は、特徴ベースのKDと比較してコスト効率が良いが、性能は劣ることが多い。 近年,「暗黒知識」として知られる教師モデルから学生モデルへの非対象クラスの確率分布を効果的に提供することにより,ロジットに基づくKDの性能向上が図られた。 グラデーション分析により、これは暗黙の知識の学習を適応的に制御する効果があることを最初に示す。 そこで本研究では,学習者が明示的な知識(すなわち,対象クラスに対する教師の自信)と暗黙的な知識を適応的に学習できる新たな損失を提案する。 さらに, 有効蒸留およびクラス間関係モデリングのための分類と蒸留タスクを分離することを提案する。 CIFAR-100 および ImageNet データセットの最先端 KD 手法と比較して,適応的明示的知識伝達 (AEKT) 法 (Adaptive explicit Knowledge Transfer) 法 (adaptive explicit Knowledge Transfer) 法 (AEKT) 法は, 性能が向上することを示した。

Logit-based knowledge distillation (KD) for classification is cost-efficient compared to feature-based KD but often subject to inferior performance. Recently, it was shown that the performance of logit-based KD can be improved by effectively delivering the probability distribution for the non-target classes from the teacher model, which is known as `implicit (dark) knowledge', to the student model. Through gradient analysis, we first show that this actually has an effect of adaptively controlling the learning of implicit knowledge. Then, we propose a new loss that enables the student to learn explicit knowledge (i.e., the teacher's confidence about the target class) along with implicit knowledge in an adaptive manner. Furthermore, we propose to separate the classification and distillation tasks for effective distillation and inter-class relationship modeling. Experimental results demonstrate that the proposed method, called adaptive explicit knowledge transfer (AEKT) method, achieves improved performance compared to the state-of-the-art KD methods on the CIFAR-100 and ImageNet datasets.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# ACCESS-FL: 安定したフェデレーション学習ネットワークにおける効率的なセキュアな集約のためのアジャイルコミュニケーションと計算

ACCESS-FL: Agile Communication and Computation for Efficient Secure Aggregation in Stable Federated Learning Networks ( http://arxiv.org/abs/2409.01722v2 )

ライセンス: Link先を確認
Niousha Nazemi, Omid Tavallaie, Shuaijun Chen, Anna Maria Mandalari, Kanchana Thilakarathna, Ralph Holz, Hamed Haddadi, Albert Y. Zomaya, (参考訳) Federated Learning(FL)は、プライバシを意識したアプリケーション用に設計された、有望な分散学習フレームワークである。 FLはクライアントのデータを共有せずにクライアントデバイス上でモデルをトレーニングし、モデル更新を集約することでサーバ上でグローバルモデルを生成する。 従来のFLは、平易なモデル更新がサーバに送信されたとき、機密性の高いクライアントデータを露出するリスクにアプローチする。 GoogleのSecure Aggregation(SecAgg)プロトコルは、クライアントのドロップアウトを伴う、誠実だが正確で敵対的なシナリオにおいて、ダブルマスキング技術、シークレット共有、暗号化計算を使用することによって、この脅威に対処する。 しかし、アクティブな敵がいないシナリオでは、SecAggの計算・通信コストはクライアントの数を増やすことで著しく増大する。 本稿では,クライアントのドロップアウト率に制限のある安定したFLネットワークにおいて,通信・計算効率の高いセキュアアグリゲーション手法であるACCESS-FLを提案する。 ACCESS-FLは、2つのクライアント間で共有秘密を生成し、二重マスキング、秘密共有、暗号計算を不要にすることで、計算/通信コストを一定レベル(ネットワークサイズに依存しない)に削減する。 ACCESS-FLの性能を評価するため,提案手法の有効性を検証するために,MNIST,FMNIST,CIFARデータセットを用いて実験を行った。 その結果,提案手法は, SecAgg や SecAgg+ と比較して, 計算と通信のオーバーヘッドを著しく低減することがわかった。

Federated Learning (FL) is a promising distributed learning framework designed for privacy-aware applications. FL trains models on client devices without sharing the client's data and generates a global model on a server by aggregating model updates. Traditional FL approaches risk exposing sensitive client data when plain model updates are transmitted to the server, making them vulnerable to security threats such as model inversion attacks where the server can infer the client's original training data from monitoring the changes of the trained model in different rounds. Google's Secure Aggregation (SecAgg) protocol addresses this threat by employing a double-masking technique, secret sharing, and cryptography computations in honest-but-curious and adversarial scenarios with client dropouts. However, in scenarios without the presence of an active adversary, the computational and communication cost of SecAgg significantly increases by growing the number of clients. To address this issue, in this paper, we propose ACCESS-FL, a communication-and-computation-efficient secure aggregation method designed for honest-but-curious scenarios in stable FL networks with a limited rate of client dropout. ACCESS-FL reduces the computation/communication cost to a constant level (independent of the network size) by generating shared secrets between only two clients and eliminating the need for double masking, secret sharing, and cryptography computations. To evaluate the performance of ACCESS-FL, we conduct experiments using the MNIST, FMNIST, and CIFAR datasets to verify the performance of our proposed method. The evaluation results demonstrate that our proposed method significantly reduces computation and communication overhead compared to state-of-the-art methods, SecAgg and SecAgg+.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# グラフアテンションネットワークを用いた多重モードを用いた重畳アンサンブルに基づく変異原性予測モデル

Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network ( http://arxiv.org/abs/2409.01731v3 )

ライセンス: Link先を確認
Tanya Liyaqat, Tanvir Ahmad, Mohammad Kashif, Chandni Saxena, (参考訳) 変異原性は、癌の発生を含む様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。 薬物開発プロセスにおける変異原性化合物の早期同定は、安全でない候補の進行を防ぎ、開発コストを削減するために重要である。 計算技術、特に機械学習モデルは、このエンドポイントでますます普及しているが、それらは単一のモダリティに依存している。 本研究では,分子インプットライン入力システム (SMILES) や分子グラフなどの複数のモードを組み込んだ,組立アンサンブルに基づく変異原性予測モデルを提案する。 これらのモダリティは、構造、物理化学的、幾何学的、トポロジカルといった分子についての多様な情報を取得する。 分子グラフを用いたグラフアテンションネットワーク(GAT)を通して位相情報を抽出しながら,構造的,幾何学的,物理化学的情報を導出する。 我々のモデルは、これらの複数の特徴を用いて予測を行うために、機械学習分類器の積み重ねられたアンサンブルを使用する。 我々は、各分類器の意義と予測における最も重要な特徴を決定するために、説明可能な人工知能(XAI)技術SHAP(Shapley Additive Explanations)を用いる。 提案手法は,2つの標準データセット上でのSOTA法を超越していることを示す。 特に,ハンセンベンチマークデータセットの95.21\%の曲線下領域を達成し,変異原性を予測する手法の有効性を確認した。 本研究は,翻訳研究に携わる臨床医と計算生物学者の双方の関心を惹きつけるものと信じている。

Mutagenicity is a concern due to its association with genetic mutations which can result in a variety of negative consequences, including the development of cancer. Earlier identification of mutagenic compounds in the drug development process is therefore crucial for preventing the progression of unsafe candidates and reducing development costs. While computational techniques, especially machine learning models have become increasingly prevalent for this endpoint, they rely on a single modality. In this work, we introduce a novel stacked ensemble based mutagenicity prediction model which incorporate multiple modalities such as simplified molecular input line entry system (SMILES) and molecular graph. These modalities capture diverse information about molecules such as substructural, physicochemical, geometrical and topological. To derive substructural, geometrical and physicochemical information, we use SMILES, while topological information is extracted through a graph attention network (GAT) via molecular graph. Our model uses a stacked ensemble of machine learning classifiers to make predictions using these multiple features. We employ the explainable artificial intelligence (XAI) technique SHAP (Shapley Additive Explanations) to determine the significance of each classifier and the most relevant features in the prediction. We demonstrate that our method surpasses SOTA methods on two standard datasets across various metrics. Notably, we achieve an area under the curve of 95.21\% on the Hansen benchmark dataset, affirming the efficacy of our method in predicting mutagenicity. We believe that this research will captivate the interest of both clinicians and computational biologists engaged in translational research.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# CyberHost: リージョンコードブックを意識したオーディオ駆動型アバター拡散モデル

CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention ( http://arxiv.org/abs/2409.01876v2 )

ライセンス: Link先を確認
Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng, (参考訳) 拡散に基づくビデオ生成技術は、人間のアニメーションにおける研究の急増を触媒し、飛躍的に進歩した。 しかし、これらの研究の大部分は同じモダリティの運転設定に限られており、クロスモダリティの人体アニメーションは比較的過小評価されている。 本稿では、手作業の整合性、アイデンティティの整合性、自然な動きを保証する、エンドツーエンドのオーディオ駆動型ヒューマンアニメーションフレームワークについて紹介する。 CyberHostの鍵となる設計はRerea Codebook Attentionメカニズムである。これは、学習された動きパターンの先行ときめ細かい局所的特徴を統合することで、顔と手のアニメーションの生成品質を改善する。 さらに,身体動作マップ,手指明度スコア,ポーズアライン参照特徴,局所的な強化指導など,人手優先のトレーニング戦略のスイートを開発し,合成結果を改善した。 私たちの知る限り、CyberHostは人体の範囲内でゼロショットビデオ生成を容易にする、エンドツーエンドの人間の拡散モデルとしては初めてのものです。 大規模な実験は、CyberHostが量的および定性的両方の面で、以前の研究を上回っていることを示している。

Diffusion-based video generation technology has advanced significantly, catalyzing a proliferation of research in human animation. However, the majority of these studies are confined to same-modality driving settings, with cross-modality human body animation remaining relatively underexplored. In this paper, we introduce, an end-to-end audio-driven human animation framework that ensures hand integrity, identity consistency, and natural motion. The key design of CyberHost is the Region Codebook Attention mechanism, which improves the generation quality of facial and hand animations by integrating fine-grained local features with learned motion pattern priors. Furthermore, we have developed a suite of human-prior-guided training strategies, including body movement map, hand clarity score, pose-aligned reference feature, and local enhancement supervision, to improve synthesis results. To our knowledge, CyberHost is the first end-to-end audio-driven human diffusion model capable of facilitating zero-shot video generation within the scope of human body. Extensive experiments demonstrate that CyberHost surpasses previous works in both quantitative and qualitative aspects.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# 分子力学と機械学習力場の設計空間について

On the design space between molecular mechanics and machine learning force fields ( http://arxiv.org/abs/2409.01931v2 )

ライセンス: Link先を確認
Yuanqing Wang, Kenichiro Takaba, Michael S. Chen, Marcus Wieder, Yuzhi Xu, Tong Zhu, John Z. H. Zhang, Arnav Nagle, Kuang Yu, Xinyan Wang, Daniel J. Cole, Joshua A. Rackers, Kyunghyun Cho, Joe G. Greener, Peter Eastman, Stefano Martiniani, Mark E. Tuckerman, (参考訳) 量子力学(QM)と同じくらい正確で、分子力学(MM)と同じくらい高速な力場。生体分子系を十分に効率的にシミュレートし、定量的な洞察を得ることができる。これは、生物物理学者の最も熱心な夢の1つだ。しかしながら、すぐに達成できない夢だ。機械学習力場(MLFF)は、この方向への有意義な取り組みを表している。そこでは、微分可能な神経関数がアブイニシオエネルギーに適合するようにパラメタ化され、さらに自動微分によってさらに多くの力が働く。現在、MLFFモデルの実用性は、主にその速度(安定性と一般性)によってボトルネックにはならず、最近の多くの化学領域における多くの変化は、化学的に1k/molの精度をはるかに上回っている。 本総説では, MM と ML の力場間の設計空間(速度-精度トレードオフ)に着目し, より高速かつ精度のよい MLFF の設計に着目する。 いずれかの力場の構築ブロックを概観した後、力場開発コミュニティが現在直面している望ましい特性と課題について考察し、MM力場をより正確化し、ML力場をより高速にするための取り組みを調査し、次世代MLFFがどのようなものになるのかを考察する。

A force field as accurate as quantum mechanics (QM) and as fast as molecular mechanics (MM), with which one can simulate a biomolecular system efficiently enough and meaningfully enough to get quantitative insights, is among the most ardent dreams of biophysicists -- a dream, nevertheless, not to be fulfilled any time soon. Machine learning force fields (MLFFs) represent a meaningful endeavor towards this direction, where differentiable neural functions are parametrized to fit ab initio energies, and furthermore forces through automatic differentiation. We argue that, as of now, the utility of the MLFF models is no longer bottlenecked by accuracy but primarily by their speed (as well as stability and generalizability), as many recent variants, on limited chemical spaces, have long surpassed the chemical accuracy of $1$ kcal/mol -- the empirical threshold beyond which realistic chemical predictions are possible -- though still magnitudes slower than MM. Hoping to kindle explorations and designs of faster, albeit perhaps slightly less accurate MLFFs, in this review, we focus our attention on the design space (the speed-accuracy tradeoff) between MM and ML force fields. After a brief review of the building blocks of force fields of either kind, we discuss the desired properties and challenges now faced by the force field development community, survey the efforts to make MM force fields more accurate and ML force fields faster, envision what the next generation of MLFF might look like.
翻訳日:2024-09-06 12:28:47 公開日:2024-09-05
# 子宮内膜症診断のためのヒト-AI協調マルチモーダルマルチレイタラーニング

Human-AI Collaborative Multi-modal Multi-rater Learning for Endometriosis Diagnosis ( http://arxiv.org/abs/2409.02046v2 )

ライセンス: Link先を確認
Hu Wang, David Butler, Yuan Zhang, Jodie Avery, Steven Knox, Congbo Ma, Louise Hull, Gustavo Carneiro, (参考訳) 子宮内膜症は、出生時に女性に割り当てられた患者の約10%に影響を及ぼし、診断と管理が困難である。 診断は通常、腹腔鏡下手術またはT1/T2MRI画像の解析を用いて、疾患の様々な徴候を同定する。 子宮内膜症の診断上の重要な兆候は、ダグラスのポーチ(POD)の消滅である。 しかし、経験豊富な臨床医でさえ、信頼性の高いAIモデルのトレーニングを複雑にするMRI画像からPODを正確に分類することに苦労している。 本稿では, 上記の課題に対処するために, \underline{H}uman-\underline{AI} \underline{Co}llaborative \underline{M}ulti-modal \underline{M}ulti-rater Learning (HAICOMM)手法を提案する。 HAICOMMは、この問題の3つの重要な側面を探求する最初の方法である。 1) トレーニングサンプル毎に利用可能な複数の`noisy'ラベルから、よりクリーンなラベルを抽出するマルチラター学習 2)T1/T2MRI画像のトレーニング・テストへの活用のためのマルチモーダル学習 3) 臨床医とAIモデルからの予測を活用して、スタンドアロンの臨床医やAIモデルよりも正確な分類を提供するシステムを構築する。 提案手法を検証するために収集したマルチレータT1/T2MRI子宮内膜症データセットの結果から,提案したHAICOMMモデルは,臨床医,ノイズラベル学習モデル,マルチレータ学習手法のアンサンブルよりも優れていた。

Endometriosis, affecting about 10\% of individuals assigned female at birth, is challenging to diagnose and manage. Diagnosis typically involves the identification of various signs of the disease using either laparoscopic surgery or the analysis of T1/T2 MRI images, with the latter being quicker and cheaper but less accurate. A key diagnostic sign of endometriosis is the obliteration of the Pouch of Douglas (POD). However, even experienced clinicians struggle with accurately classifying POD obliteration from MRI images, which complicates the training of reliable AI models. In this paper, we introduce the \underline{H}uman-\underline{AI} \underline{Co}llaborative \underline{M}ulti-modal \underline{M}ulti-rater Learning (HAICOMM) methodology to address the challenge above. HAICOMM is the first method that explores three important aspects of this problem: 1) multi-rater learning to extract a cleaner label from the multiple ``noisy'' labels available per training sample; 2) multi-modal learning to leverage the presence of T1/T2 MRI images for training and testing; and 3) human-AI collaboration to build a system that leverages the predictions from clinicians and the AI model to provide more accurate classification than standalone clinicians and AI models. Presenting results on the multi-rater T1/T2 MRI endometriosis dataset that we collected to validate our methodology, the proposed HAICOMM model outperforms an ensemble of clinicians, noisy-label learning models, and multi-rater learning methods.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# LIDに基づくエキスパートモデルの協調混合によるコードスイッチング音声認識の実現

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model ( http://arxiv.org/abs/2409.02050v2 )

ライセンス: Link先を確認
Hukai Huang, Jiayan Lin, Kaidi Wang, Yishuang Li, Wenhao Guan, Lin Li, Qingyang Hong, (参考訳) 異なる言語にまたがる音韻類似性をモデル化することの難しさから、コードスイッチング音声認識は深刻な課題となる。 本研究では,専門家グループ間の協調的なメカニズムを活用するMixture of Experts(MoE)モデルであるCollaborative-MoEを提案する。 当初、先行するルーティングネットワークは言語識別(LID)タスクを明示的に学習し、取得したLID重みに基づいて専門家を選択する。 このプロセスは、専門家のネットワークパラメータの更新において、多様な言語ドメインからの干渉を軽減し、MoE層への堅牢なルーティング情報を保証する。 LIDウェイトはグループ間コラボレーションを促進するためにも使われており、言語固有の表現の統合を可能にしている。 さらに、各言語専門家グループ内では、ゲーティングネットワークは教師なしで、言語以外の属性に関するコラボレーションを促進する。 大規模な実験により,本手法の有効性を実証し,代替手法と比較して大幅な性能向上を実現した。 重要なこととして,本手法は,追加の事前学習を必要とせず,MoEモデルの効率的な推論能力を保っている。

Due to the inherent difficulty in modeling phonetic similarities across different languages, code-switching speech recognition presents a formidable challenge. This study proposes a Collaborative-MoE, a Mixture of Experts (MoE) model that leverages a collaborative mechanism among expert groups. Initially, a preceding routing network explicitly learns Language Identification (LID) tasks and selects experts based on acquired LID weights. This process ensures robust routing information to the MoE layer, mitigating interference from diverse language domains on expert network parameter updates. The LID weights are also employed to facilitate inter-group collaboration, enabling the integration of language-specific representations. Furthermore, within each language expert group, a gating network operates unsupervised to foster collaboration on attributes beyond language. Extensive experiments demonstrate the efficacy of our approach, achieving significant performance enhancements compared to alternative methods. Importantly, our method preserves the efficient inference capabilities characteristic of MoE models without necessitating additional pre-training.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 確率量子化を用いた高次元データのロバストクラスタリング

Robust Clustering on High-Dimensional Data with Stochastic Quantization ( http://arxiv.org/abs/2409.02066v2 )

ライセンス: Link先を確認
Anton Kozyriev, Vladimir Norkin, (参考訳) 本稿では、従来のベクトル量子化(クラスタリング)アルゴリズム、特にK-Meansとその変種K-Means++の限界に対処し、高次元の教師なしおよび半教師付き学習問題に対するスケーラブルな代替手段として、確率量子化(SQ)アルゴリズムを探求する。 従来のクラスタリングアルゴリズムでは、計算中の非効率なメモリ利用に悩まされており、すべてのデータサンプルをメモリにロードする必要があるため、大規模なデータセットでは実用的ではない。 Mini-Batch K-Meansのような変種は、メモリ使用量の削減によってこの問題を部分的に緩和するが、クラスタリング問題の非凸性に起因する堅牢な理論的収束保証は欠如している。 対照的に、確率量子化アルゴリズムは強力な理論的収束保証を提供し、クラスタリングタスクの堅牢な代替となる。 本研究では,ラベル付きデータとラベル付きデータの様々な比率でモデル精度を比較し,部分ラベル付きデータを用いた画像分類問題に対して,アルゴリズムの計算効率と迅速な収束性を実証する。 高次元の課題に対処するため,我々は,Stochastic Quantizationアルゴリズムと従来の量子化アルゴリズムの両アルゴリズムの効率を比較する基盤となる,潜時空間の低次元表現に画像をエンコードするようにTriplet Networkを訓練した。 さらに,適応学習率による修正を導入することにより,アルゴリズムの収束速度を向上させる。

This paper addresses the limitations of traditional vector quantization (clustering) algorithms, particularly K-Means and its variant K-Means++, and explores the Stochastic Quantization (SQ) algorithm as a scalable alternative for high-dimensional unsupervised and semi-supervised learning problems. Some traditional clustering algorithms suffer from inefficient memory utilization during computation, necessitating the loading of all data samples into memory, which becomes impractical for large-scale datasets. While variants such as Mini-Batch K-Means partially mitigate this issue by reducing memory usage, they lack robust theoretical convergence guarantees due to the non-convex nature of clustering problems. In contrast, the Stochastic Quantization algorithm provides strong theoretical convergence guarantees, making it a robust alternative for clustering tasks. We demonstrate the computational efficiency and rapid convergence of the algorithm on an image classification problem with partially labeled data, comparing model accuracy across various ratios of labeled to unlabeled data. To address the challenge of high dimensionality, we trained Triplet Network to encode images into low-dimensional representations in a latent space, which serve as a basis for comparing the efficiency of both the Stochastic Quantization algorithm and traditional quantization algorithms. Furthermore, we enhance the algorithm's convergence speed by introducing modifications with an adaptive learning rate.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# LinFusion:1GPU、1分、16K画像

LinFusion: 1 GPU, 1 Minute, 16K Image ( http://arxiv.org/abs/2409.02097v2 )

ライセンス: Link先を確認
Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang, (参考訳) 現代の拡散モデル、特にトランスフォーマーベースのUNetをデノナイズするために利用するモデルは、複雑な空間関係を管理するための自己注意操作に大きく依存しているため、印象的な生成性能が得られる。 しかし、この既存のパラダイムは、空間トークンの数に関して2次時間とメモリの複雑さのために、高解像度の視覚コンテンツを生成する上で大きな課題に直面している。 この制限に対処するために,本論文では,新たな線形注意機構を提案する。 具体的には、最近導入された線形複雑性モデルであるMamba2、RWKV6、Gated Linear Attention等から探索を開始し、高分解能な視覚生成性能を向上する2つの重要な特徴の正規化と非因果推論を同定する。 これらの知見に基づいて、一般化された線形アテンションパラダイムを導入し、広く普及している線形トークンミキサーの低ランク近似として機能する。 トレーニングコストの削減と事前学習モデルの改善を目的として,本モデルの初期化と,事前学習されたStableDiffusion (SD) からの知識の抽出を行った。 蒸留モデルであるLinFusionは, 学習時間とメモリの複雑さを著しく低減しつつ, 従来のSDと同等以上の性能を実現していることがわかった。 SD-v1.5、SD-v2.1、SD-XLの大規模な実験は、LinFusionが良好なゼロショットのクロスレゾリューション生成性能を提供し、16K解像度のような高解像度画像を生成することを示した。 さらに、ControlNetやIP-Adapterといった事前トレーニング済みのSDコンポーネントとも互換性があり、適応作業は不要である。 コードはhttps://github.com/Huage001/LinFusion.comで入手できる。

Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba2, RWKV6, Gated Linear Attention, etc, and identify two key features-attention normalization and non-causal inference-that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion delivers satisfactory zero-shot cross-resolution generation performance, generating high-resolution images like 16K resolution. Moreover, it is highly compatible with pre-trained SD components, such as ControlNet and IP-Adapter, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 多軸加工におけるアクセシビリティの深部ニューラルネットワークによる表現

Deep Neural Implicit Representation of Accessibility for Multi-Axis Manufacturing ( http://arxiv.org/abs/2409.02115v2 )

ライセンス: Link先を確認
George P. Harabin, Amir Mirzendehdel, Morad Behandish, (参考訳) 多軸添加および減算製造のための設計およびプロセス計画における主な関心事は、移動物体(例えば、ツールアセンブリ)と静止物体(例えば、フィクスチャと一体化された部分)の衝突回避である。 相対的剛性変換と2点間の回転の様々な対の衝突測度は、6次元非ユークリッド構成空間上のコンパクトに支持されたスカラー場によって概念化することができる。 この場の明示的な表現と計算は時間と空間の両方で費用がかかる。 もし$Oを修正すれば (m)$ sparsely sampled rotations(例:ツールの向き)、衝突測度場の計算は、$O(mn^3) \logのような高速フーリエ変換(FFT)スケールによる解像度$O(n^3)$の均一格子上の3次元点集合の指標関数の畳み込みである。 n) 時間で$、空間で$O(mn^3)$。 本稿では,ディープニューラルネットワーク(DNN)を用いた衝突計測の暗黙的表現を開発する。 本手法は, 回転のスパースサンプリングから衝突測度を正確に補間することができ, メモリフットプリントの小さい衝突測度場を表現できることを示す。 さらに,この表現を微調整により効率的に更新し,マルチレゾリューションデータ上でネットワークをより効率的にトレーニングし,幾何への漸進的な変化を許容できることを示す(例えば,CNCツールアクセシビリティ制約を受ける部分のトポロジ最適化など)。

One of the main concerns in design and process planning for multi-axis additive and subtractive manufacturing is collision avoidance between moving objects (e.g., tool assemblies) and stationary objects (e.g., a part unified with fixtures). The collision measure for various pairs of relative rigid translations and rotations between the two pointsets can be conceptualized by a compactly supported scalar field over the 6D non-Euclidean configuration space. Explicit representation and computation of this field is costly in both time and space. If we fix $O(m)$ sparsely sampled rotations (e.g., tool orientations), computation of the collision measure field as a convolution of indicator functions of the 3D pointsets over a uniform grid (i.e., voxelized geometry) of resolution $O(n^3)$ via fast Fourier transforms (FFTs) scales as in $O(mn^3 \log n)$ in time and $O(mn^3)$ in space. In this paper, we develop an implicit representation of the collision measure field via deep neural networks (DNNs). We show that our approach is able to accurately interpolate the collision measure from a sparse sampling of rotations, and can represent the collision measure field with a small memory footprint. Moreover, we show that this representation can be efficiently updated through fine-tuning to more efficiently train the network on multi-resolution data, as well as accommodate incremental changes to the geometry (such as might occur in iterative processes such as topology optimization of the part subject to CNC tool accessibility constraints).
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# ブロックチェーン技術の発展におけるトランスフォーマーモデルの役割:システム調査

The Role of Transformer Models in Advancing Blockchain Technology: A Systematic Survey ( http://arxiv.org/abs/2409.02139v2 )

ライセンス: Link先を確認
Tianxu Liu, Yanbin Wang, Jianguo Sun, Ye Tian, Yanyu Huang, Tao Xue, Peiyue Li, Yiwei Liu, (参考訳) ブロックチェーン技術が急速に進化するにつれて、効率性、セキュリティ、スケーラビリティの向上に対する需要が増加し、トランスフォーマーモデルは、強力なディープラーニングアーキテクチャとして、さまざまなブロックチェーン課題に対処する上で、前例のない可能性を示している。 しかし、ブロックチェーンにおけるTransformerアプリケーションの体系的なレビューには欠けている。 本稿では、200以上の関連論文を調査し、ブロックチェーンアプリケーションにおけるTransformerの実践事例と研究の進捗を包括的にレビューすることで、この研究ギャップを埋めることを目的としている。 本調査では,異常検出,スマートコントラクトセキュリティ分析,暗号通貨の予測とトレンド分析,コード要約生成などの主要領域について検討した。 さまざまなブロックチェーンドメインにわたるトランスフォーマーの進歩を明確にするために、ドメイン指向の分類システムを採用し、現在のブロックチェーン研究における大きな課題に基づいた代表的なメソッドを編成、導入しています。 各研究領域について、まず、その背景と目的を紹介し、次に、従来の代表的手法をレビューし、それらの制限を分析し、最後にTransformerモデルによってもたらされた進歩を紹介します。 さらに,データプライバシやモデル複雑性,リアルタイム処理要件など,Transformerを活用する上での課題についても検討する。 最後に、この記事では、特定のブロックチェーンアプリケーションに適応するために、Transformerアーキテクチャを深く探求することの重要性を強調し、ブロックチェーンテクノロジの発展を促進するその役割について論じる。 このレビューは、ブロックチェーン技術と機械学習の統合開発のための新しい視点と研究基盤を提供することを目的としており、ブロックチェーン技術のさらなる革新とアプリケーション拡張をサポートする。

As blockchain technology rapidly evolves, the demand for enhanced efficiency, security, and scalability grows.Transformer models, as powerful deep learning architectures,have shown unprecedented potential in addressing various blockchain challenges. However, a systematic review of Transformer applications in blockchain is lacking. This paper aims to fill this research gap by surveying over 200 relevant papers, comprehensively reviewing practical cases and research progress of Transformers in blockchain applications. Our survey covers key areas including anomaly detection, smart contract security analysis, cryptocurrency prediction and trend analysis, and code summary generation. To clearly articulate the advancements of Transformers across various blockchain domains, we adopt a domain-oriented classification system, organizing and introducing representative methods based on major challenges in current blockchain research. For each research domain,we first introduce its background and objectives, then review previous representative methods and analyze their limitations,and finally introduce the advancements brought by Transformer models. Furthermore, we explore the challenges of utilizing Transformer, such as data privacy, model complexity, and real-time processing requirements. Finally, this article proposes future research directions, emphasizing the importance of exploring the Transformer architecture in depth to adapt it to specific blockchain applications, and discusses its potential role in promoting the development of blockchain technology. This review aims to provide new perspectives and a research foundation for the integrated development of blockchain technology and machine learning, supporting further innovation and application expansion of blockchain technology.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 高次元HGPと重み付き量子LDPC符号の有効距離

Effective Distance of Higher Dimensional HGPs and Weight-Reduced Quantum LDPC Codes ( http://arxiv.org/abs/2409.02193v2 )

ライセンス: Link先を確認
Shi Jie Samuel Tan, Lev Stambler, (参考訳) 量子誤り訂正は量子計算の実現において顕著な役割を果たし、量子低密度パリティチェック(qLDPC)符号は事実上有用な安定化符号であると考えられている。 qLDPC符号は一定重みのパリティチェックを持つと定義されているが、これらのパリティチェックの重みは、これらの符号の実装を困難にする大きな定数である可能性がある。 大きな定数は、長いシンドローム抽出時間と、エラー訂正性能に影響を及ぼす悪いエラー伝播をもたらす。 Hastingsは最近、qLDPC符号の重量削減技術を導入し、パリティチェックの重量を減らし、任意のデータキュービットに作用する最大チェック数を減らした。 しかし、これらの手法の耐障害性は未解決の問題である。 本稿では,単一アンシラシンドローム抽出回路が誤り訂正のために考慮されている場合の重み付き符号の有効距離を解析する。 重み付きqLDPC符号の有効距離を保った単一アンシラシンドローム抽出回路が存在することが証明された。 また,Evraらによって導入された距離バランス技術は有効距離を保っていることを示す。 その結果,高次元ハイパーグラフ (HGP) 符号(ホモロジー積符号とも呼ばれる)は, 単一アンシラシンドローム抽出回路を用いた場合, 異常なフック誤差を伴わないことがわかった。

Quantum error correction plays a prominent role in the realization of quantum computation, and quantum low-density parity-check (qLDPC) codes are believed to be practically useful stabilizer codes. While qLDPC codes are defined to have constant weight parity-checks, the weight of these parity checks could be large constants that make implementing these codes challenging. Large constants can also result in long syndrome extraction times and bad error propagation that can impact error correction performance. Hastings recently introduced weight reduction techniques for qLDPC codes that reduce the weight of the parity checks as well as the maximum number of checks that acts on any data qubit. However, the fault tolerance of these techniques remains an open question. In this paper, we analyze the effective distance of the weight-reduced code when single-ancilla syndrome extraction circuits are considered for error correction. We prove that there exists single-ancilla syndrome extraction circuits that largely preserve the effective distance of the weight-reduced qLDPC codes. In addition, we also show that the distance balancing technique introduced by Evra et al. preserves effective distance. As a corollary, our result shows that higher-dimensional hypergraph product (HGP) codes, also known as homological product codes corresponding to the product of 1-complexes, have no troublesome hook errors when using any single-ancilla syndrome extraction circuit.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# ASRのための最適輸送に基づくクロスモーダル知識伝達学習のための時間次保存

Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR ( http://arxiv.org/abs/2409.02239v2 )

ライセンス: Link先を確認
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai, (参考訳) 事前訓練された言語モデル(PLM)から音響モデルに言語知識を移すことにより,自動音声認識(ASR)の性能を大幅に向上させることが示されている。 しかし, 異質な特徴分布が多様であることから, 特徴アライメントの効果的なモデルの設計や, 言語的および音響的シーケンス間の知識伝達が困難な課題である。 確率分布の不一致を効率的に測定する最適輸送(OT)は、音響と言語間の知識の整合と伝達に大きな可能性を秘めている。 それでも、元のOTは、音響的特徴列と言語的特徴列をアライメントにおいて2つの非順序集合として扱い、OT結合推定中に時間的順序情報を無視する。 その結果、音響的表現と言語的表現の整合性を学習するためには、時間を要する事前学習段階が必要である。 本稿では、ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。 TOT-CAKTでは、音響シーケンスの局所的な隣接フレームを言語シーケンスの隣接領域に滑らかにマッピングし、特徴アライメントとマッチングにおける時間的順序関係を保存する。 TOT-CAKTモデルフレームワークを用いて,言語知識伝達のための中国語PLMを用いたマンダリンASR実験を行う。 提案したTOT-CAKTは,言語知識伝達を用いたいくつかの最先端モデルと比較してASR性能を著しく向上し,ASRの逐次的特徴アライメントにおけるOTベースの手法の弱点に対処することを示した。

Transferring linguistic knowledge from a pretrained language model (PLM) to an acoustic model has been shown to greatly improve the performance of automatic speech recognition (ASR). However, due to the heterogeneous feature distributions in cross-modalities, designing an effective model for feature alignment and knowledge transfer between linguistic and acoustic sequences remains a challenging task. Optimal transport (OT), which efficiently measures probability distribution discrepancies, holds great potential for aligning and transferring knowledge between acoustic and linguistic modalities. Nonetheless, the original OT treats acoustic and linguistic feature sequences as two unordered sets in alignment and neglects temporal order information during OT coupling estimation. Consequently, a time-consuming pretraining stage is required to learn a good alignment between the acoustic and linguistic representations. In this paper, we propose a Temporal Order Preserved OT (TOT)-based Cross-modal Alignment and Knowledge Transfer (CAKT) (TOT-CAKT) for ASR. In the TOT-CAKT, local neighboring frames of acoustic sequences are smoothly mapped to neighboring regions of linguistic sequences, preserving their temporal order relationship in feature alignment and matching. With the TOT-CAKT model framework, we conduct Mandarin ASR experiments with a pretrained Chinese PLM for linguistic knowledge transfer. Our results demonstrate that the proposed TOT-CAKT significantly improves ASR performance compared to several state-of-the-art models employing linguistic knowledge transfer, and addresses the weaknesses of the original OT-based method in sequential feature alignment for ASR.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 大規模言語モデルと認知科学 : 類似性・相違・課題の包括的考察

Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges ( http://arxiv.org/abs/2409.02387v2 )

ライセンス: Link先を確認
Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen, (参考訳) この総合的なレビューでは、LLMと人間の認知過程の類似点と相違点について、Large Language Models(LLM)と認知科学の交わりについて考察する。 我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。 このレビューでは、認知科学研究で得られた知見を取り上げ、様々な認知分野におけるLLMの応用を取り上げている。 我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。 LLMと認知アーキテクチャの統合について検討し、人工知能(AI)能力を向上するための有望な道を明らかにする。 主要な課題と今後の研究方向が特定され、人間の認知とよりよく整合するLLMの継続的な改良の必要性を強調している。 このレビューは、人工知能と人間の知性の両方の理解を深める上で、LLMの現状と将来の可能性について、バランスのとれた視点を提供する。

This comprehensive review explores the intersection of Large Language Models (LLMs) and cognitive science, examining similarities and differences between LLMs and human cognitive processes. We analyze methods for evaluating LLMs cognitive abilities and discuss their potential as cognitive models. The review covers applications of LLMs in various cognitive fields, highlighting insights gained for cognitive science research. We assess cognitive biases and limitations of LLMs, along with proposed methods for improving their performance. The integration of LLMs with cognitive architectures is examined, revealing promising avenues for enhancing artificial intelligence (AI) capabilities. Key challenges and future research directions are identified, emphasizing the need for continued refinement of LLMs to better align with human cognition. This review provides a balanced perspective on the current state and future potential of LLMs in advancing our understanding of both artificial and human intelligence.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# オンライン(MIMO-)ディープレセビアにおける移動型逆襲攻撃

Transfer-based Adversarial Poisoning Attacks for Online (MIMO-)Deep Receviers ( http://arxiv.org/abs/2409.02430v2 )

ライセンス: Link先を確認
Kunze Wu, Weiheng Jiang, Dusit Niyato, Yinghuan Li, Chuang Luo, (参考訳) 近年,ディープニューラルネットワーク(DNN)を用いた無線受信機の設計が注目されている。 動的チャネルに迅速に適応するために、オンライン学習が採用され、深層受信機の重量をオーバーザエアデータ(パイロットなど)で更新する。 しかし、ニューラルネットワークの脆弱さと無線チャネルのオープンさは、これらのシステムを悪意のある攻撃に晒す。 この目的のために、ロバストレシーバ設計にはこれらの攻撃方法を理解することが不可欠である。 本稿では, オンライン受信機に対する移動型敵害攻撃手法を提案する。攻撃対象の知識がなければ, 敵害をパイロットに注入し, オンラインディープ受信機を害し, 動的チャネルや非線形効果に適応する能力に障害を与える。 特に,オンラインメタ学習を用いてDeep Soft Interference Cancellation (DeepSIC)[1]を攻撃対象とする。 古典的なモデル駆動のディープレシーバーとして、DeepSICはアーキテクチャに無線のドメイン知識を取り入れている。 この統合により、少数のパイロットしか持たない時間変化チャネルに効率よく適応でき、マルチインプットおよびマルチアウトプット(MIMO)シナリオで最適な性能を達成できる。このシナリオのディープレシーバーは、無線通信分野における多くの応用を持ち、それをターゲットにした攻撃方法の研究を動機付け、合成線形、合成非線形、静的、COST2100チャネルのシミュレーションにおける攻撃の有効性を実証する。 シミュレーションの結果, 提案した毒殺攻撃は, 急速に変化するシナリオにおいて, オンライン受信機の性能を著しく低下させることが示された。

Recently, the design of wireless receivers using deep neural networks (DNNs), known as deep receivers, has attracted extensive attention for ensuring reliable communication in complex channel environments. To adapt quickly to dynamic channels, online learning has been adopted to update the weights of deep receivers with over-the-air data (e.g., pilots). However, the fragility of neural models and the openness of wireless channels expose these systems to malicious attacks. To this end, understanding these attack methods is essential for robust receiver design. In this paper, we propose a transfer-based adversarial poisoning attack method for online receivers.Without knowledge of the attack target, adversarial perturbations are injected to the pilots, poisoning the online deep receiver and impairing its ability to adapt to dynamic channels and nonlinear effects. In particular, our attack method targets Deep Soft Interference Cancellation (DeepSIC)[1] using online meta-learning. As a classical model-driven deep receiver, DeepSIC incorporates wireless domain knowledge into its architecture. This integration allows it to adapt efficiently to time-varying channels with only a small number of pilots, achieving optimal performance in a multi-input and multi-output (MIMO) scenario.The deep receiver in this scenario has a number of applications in the field of wireless communication, which motivates our study of the attack methods targeting it.Specifically, we demonstrate the effectiveness of our attack in simulations on synthetic linear, synthetic nonlinear, static, and COST 2100 channels. Simulation results indicate that the proposed poisoning attack significantly reduces the performance of online receivers in rapidly changing scenarios.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 周辺同定のための逐次意思決定モデル

A Sequential Decision-Making Model for Perimeter Identification ( http://arxiv.org/abs/2409.02549v2 )

ライセンス: Link先を確認
Ayal Taitler, (参考訳) 周囲の識別は、指定された領域またはゾーンの境界を確認し、トラフィックフローの監視、制御、最適化を必要とする。 これらの範囲を正確に定義するためには様々な手法や技術が存在するが、効率的な問題記述のためには、専門的な機器、正確なマッピング、包括的なデータを必要とすることが多い。 本研究では,リアルタイムに効率的に動作し,公開情報のみを必要とする周辺探索のためのシーケンシャルな意思決定フレームワークを提案する。 エージェントの目的は、現在の周辺を逐次改善することで最適な周辺を識別することである。 ゲームモデルについて詳述し、最適周波の定義を決定する際の適応性について論じる。 最終的に、実世界のシナリオを通してモデルの有効性を示し、対応する最適周波の同定を強調した。

Perimeter identification involves ascertaining the boundaries of a designated area or zone, requiring traffic flow monitoring, control, or optimization. Various methodologies and technologies exist for accurately defining these perimeters; however, they often necessitate specialized equipment, precise mapping, or comprehensive data for effective problem delineation. In this study, we propose a sequential decision-making framework for perimeter search, designed to operate efficiently in real-time and require only publicly accessible information. We conceptualize the perimeter search as a game between a playing agent and an artificial environment, where the agent's objective is to identify the optimal perimeter by sequentially improving the current perimeter. We detail the model for the game and discuss its adaptability in determining the definition of an optimal perimeter. Ultimately, we showcase the model's efficacy through a real-world scenario, highlighting the identification of corresponding optimal perimeters.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# Loopy: 長期動作依存によるオーディオ駆動型ポートレートアバターのモデリング

Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency ( http://arxiv.org/abs/2409.02634v2 )

ライセンス: Link先を確認
Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng, (参考訳) 近年,拡散型映像生成技術の導入により,映像の自然さと肖像画の細部合成の両面で大きなブレークスルーを遂げている。 人間の動きを駆動する際の音声信号の制御が限られているため、既存の手法では運動を安定させるために補助的な空間信号を加えることが多く、運動の自然性と自由を損なう可能性がある。 本稿では,Loopyという,エンドツーエンドのオーディオ専用条件付きビデオ拡散モデルを提案する。 具体的には,データから長期動作情報を活用し,自然な動きパターンを学習し,音声と画像の移動相関を改善するために,クリップ内時間モジュールとオーディオ-音声間の時間モジュールを設計した。 この方法では、既存の手法で使われている手動の空間的動きテンプレートが、推論中の動きを制限する必要がなくなる。 大規模な実験によると、Loopyは近年のオーディオ駆動のポートレート拡散モデルより優れており、様々なシナリオでより生き生きとした高品質な結果をもたらす。

With the introduction of diffusion-based video generation techniques, audio-conditioned human video generation has recently achieved significant breakthroughs in both the naturalness of motion and the synthesis of portrait details. Due to the limited control of audio signals in driving human motion, existing methods often add auxiliary spatial signals to stabilize movements, which may compromise the naturalness and freedom of motion. In this paper, we propose an end-to-end audio-only conditioned video diffusion model named Loopy. Specifically, we designed an inter- and intra-clip temporal module and an audio-to-latents module, enabling the model to leverage long-term motion information from the data to learn natural motion patterns and improving audio-portrait movement correlation. This method removes the need for manually specified spatial motion templates used in existing methods to constrain motion during inference. Extensive experiments show that Loopy outperforms recent audio-driven portrait diffusion models, delivering more lifelike and high-quality results across various scenarios.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# 英語) OpenFact at CheckThat! 2024: Multiple Attack Methods for Effective Adversarial Text Generation (英語)

OpenFact at CheckThat! 2024: Combining Multiple Attack Methods for Effective Adversarial Text Generation ( http://arxiv.org/abs/2409.02649v2 )

ライセンス: Link先を確認
Włodzimierz Lewoniewski, Piotr Stolarski, Milena Stróżyna, Elzbieta Lewańska, Aleksandra Wojewoda, Ewelina Księżniak, Marcin Sawiński, (参考訳) 本稿では,CheckThatの実験結果を紹介する。 CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE) 本研究の主な目的は,信頼性評価問題に適用した場合に広く用いられているテキスト分類手法(細調整BERT, BiLSTM, RoBERTa)の堅牢性を評価するために, 5つの問題領域における逆例を生成することである。 本研究では,自然言語処理(NLP)モデルに対する敵対的攻撃を強化するために,アンサンブル学習の適用について検討する。 我々は,様々な誤情報タスクの5つのデータセットに対して,BERT-Attack,遺伝的アルゴリズム,TextFooler,CLAREなどの敵攻撃手法を体系的に検証し,改良した。 BERT-Attackおよびハイブリッド手法の修正版を開発することにより,攻撃効率を大幅に向上した。 本研究は,より高度で効果的な敵攻撃戦略を構築するために,複数の手法を改良・組み合わせることの可能性を示し,より堅牢でセキュアなシステムの開発に寄与する。

This paper presents the experiments and results for the CheckThat! Lab at CLEF 2024 Task 6: Robustness of Credibility Assessment with Adversarial Examples (InCrediblAE). The primary objective of this task was to generate adversarial examples in five problem domains in order to evaluate the robustness of widely used text classification methods (fine-tuned BERT, BiLSTM, and RoBERTa) when applied to credibility assessment issues. This study explores the application of ensemble learning to enhance adversarial attacks on natural language processing (NLP) models. We systematically tested and refined several adversarial attack methods, including BERT-Attack, Genetic algorithms, TextFooler, and CLARE, on five datasets across various misinformation tasks. By developing modified versions of BERT-Attack and hybrid methods, we achieved significant improvements in attack effectiveness. Our results demonstrate the potential of modification and combining multiple methods to create more sophisticated and effective adversarial attack strategies, contributing to the development of more robust and secure systems.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# ポーリングと注意: LLMベースの埋め込みモデルに効果的な設計は何か?

Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? ( http://arxiv.org/abs/2409.02727v2 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, (参考訳) ジェネレーティブタスクにおける大規模言語モデル(LLM)の大幅な進歩は、LLMベースの埋め込みモデルを探究する活動の活発化に繋がった。 これらのモデルは、様々なプーリングとアテンション戦略を採用し、公開埋め込みベンチマークで最先端のパフォーマンスを達成したが、LLMベースの埋め込みモデルにとって効果的な設計は何かという疑問が残る。 しかしながら、これらのモデルは、異なるLLMベースモデルやトレーニング設定を使用して、異なるデータセットでトレーニングされることが多い。 さらに、公開埋め込みベンチマークの評価では、しばしば統計的意義を報告できず、どの設計が最終的な性能に本当に貢献するかを判断することが困難である。 これは、LCMベースの埋め込みモデルのための最適なトレーニングレシピを求める実践者にとって、複雑なプロセスである。 本研究では,同じトレーニングデータとベースモデルを用いて,LLMをベースとした一連の埋め込みモデルをトレーニングすることで,大規模な実験を行う。 双方向の注意と追加のトレーニング可能なプーリング層は、テキスト類似性や情報検索タスクよりも優れているが、EOS-lastトークンプーリングやクラスタリングや分類タスクにおけるデフォルト因果的注意など、より単純な設計をはるかに上回っているわけではない。 さらに,最後の層に留まらず,すべての隠蔽層から出力を変換するマルチ層学習型プール方式を提案する。 この手法は,既存のプーリング法と比較して,テキスト類似性や検索タスクにおいて統計的に優れていることを示す。 本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について概説する。

The significant advancements of Large Language Models (LLMs) in generative tasks have led to a growing body of work exploring LLM-based embedding models. While these models, employing different pooling and attention strategies, have achieved state-of-the-art performance on public embedding benchmarks, questions still arise about what constitutes an effective design for LLM-based embedding models. However, these models are often trained on different datasets, using different LLM base models or training settings. Moreover, evaluations on public embedding benchmarks often fail to report statistical significance, making it difficult to determine which designs truly contribute to final performance. This complicates the process for practitioners seeking optimal training recipes for LLM-based embedding models. In this study, we conduct a large-scale experiment by training a series of LLM-based embedding models using the same training data and base model but differing in their pooling and attention strategies. The results show that there is no one-size-fits-all solution: while bidirectional attention and an additional trainable pooling layer outperform in text similarity and information retrieval tasks, they do not significantly surpass simpler designs like EOS-last token pooling and default causal attention in clustering and classification tasks. Furthermore, we propose a new pooling strategy, Multi-Layers Trainable Pooling, which transforms the outputs of all hidden layers, rather than just the last layer, using a cross-attention network. This method proves to be statistically superior in text similarity and retrieval tasks compared to existing pooling methods. Overall, this paper sheds light on effective training strategies for LLM-based embedding models.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05
# LongCite:Lum-context QAにおける微粒化生成のためのLLMの導入

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA ( http://arxiv.org/abs/2409.02897v2 )

ライセンス: Link先を確認
Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li, (参考訳) 現在のLong-Context Large Language Model (LLM) は、広範囲なテキストに基づいてユーザーの質問に答える能力が顕著であることを示しているが、その回答に引用がないことは、ユーザの検証を困難にしており、彼らの幻覚の可能性を懸念している。 本研究では,長文LLMが文レベルのきめ細かな引用で応答を生成できるようにし,その忠実さと妥当性を向上させることを目的とする。 最初にLongBench-Citeを紹介した。これはLong-Context Question Answering with Citations (LQAC)において、現在のLLMのパフォーマンスを評価するための自動ベンチマークであり、改善の余地があることを明らかにする。 そこで本研究では,LQAC用の大規模SFTデータセットであるLongCite-45kを構築するために,LongCite-45kを構築するために,既製のLLMを用いて,文レベルの精度の高い長文QAインスタンスを自動的に生成する新しいパイプラインであるCoF(Coarse to Fine)を提案する。 最後に,LongCite-45kデータセットを用いてLongCite-8BとLongCite-9Bをトレーニングし,精度の高い応答生成と文レベルのきめ細かい引用を単一出力で実現する。 また,LongBench-Citeの評価結果から,GPT-4oを含む先進的なプロプライエタリモデルを上回る,最先端の励磁品質が得られることが示された。

Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
翻訳日:2024-09-06 12:05:46 公開日:2024-09-05