このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240702となっている論文です。

PDF登録状況(公開日: 20240702)

TitleAuthorsAbstract論文公表日・翻訳日
# 標的分子生成のための遅延進化最適化の活用

Leveraging Latent Evolutionary Optimization for Targeted Molecule Generation ( http://arxiv.org/abs/2407.13779v1 )

ライセンス: Link先を確認
Siddartha Reddy N, Sai Prakash MV, Varun V, Vishal Vaddina, Saisubramaniam Gopalakrishnan, (参考訳) 鉛の最適化は、医薬品発見ライフサイクルにおける医薬品設計段階における重要な課題である。 主目的は、次の発達段階に進むための特定の分子特性を満たすために鉛化合物を精製することである。 本稿では,分子の効率的な生成のための生成モデルフレームワークLEOMol(Latent Evolutionary Optimization for Molecule Generation)を提案する。 LEOMolは遺伝的アルゴリズムや微分進化などの進化的アルゴリズムを利用して、変分オートエンコーダ(VAE)の潜伏空間を探索する。 この探索は、潜在空間内の標的分子分布の同定を容易にする。 提案手法は, 従来の最先端モデルと比較して, 制約された分子生成タスクの範囲で優れた性能を示し, プロパティターゲティングに関連する4つのサブタスクすべてにおいて, 既存モデルよりも優れた性能を示す。 また, 生成モデルの評価に毒性を含めることの重要性も示唆した。 さらに、アブレーション研究は、勾配に基づく潜在空間最適化法よりも、我々のアプローチがもたらす改善を裏付けるものである。 このことは、制限された分子生成における固有の課題に対処する上でのLEOMolの有効性と優越性を浮き彫りにしつつ、薬物発見の進歩を促進する可能性を強調している。

Lead optimization is a pivotal task in the drug design phase within the drug discovery lifecycle. The primary objective is to refine the lead compound to meet specific molecular properties for progression to the subsequent phase of development. In this work, we present an innovative approach, Latent Evolutionary Optimization for Molecule Generation (LEOMol), a generative modeling framework for the efficient generation of optimized molecules. LEOMol leverages Evolutionary Algorithms, such as Genetic Algorithm and Differential Evolution, to search the latent space of a Variational AutoEncoder (VAE). This search facilitates the identification of the target molecule distribution within the latent space. Our approach consistently demonstrates superior performance compared to previous state-of-the-art models across a range of constrained molecule generation tasks, outperforming existing models in all four sub-tasks related to property targeting. Additionally, we suggest the importance of including toxicity in the evaluation of generative models. Furthermore, an ablation study underscores the improvements that our approach provides over gradient-based latent space optimization methods. This underscores the effectiveness and superiority of LEOMol in addressing the inherent challenges in constrained molecule generation while emphasizing its potential to propel advancements in drug discovery.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-02
# 遅延空間RL微細構造を持つ小分子のタンパク質標的への生成モデル

Generative Model for Small Molecules with Latent Space RL Fine-Tuning to Protein Targets ( http://arxiv.org/abs/2407.13780v1 )

ライセンス: Link先を確認
Ulrich A. Mbou Sob, Qiulin Li, Miguel Arbesú, Oliver Bent, Andries P. Smit, Arnu Pretorius, (参考訳) 分子生成のためのディープラーニングアプローチにおける特定の課題は、構文的に有効かつ化学的に妥当な分子文字列表現を生成することである。 そこで本研究では,SAFEと呼ばれる分子列表現を利用した,小型分子に対する新規な潜在変数トランスフォーマモデルを提案する。 トレーニング中に発生する無効な断片化分子の数を減らすため,SAFEの修正を導入し,これをモデルトレーニングに利用した。 実験の結果, 潜在空間からのサンプリングにより, 有効度90%, フラグメンテーション率1%の新規分子を生成できることがわかった。 分子ドッキングを改善するために強化学習を用いてモデルを微調整することにより、トレーニング済みモデルと比較して5つの特定のタンパク質標的に対するヒット候補数を有意に増加させ、特定のターゲットに対してほぼ倍増させる。 さらに、私たちの上位5%はドッキングスコアが現在のSOTA(State-of-the-art)と同等であり、5つのターゲットのうち3つでSOTAを上回っています。

A specific challenge with deep learning approaches for molecule generation is generating both syntactically valid and chemically plausible molecular string representations. To address this, we propose a novel generative latent-variable transformer model for small molecules that leverages a recently proposed molecular string representation called SAFE. We introduce a modification to SAFE to reduce the number of invalid fragmented molecules generated during training and use this to train our model. Our experiments show that our model can generate novel molecules with a validity rate > 90% and a fragmentation rate < 1% by sampling from a latent space. By fine-tuning the model using reinforcement learning to improve molecular docking, we significantly increase the number of hit candidates for five specific protein targets compared to the pre-trained model, nearly doubling this number for certain targets. Additionally, our top 5% mean docking scores are comparable to the current state-of-the-art (SOTA), and we marginally outperform SOTA on three of the five targets.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-02
# 予測同時解釈:リアルタイム多言語コミュニケーションの民主化のための大規模言語モデルの構築

Predictive Simultaneous Interpretation: Harnessing Large Language Models for Democratizing Real-Time Multilingual Communication ( http://arxiv.org/abs/2407.14269v1 )

ライセンス: Link先を確認
Kurando Iida, Kenjiro Mimura, Nobuo Ito, (参考訳) 本研究では,Large Language Models (LLMs) の予測能力を直接活用することにより,同時解釈のための画期的なアプローチを提案する。 本稿では,話者発話を予測し,木のような構造で複数の可能性を拡張することによって,リアルタイム翻訳を生成する新しいアルゴリズムを提案する。 この方法は前例のない柔軟性と適応性を示し、既存のシステムよりも効率的に言語間の構造的差異を克服する可能性がある。 我々の理論的分析は、実証的な例によって支持されており、このアプローチが最小のレイテンシでより自然で流動的な翻訳につながることを示唆している。 本研究の主な目的は,この革新的な概念を学術界と共有し,さらなる研究・開発を促進することである。 本手法の理論的基礎,潜在的な利点,実装上の課題について論じ,多言語コミュニケーションの民主化に向けた重要なステップとして位置づける。

This study introduces a groundbreaking approach to simultaneous interpretation by directly leveraging the predictive capabilities of Large Language Models (LLMs). We present a novel algorithm that generates real-time translations by predicting speaker utterances and expanding multiple possibilities in a tree-like structure. This method demonstrates unprecedented flexibility and adaptability, potentially overcoming the structural differences between languages more effectively than existing systems. Our theoretical analysis, supported by illustrative examples, suggests that this approach could lead to more natural and fluent translations with minimal latency. The primary purpose of this paper is to share this innovative concept with the academic community, stimulating further research and development in this field. We discuss the theoretical foundations, potential advantages, and implementation challenges of this technique, positioning it as a significant step towards democratizing multilingual communication.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-02
# ユニバーサル近似理論:深層学習に基づくコンピュータビジョンモデルの基礎理論

Universal Approximation Theory: The basic theory for deep learning-based computer vision models ( http://arxiv.org/abs/2407.17480v1 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) コンピュータビジョン(CV)は人工知能において最も重要な分野の一つである。 近年,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づく様々なディープラーニングモデルが,CVの多様な問題に対処するために設計されている。 これらのアルゴリズムはロボット工学や顔認識などの分野で実用化されている。 現在のCVモデルのパワーの増大にもかかわらず、いくつかの根本的な疑問は未解決のままである。 CNNの一般化能力はどうなるのか? なぜ残差ベースのネットワークはVGGのような完全な畳み込みネットワークを上回るのか? 残差ベースのCNNとTransformerベースのネットワークの根本的な違いは何ですか? なぜCNNはLoRAとプルーニング技術を利用するのか? これらの疑問の根本原因は、CVにおけるディープラーニングモデルのための堅牢な理論的基盤が欠如していることにある。 これらの重要な問題と技術に対処するため、CVにおける畳み込みモデルとトランスフォーマーモデルの理論基盤を提供するためにユニバーサル近似定理(UAT)を用いる。 そこで我々は,これらの疑問を理論的観点から解明することを目指す。

Computer vision (CV) is one of the most crucial fields in artificial intelligence. In recent years, a variety of deep learning models based on convolutional neural networks (CNNs) and Transformers have been designed to tackle diverse problems in CV. These algorithms have found practical applications in areas such as robotics and facial recognition. Despite the increasing power of current CV models, several fundamental questions remain unresolved: Why do CNNs require deep layers? What ensures the generalization ability of CNNs? Why do residual-based networks outperform fully convolutional networks like VGG? What is the fundamental difference between residual-based CNNs and Transformer-based networks? Why can CNNs utilize LoRA and pruning techniques? The root cause of these questions lies in the lack of a robust theoretical foundation for deep learning models in CV. To address these critical issues and techniques, we employ the Universal Approximation Theorem (UAT) to provide a theoretical basis for convolution- and Transformer-based models in CV. By doing so, we aim to elucidate these questions from a theoretical perspective.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-02
# 人工知能の人間監督と技術標準化

Human Oversight of Artificial Intelligence and Technical Standardisation ( http://arxiv.org/abs/2407.17481v1 )

ライセンス: Link先を確認
Marion Ho-Dac, Baptiste Martinez, (参考訳) 人間の監視手段の採用により、人工知能(AI)システムの意思決定プロセス(例えば、システムの監督を担当する人間を配置し、その監視を可能にするAIシステムを開発するなど)を規制し、さまざまな方法で制御することが可能となる。 AIのグローバルガバナンスの中で、人間の監視の要件は、規範的なソースの多様性の中で、いくつかの規制形式に具体化されている。 一方、AIシステムのユーザ(例えば、特定のチェックを実行することを要求する)の説明責任を強化し、一方、AIベースの決定によって影響を受ける個人(例えば、決定のレビューを要求すること)をよりよく保護する。 欧州の文脈では、AI法は、高リスクなAIシステムの提供者(および、デプロイ者として知られるこれらのシステムのプロのユーザもある程度)に義務を課し、設計(およびデプロイ者による実装)を含むAIシステムのライフサイクルを通じて人間の監視ツールを導入する。 そのため、欧州連合(EU)の立法府は、人間の監督に対する法的要件を「取り除く」ために、過去よりもはるかに進んでいる。 しかし、すべての実装の詳細を提供するつもりはなく、AI法第40条に基づき、技術的にこの要件(および第3章第2節の要件を広く含む)を標準化するよう求めている。 この多段階規制の文脈では、AI意思決定プロセスにおける人間の位置に関する疑問が特に注目されるべきである。 実際、人間の監視の輪郭を規定する法や技術基準によって、AIの「規制的ガバナンス」はその性質、内容、範囲が異なる。 この分析は、人間の監視とAIの信頼性を確実にする上で、最も適切な規制ガバナンス -- 制度の形式と実体の両方の観点から -- に対する中心的な考察に対して、法律の専門家によってなされた(あるいはなされるべき)貢献の核心にある。

The adoption of human oversight measures makes it possible to regulate, to varying degrees and in different ways, the decision-making process of Artificial Intelligence (AI) systems, for example by placing a human being in charge of supervising the system and, upstream, by developing the AI system to enable such supervision. Within the global governance of AI, the requirement for human oversight is embodied in several regulatory formats, within a diversity of normative sources. On the one hand, it reinforces the accountability of AI systems' users (for example, by requiring them to carry out certain checks) and, on the other hand, it better protects the individuals affected by the AI-based decision (for example, by allowing them to request a review of the decision). In the European context, the AI Act imposes obligations on providers of high-risk AI systems (and to some extent also on professional users of these systems, known as deployers), including the introduction of human oversight tools throughout the life cycle of AI systems, including by design (and their implementation by deployers). The EU legislator is therefore going much further than in the past in "spelling out" the legal requirement for human oversight. But it does not intend to provide for all implementation details; it calls on standardisation to technically flesh out this requirement (and more broadly all the requirements of section 2 of chapter III) on the basis of article 40 of the AI Act. In this multi-level regulatory context, the question of the place of humans in the AI decision-making process should be given particular attention. Indeed, depending on whether it is the law or the technical standard that sets the contours of human oversight, the "regulatory governance" of AI is not the same: its nature, content and scope are different. This analysis is at the heart of the contribution made (or to be made) by legal experts to the central reflection on the most appropriate regulatory governance -- in terms of both its institutional format and its substance -- to ensure the effectiveness of human oversight and AI trustworthiness.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-02
# 人間からのフィードバックからの強化学習:誰が文化、誰が価値、誰がパースペクティブか?

Reinforcement Learning from Human Feedback: Whose Culture, Whose Values, Whose Perspectives? ( http://arxiv.org/abs/2407.17482v1 )

ライセンス: Link先を確認
Kristian González Barman, Simon Lohse, Henk de Regt, (参考訳) 我々は,LLHF(Reinforcement Learning from Human Feedback)における多元主義の認識的・倫理的優位性を,Large Language Models(LLM)の文脈で論じる。 社会認識学と科学の多元主義哲学に基づいて、RHLFをより人間のニーズに反応させる方法と、その過程での課題にどう対処できるかを提案する。 本稿は, LLM 開発を改善するための具体的, 実用的なステップ, 変化の議題で締めくくっている。

We argue for the epistemic and ethical advantages of pluralism in Reinforcement Learning from Human Feedback (RLHF) in the context of Large Language Models (LLM). Drawing on social epistemology and pluralist philosophy of science, we suggest ways in which RHLF can be made more responsive to human needs and how we can address challenges along the way. The paper concludes with an agenda for change, i.e. concrete, actionable steps to improve LLM development.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-02
# K-12におけるCS教育の取り組み : 農村部におけるGoogle CS4HSグラントプログラムの実践

Tackling CS education in K-12: Implementing a Google CS4HS Grant Program in a Rural Underserved Area ( http://arxiv.org/abs/2407.17483v1 )

ライセンス: Link先を確認
Sherri Harms, (参考訳) K-12教育システムにおけるコンピュータサイエンス(CS)の提供は、経験豊富な教師の不足によって制限されることが多い。 学歴の低い地域の教師がCSカリキュラムの開発を支援し、CSコースの認定を受けるのを助けることで、学歴の低い地域の若者がITキャリアの機会を認識し、大学レベルでのCS教育に備え、最終的に米国のIT労働赤字に対処するのに役立つ。 本稿では,農村部におけるGoogle CS4HS助成金の実施の成功と,プログラムの実装を通じて学んだ教訓について論じる。 実装の主な要素は、対面のハンズオンワークショップと、教師がCSの概念をカバーしたカリキュラムを学習し、開発するための7週間のオンラインサマーコースである。 教員は、カリキュラムを実践する一年間、オンラインの実践コミュニティで支援された。

Providing computer science (CS) offerings in the K-12 education system is often limited by the lack of experienced teachers, especially in small or rural underserved school districts. By helping teachers in underserved areas develop CS curriculum and helping them become certified to teach CS courses, more young people in underserved areas are aware of IT-career opportunities, and prepared for CS education at the university level, which ultimately helps tackle the IT workforce deficit in the United States. This paper discusses a successful implementation of a Google CS4HS grant to a rural underserved area, as well as lessons learned through the implementation of the program. Key elements in the implementation included a face-to-face hands-on workshop, followed by a seven week graduate-level online summer course for the teachers to learn and develop curriculum that covers the CS concepts they will be teaching. The teachers were supported with an online community of practice for the year as they implemented the curriculum.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-02
# アクセシブル・説明可能な人工知能研究に関する調査

A Survey of Accessible Explainable Artificial Intelligence Research ( http://arxiv.org/abs/2407.17484v1 )

ライセンス: Link先を確認
Chukwunonso Henry Nwokoye, Maria J. P. Peixoto, Akriti Pandey, Lauren Pardy, Mahadeo Sukhai, Peter R. Lewis, (参考訳) 人工知能(AI)の日常生活への統合が進むにつれ、障害のある人を含むすべてのユーザにとって理解しやすい方法で、AIベースの意思決定を説明することが不可欠になる。 アクセシブルな説明は、テクノロジーのアクセシビリティーがデジタル・インクルージョンを促進し、物理的、知覚的、認知的能力に関係なく、すべての人がこれらの技術を効果的に利用できるようにするために重要である。 本稿では、視覚障害者を対象とした説明可能な人工知能(XAI)のアクセシビリティに関する研究について、系統的な文献レビューを行う。 提案手法は,XAIとアクセシビリティーの交差点を捉えるために,いくつかの学術データベースを検索語で検索することを含む。 本調査の結果は、アクセシブルXAI(AXAI)研究の欠如を強調し、デジタル・インクルージョンとアクセシビリティの促進とバリアの除去のために、XAI開発に障害コミュニティを含めることの重要性を強調している。 ほとんどのXAI技術は、ヒートマップやグラフのような視覚的な説明に依存しており、盲目や視力の低い人にはアクセスできない。 したがって、聴覚や触覚フィードバック、視力の低い人にもアクセス可能な視覚的モダリティ、多障害者を含む個人のニーズを満たすパーソナライズされたソリューションなど、非視覚的モダリティによる説明方法を開発する必要がある。 AI開発プラクティスに普遍的な設計原則を統合することの重要性をさらに強調し、AIテクノロジが全員で利用可能であることを保証します。

The increasing integration of Artificial Intelligence (AI) into everyday life makes it essential to explain AI-based decision-making in a way that is understandable to all users, including those with disabilities. Accessible explanations are crucial as accessibility in technology promotes digital inclusion and allows everyone, regardless of their physical, sensory, or cognitive abilities, to use these technologies effectively. This paper presents a systematic literature review of the research on the accessibility of Explainable Artificial Intelligence (XAI), specifically considering persons with sight loss. Our methodology includes searching several academic databases with search terms to capture intersections between XAI and accessibility. The results of this survey highlight the lack of research on Accessible XAI (AXAI) and stress the importance of including the disability community in XAI development to promote digital inclusion and accessibility and remove barriers. Most XAI techniques rely on visual explanations, such as heatmaps or graphs, which are not accessible to persons who are blind or have low vision. Therefore, it is necessary to develop explanation methods through non-visual modalities, such as auditory and tactile feedback, visual modalities accessible to persons with low vision, and personalized solutions that meet the needs of individuals, including those with multiple disabilities. We further emphasize the importance of integrating universal design principles into AI development practices to ensure that AI technologies are usable by everyone.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-02
# リーマン幾何学に基づく知性と意識の数学的枠組み

A mathematical framework of intelligence and consciousness based on Riemannian Geometry ( http://arxiv.org/abs/2407.11024v1 )

ライセンス: Link先を確認
Meng Lu, (参考訳) 知性を理解することは神経科学、認知科学、人工知能の中心的な研究である。 知性は学習、問題解決、創造性、さらには意識まで含んでいる。 幾何解析の最近の進歩は、高次元情報表現と組織に対する新たな洞察を明らかにし、ニューラルシステムと人工システムにおける本質的なデータ構造と動的プロセスを明らかにする。 しかし、インテリジェンスの静的および動的側面を統一する包括的なフレームワークはまだ欠けている。 この写本は、知性と意識の構造と力学を記述するためにリーマン幾何学に基づく数学的枠組みを提案する。 知能要素は高次元空間に埋め込まれたトークンとして概念化される。 学習されたトークン埋め込みは、さまざまなシナリオやタスクにわたるトークンの相互接続をキャプチャし、インテリジェンス空間で多様体を形成する。 思考フローは、これらの多様体内の測地線に沿ったトークンの逐次活性化として描かれる。 測地学のナビゲーションにおいて、自己参照過程としての意識は思考の流れを知覚し、予測に対して評価し、予測誤差を通じてフィードバックを提供し、ジオデシックを調整する。 この動的相互作用は、新しい情報を統合し、幾何学を進化させ、学習を促進する。 知能の幾何学は意識を導き、意識は知能の幾何学を構造化する。 幾何学的概念を統合することにより、この理論は知性と意識の構造と力学を記述するための統一された数学的枠組みを提供する。 生物学的および人工知能に適用できるこの枠組みは、将来の研究と実証的な検証の道を開くかもしれない。

Understanding intelligence is a central pursuit in neuroscience, cognitive science, and artificial intelligence. Intelligence encompasses learning, problem-solving, creativity, and even consciousness. Recent advancements in geometric analysis have revealed new insights into high-dimensional information representation and organisation, exposing intrinsic data structures and dynamic processes within neural and artificial systems. However, a comprehensive framework that unifies the static and dynamic aspects of intelligence is still lacking. This manuscript proposes a mathematical framework based on Riemannian geometry to describe the structure and dynamics of intelligence and consciousness. Intelligence elements are conceptualised as tokens embedded in a high-dimensional space. The learned token embeddings capture the interconnections of tokens across various scenarios and tasks, forming manifolds in the intelligence space. Thought flow is depicted as the sequential activation of tokens along geodesics within these manifolds. During the navigation of geodesics, consciousness, as a self-referential process, perceives the thought flow, evaluates it against predictions, and provides feedback through prediction errors, adjusting the geodesic: non-zero prediction errors, such as learning, lead to the restructuring of the curved manifolds, thus changing the geodesic of thought flow. This dynamic interaction integrates new information, evolves the geometry and facilitates learning. The geometry of intelligence guides consciousness, and consciousness structures the geometry of intelligence. By integrating geometric concepts, this proposed theory offers a unified, mathematically framework for describing the structure and dynamics of intelligence and consciousness. Applicable to biological and artificial intelligence, this framework may pave the way for future research and empirical validation.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-02
# Noを言う技術:言語モデルにおける文脈的非コンプライアンス

The Art of Saying No: Contextual Noncompliance in Language Models ( http://arxiv.org/abs/2407.12043v1 )

ライセンス: Link先を確認
Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi, (参考訳) チャットベースの言語モデルは役に立つように設計されていますが、すべてのユーザ要求に準拠すべきではありません。 ほとんどの既存の作業は、主に"安全でない"クエリの拒否に焦点を当てていますが、非準拠の範囲を広げるべきです。 本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。 我々の分類は、(安全でない要求に加えて)不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリにまたがる。 言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。 既存のモデルでは、GPT-4のようなモデルが30%の要求に誤って従わなかった場合、すでに検討されているカテゴリにおいて、かなり高いコンプライアンス率を示すことが分かりました。 これらのギャップに対処するために、合成生成された要求と予測された非準拠応答を用いて、異なるトレーニング戦略を探索する。 提案実験は,命令調整モデルを直接微調整することで,過度な拒絶と一般能力の低下につながるが,低ランクアダプタのようなパラメータ効率のよい手法を用いることで,適切な非準拠性と他の機能とのバランスが整うことができることを示した。

Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of "unsafe" queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.
翻訳日:2024-07-22 11:20:27 公開日:2024-07-02
# メディケイト問合せのための軽量大言語モデル:Med-Pal

Lightweight Large Language Model for Medication Enquiry: Med-Pal ( http://arxiv.org/abs/2407.12822v1 )

ライセンス: Link先を確認
Kabilan Elangovan, Jasmine Chiat Ling Ong, Liyuan Jin, Benjamin Jun Jie Seng, Yu Heng Kwan, Lit Soo Tan, Ryan Jian Zhong, Justina Koi Li Ma, YuHe Ke, Nan Liu, Kathleen M Giacomini, Daniel Shu Wei Ting, (参考訳) 大規模言語モデル (LLMs) は、患者教育(一般的には薬物関連の問い合わせ)によるデジタルヘルス開発を支援する潜在的ソリューションとして浮上している。 Med-Palは,より小さいパラメータサイズ (70 億以下) の軽量オープンソース LLM を選抜し,計算制約を考慮し,操作効率を優先した,きめ細粒度で専門的なキュレートされたデータセットを微調整した医薬用ドメイン固有 LLM-Chatbot である。 multi-disciplinary team were performed a clinical evaluation of LLMs response using the SCORE criteria, focus on safety, accuracy, bias, reproducibility, and easy of understanding。 対向プロンプトを用いたガードレールによるさらなるエンジニアリングのために、軽量 LLM がメドパールとして選抜された。 Med-PalとMerkatを含む既存の軽量LCMは、14種類の異なる薬物のクラスで12種類の異なる質問タイプ(合計231種類)について、独立したデータセットで検証された。 Mistral-7b は選択された軽量 LLM の中でトップパフォーマーとして登場し、14 と 71.9% の高品質な応答を精度と安全性の領域で達成し、メド・パルのバックボーン LLM に選ばれた。 Med-palは,Biomistralと比較すると,患者コミュニケーションに適した応答が得られ,一般的なLCMのバイアスやエラーが有意に減少した。 Med-Pal と Meerkat を比較した。 Med-Pal は、デジタルヘルスコミュニケーションを強化するために、微調整の軽量 LLM の開発と利用の可能性を示した。

Large Language Models (LLMs) have emerged as a potential solution to assist digital health development with patient education, commonly medication-related enquires. We trained and validated Med-Pal, a medication domain-specific LLM-chatbot fine-tuned with a fine-grained and expert curated dataset from a selection of five light-weighted open-source LLMs of smaller parameter size (7 billion or less) regarding computational constraints and prioritizing operational efficiency. A multi-disciplinary team performed a clinical evaluation of LLMs responses using the SCORE criteria, focusing on safety, accuracy, bias, reproducibility, and ease of understanding. Best performing light-weighted LLM was chosen as Med-Pal for further engineering with guard-railing using adversarial prompting. Med-Pal and existing light-weighted LLMs, including pretrained Biomistral and finetuned Meerkat, were validated on an independent dataset on a broad range of medication-related questions (231 in total), 12 different question types across 14 different medication classes. Mistral-7b emerged as the top performer among selected lightweight LLMs, achieving the highest median score of 14 and 71.9% high-quality responses in accuracy and safety domains, hence chosen as the backbone LLM for Med-Pal. When compared against Biomistral, Med-pal outperformed in generating responses appropriate for patient communication, with significant reductions bias and errors typical of general LLMs. Comparable performance was observed when comparing Med-Pal with Meerkat. Med-Pal showcases the feasibility of developing and employing fine-tuned light-weighted LLMs to enhance digital health communications.
翻訳日:2024-07-22 08:47:38 公開日:2024-07-02
# WTU-EVAL:大規模言語モデルのツール使用評価ベンチマーク

WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2407.12823v1 )

ライセンス: Link先を確認
Kangyun Ning, Yisong Su, Xueqiang Lv, Yuanzhe Zhang, Jian Liu, Kang Liu, Jinan Xu, (参考訳) 大きな言語モデル(LLM)はNLPタスクに優れていますが、その能力を拡張するための外部ツールが必要です。 LLMを用いたツール学習の現在の研究は、ツールの必要性が不確実である現実の状況と必ずしも一致しないような、必須のツールの使用を前提としており、ツールの誤用や不必要な使用は、LLMの一般的な能力を損なう可能性がある。 そこで本研究では,LLMが能力境界を識別し,柔軟性のあるツールを利用できるかを検討する。 次に、W whether-or-notツール利用評価ベンチマーク(WTU-Eval)を導入し、11のデータセットでLCMを評価し、そのうち6つはツール使用データセット、5つは一般的なデータセットである。 LLMはニーズに応じてツールを使用するように促されます。 WTU-Eval 上での8つの LLM の結果から,LLM は一般的なデータセットにおけるツール利用の判断に苦慮することが多く,ツール使用データセットにおける LLM のパフォーマンスは ChatGPT と類似した能力で向上することが明らかになった。 どちらのデータセットでも、間違ったツールの使用はLLMのパフォーマンスを著しく損なう。 これを軽減するために、ツールの意思決定を強化するための微調整データセットも開発する。 微調整のLlama2-7Bでは、平均的なパフォーマンス改善が14\%、誤ったツール使用率が16.8%低下する。 WTU-Evalベンチマークをリリースします。

Although Large Language Models (LLMs) excel in NLP tasks, they still need external tools to extend their ability. Current research on tool learning with LLMs often assumes mandatory tool use, which does not always align with real-world situations, where the necessity for tools is uncertain, and incorrect or unnecessary use of tools can damage the general abilities of LLMs. Therefore, we propose to explore whether LLMs can discern their ability boundaries and use tools flexibly. We then introduce the Whether-or-not tool usage Evaluation benchmark (WTU-Eval) to assess LLMs with eleven datasets, where six of them are tool-usage datasets, and five are general datasets. LLMs are prompted to use tools according to their needs. The results of eight LLMs on WTU-Eval reveal that LLMs frequently struggle to determine tool use in general datasets, and LLMs' performance in tool-usage datasets improves when their ability is similar to ChatGPT. In both datasets, incorrect tool usage significantly impairs LLMs' performance. To mitigate this, we also develop the finetuning dataset to enhance tool decision-making. Fine-tuning Llama2-7B results in a 14\% average performance improvement and a 16.8\% decrease in incorrect tool usage. We will release the WTU-Eval benchmark.
翻訳日:2024-07-22 08:47:38 公開日:2024-07-02
# 言語モデルにおける毒性軽減のための神経介入

Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models ( http://arxiv.org/abs/2407.12824v1 )

ライセンス: Link先を確認
Xavier Suau, Pieter Delobelle, Katherine Metcalf, Armand Joulin, Nicholas Apostoloff, Luca Zappella, Pau Rodríguez, (参考訳) LLM(Large Language Models)の大きな問題は、有害な言語を生成するという望ましくない能力である。 本研究は, 有害な文を識別する能力によって毒性を負うニューロンを決定できることを示すとともに, それらの活性化レベルをこの力に比例して減少させることで有害な言語を緩和できることを示す。 AUROCアダプティブ (AurA) は, 予め訓練した LLM に適用して毒性を軽減できる介入法である。 この介入は、各ニューロンが有毒物質を識別する能力に比例するので、モデル依存のハイパーパラメーターは含まない。 我々は、AurAが最大2.2 \times$毒性を減少させ、0.72$パープレキシティの増加しか達成できないことを示した。 また、AurAは異なるスケールのモデル(1.5Bから40Bパラメータ)で有効であり、有害な言語を緩和する上で有効であるが、共通センスゼロショット能力を保ちながら、あらゆるスケールで有効であることを示す。 AurAはプレプロンプティング戦略と組み合わせて、平均緩和可能性を1.28\times$から2.35\times$へと引き上げることができる。 さらに、AurAは有害な内容を有害に引き起こす敵のプレプロンプトに対抗できるため、より安全でより毒性の少ないモデルをデプロイするための効果的な方法である。

An important issue with Large Language Models (LLMs) is their undesired ability to generate toxic language. In this work, we show that the neurons responsible for toxicity can be determined by their power to discriminate toxic sentences, and that toxic language can be mitigated by reducing their activation levels proportionally to this power. We propose AUROC adaptation (AurA), an intervention that can be applied to any pre-trained LLM to mitigate toxicity. As the intervention is proportional to the ability of each neuron to discriminate toxic content, it is free of any model-dependent hyperparameters. We show that AurA can achieve up to $2.2 \times$ reduction in toxicity with only a $0.72$ perplexity increase. We also show that AurA is effective with models of different scale (from 1.5B to 40B parameters), and its effectiveness in mitigating toxic language, while preserving common-sense zero-shot abilities, holds across all scales. AurA can be combined with pre-prompting strategies, boosting its average mitigation potential from $1.28\times$ to $2.35\times$. Moreover, AurA can counteract adversarial pre-prompts that maliciously elicit toxic content, making it an effective method for deploying safer and less toxic models.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-02
# クロスアテンションを用いたマルチモーダル特徴融合に基づく抑うつ検出法

A Depression Detection Method Based on Multi-Modal Feature Fusion Using Cross-Attention ( http://arxiv.org/abs/2407.12825v1 )

ライセンス: Link先を確認
Shengjie Li, Yinhao Xiao, (参考訳) うつ病は重篤な精神疾患であり、世界の人口の約3.8 %に影響を及ぼしている。 効果的な治療法が存在するにもかかわらず、低所得国や中所得国では75%以上の人が治療を受けていない。 本稿では,クロスアテンションを用いたマルチモーダル特徴融合に基づく抑うつ検出手法を提案する。 テキストから語彙的特徴を抽出する事前学習モデルとしてMacBERTを採用し、タスク固有のコンテキスト理解を洗練するためのTransformerモジュールを付加することにより、対象タスクへのモデルの適応性が向上する。 従来のマルチモーダルな特徴を単純に結合するプラクティスとは違い、このアプローチは機能統合にクロスアテンションを活用し、抑うつ検出の精度を大幅に改善し、ユーザの感情や行動をより包括的かつ正確に分析することを可能にする。 さらに,MFFNC(Cross-Attention)に基づくマルチモーダル・フィーチャー・フュージョン・ネットワークを構築し,抑うつ識別のタスクにおいて例外的な性能を示す。 実験結果から,本手法はテストデータセット上で0.9495の精度を実現し,既存手法よりも大幅に改善したことを示す。 さらに、他のソーシャルメディアプラットフォームやマルチモーダル処理に関わるタスクに対する有望な方法論を概説する。 うつ病患者のタイムリーな識別と介入は、生命を救うために不可欠であり、メンタルヘルス問題への早期介入を促進する技術の可能性を強調している。

Depression, a prevalent and serious mental health issue, affects approximately 3.8\% of the global population. Despite the existence of effective treatments, over 75\% of individuals in low- and middle-income countries remain untreated, partly due to the challenge in accurately diagnosing depression in its early stages. This paper introduces a novel method for detecting depression based on multi-modal feature fusion utilizing cross-attention. By employing MacBERT as a pre-training model to extract lexical features from text and incorporating an additional Transformer module to refine task-specific contextual understanding, the model's adaptability to the targeted task is enhanced. Diverging from previous practices of simply concatenating multimodal features, this approach leverages cross-attention for feature integration, significantly improving the accuracy in depression detection and enabling a more comprehensive and precise analysis of user emotions and behaviors. Furthermore, a Multi-Modal Feature Fusion Network based on Cross-Attention (MFFNC) is constructed, demonstrating exceptional performance in the task of depression identification. The experimental results indicate that our method achieves an accuracy of 0.9495 on the test dataset, marking a substantial improvement over existing approaches. Moreover, it outlines a promising methodology for other social media platforms and tasks involving multi-modal processing. Timely identification and intervention for individuals with depression are crucial for saving lives, highlighting the immense potential of technology in facilitating early intervention for mental health issues.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-02
# 気候変動証拠合成とシステム評価におけるGPT-4oの有効性の評価:予備的考察

Assessing the Effectiveness of GPT-4o in Climate Change Evidence Synthesis and Systematic Assessments: Preliminary Insights ( http://arxiv.org/abs/2407.12826v1 )

ライセンス: Link先を確認
Elphin Tom Joe, Sai Dileep Koneru, Christine J Kirchhoff, (参考訳) 本稿では,現在最先端の大規模言語モデル (LLM) である GPT-4o を用いて,エビデンス合成と系統的評価作業を行う可能性について検討する。 このようなタスクの伝統的なワークフローには、大量の文献を手作業でレビューし、合成するドメインエキスパートの大規模なグループが含まれる。 科学文献の指数的成長と最近のLSMの進歩は、これらの伝統的なワークフローを新しい年齢ツールで補完する機会を提供する。 我々は,GAMI(Global Adaptation Mapping Initiative)が作成したデータセットを用いて,GPT-4oの有効性を評価し,気候変動適応関連特徴抽出の精度を3段階の専門知識で検証した。 この結果から,GPT-4oは地理的位置同定などの低熟練タスクでは高い精度を達成できるが,利害関係者の識別や適応応答の深さ評価といった中高熟練タスクでは信頼性が低いことが示唆された。 この発見は、GPT-4oのようなモデルの強みを活用するアセスメントワークフローを設計すると同時に、これらのタスクのパフォーマンスを改善するための改善を提供する必要性を動機付けている。

In this research short, we examine the potential of using GPT-4o, a state-of-the-art large language model (LLM) to undertake evidence synthesis and systematic assessment tasks. Traditional workflows for such tasks involve large groups of domain experts who manually review and synthesize vast amounts of literature. The exponential growth of scientific literature and recent advances in LLMs provide an opportunity to complementing these traditional workflows with new age tools. We assess the efficacy of GPT-4o to do these tasks on a sample from the dataset created by the Global Adaptation Mapping Initiative (GAMI) where we check the accuracy of climate change adaptation related feature extraction from the scientific literature across three levels of expertise. Our results indicate that while GPT-4o can achieve high accuracy in low-expertise tasks like geographic location identification, their performance in intermediate and high-expertise tasks, such as stakeholder identification and assessment of depth of the adaptation response, is less reliable. The findings motivate the need for designing assessment workflows that utilize the strengths of models like GPT-4o while also providing refinements to improve their performance on these tasks.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-02
# PST-KDD-2024 OAG-Challengeの解法

The Solution for The PST-KDD-2024 OAG-Challenge ( http://arxiv.org/abs/2407.12827v1 )

ライセンス: Link先を確認
Shupeng Zhong, Xinger Li, Shushan Jin, Yang Yang, (参考訳) 本稿では,KDD-2024 OAG-Challenge紙のソーストレーストラックにおける第2位解について紹介する。 提案手法は主にBERTとGCNの2つの手法に基づいており,最終提案におけるBERTとGCNの推論結果を組み合わせて補完性能を実現する。 BERTソリューションでは、論文の参照に現れるフラグメントの処理に集中し、さまざまな操作を用いてフラグメントの冗長な干渉を低減することにより、BERTが受信した情報をより洗練する。 GCNソリューションでは,紙の断片や要約,タイトルなどの情報を埋め込みモデルを通じて高次元の意味空間にマッピングし,タイトル,抽象,フラグメント間のエッジを構築して判断の文脈的関係を統合する。 最終的に,我々の解法は,競技において顕著なスコア0.47691を達成した。

In this paper, we introduce the second-place solution in the KDD-2024 OAG-Challenge paper source tracing track. Our solution is mainly based on two methods, BERT and GCN, and combines the reasoning results of BERT and GCN in the final submission to achieve complementary performance. In the BERT solution, we focus on processing the fragments that appear in the references of the paper, and use a variety of operations to reduce the redundant interference in the fragments, so that the information received by BERT is more refined. In the GCN solution, we map information such as paper fragments, abstracts, and titles to a high-dimensional semantic space through an embedding model, and try to build edges between titles, abstracts, and fragments to integrate contextual relationships for judgment. In the end, our solution achieved a remarkable score of 0.47691 in the competition.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-02
# LLMになぜ新しい知識がメッシーリップル効果を生み出すのか?

Why Does New Knowledge Create Messy Ripple Effects in LLMs? ( http://arxiv.org/abs/2407.12828v1 )

ライセンス: Link先を確認
Jiaxin Qin, Zixuan Zhang, Chi Han, Manling Li, Pengfei Yu, Heng Ji, (参考訳) これまでの広範囲にわたる研究は、言語モデル(LM)の学習後知識編集(KE)に焦点を当てており、知識が正確かつ最新であることを保証する。 KEで望まれる特性とオープンな疑問の一つは、編集されたLMがリップル効果を正しく扱えるようにすることであり、そこではLMはその論理的に関連する知識に正確に答えることが期待されている。 本稿では,ほとんどのKE手法がいまだに乱雑な波及効果を生んでいる理由を考察する。 我々は広範囲な分析を行い、ALMの知識がいつ、なぜ更新されるのかを効果的に明らかにする有能な指標であるGradSimを同定する。 GradSimは、元の事実の勾配とその関連する知識の間のコサイン類似性によって計算される。 我々は、異なるLM、KE法、評価指標間で、リップル効果性能とGradSimの強い正の相関関係を観察する。 リップル効果の3つの逆直観的障害(ネゲーション、オーバーリップ、マルチリンガル)に関するさらなる調査は、これらの障害がしばしば非常に低いGradSimと関連していることを示している。 この発見は、GradSimが知識がLMに波及する際の効果的な指標であることを示す。

Extensive previous research has focused on post-training knowledge editing (KE) for language models (LMs) to ensure that knowledge remains accurate and up-to-date. One desired property and open question in KE is to let edited LMs correctly handle ripple effects, where LM is expected to answer its logically related knowledge accurately. In this paper, we answer the question of why most KE methods still create messy ripple effects. We conduct extensive analysis and identify a salient indicator, GradSim, that effectively reveals when and why updated knowledge ripples in LMs. GradSim is computed by the cosine similarity between gradients of the original fact and its related knowledge. We observe a strong positive correlation between ripple effect performance and GradSim across different LMs, KE methods, and evaluation metrics. Further investigations into three counter-intuitive failure cases (Negation, Over-Ripple, Multi-Lingual) of ripple effects demonstrate that these failures are often associated with very low GradSim. This finding validates that GradSim is an effective indicator of when knowledge ripples in LMs.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-02
# 深部強化学習に基づく周波数領域と時間領域の同時解析による2.5D ICの配電ネットワークの階層的デカップリングキャパシタ最適化

Hierarchical Decoupling Capacitor Optimization for Power Distribution Network of 2.5D ICs with Co-Analysis of Frequency and Time Domains Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2407.04737v1 )

ライセンス: Link先を確認
Yuanyuan Duan, Haiyang Feng, Zhiping Yu, Hanming Wu, Leilai Shao, Xiaolei Zhu, (参考訳) メモリ帯域幅の増大と計算密度の増大に伴い、複数のチップレットをインターポーザに統合する2.5D設計が有望なソリューションとして登場した。 しかし、この統合は、データレートの増加と多数のI/Oにより、小さな信号ノイズと同時切替ノイズ(SSN)を緩和するために、オンチップとオンプロファイラの両方で電力分配ネットワーク(PDN)の高度な最適化を必要とする、大きな課題をもたらす。 2.5Dシステムにおける従来のPDN最適化戦略は、主に小さな信号ノイズを減らすためにデカップリングコンデンサ(デキャップ)を統合することでインピーダンスの低減に重点を置いている。 残念なことに,本実験の結果から,周波数領域解析のみに頼って結合SSNに対処するには不十分であることが証明された。 本研究では,チップ上の小型信号雑音とSSNの両方に対処するために,深部強化学習を用いた新しい2相最適化フローを提案する。 当初、周波数領域のインピーダンスを最適化し、過設計を避けながら許容範囲内で小さな信号ノイズを維持する。 その後、時間領域において、より正確なSSN重度測定である電圧違反積分(VVI)を最小化するためにPDNを精査する。 我々の知る限り、これはオンチップとオンインターポーザPDNの戦略的デキャップ配置による小さな信号ノイズとSN伝搬の両方に同時に対処する最初のデュアルドメイン最適化戦略であり、2.5D統合システムのためのロバストPDNの設計において大きな進歩をもたらす。

With the growing need for higher memory bandwidth and computation density, 2.5D design, which involves integrating multiple chiplets onto an interposer, emerges as a promising solution. However, this integration introduces significant challenges due to increasing data rates and a large number of I/Os, necessitating advanced optimization of the power distribution networks (PDNs) both on-chip and on-interposer to mitigate the small signal noise and simultaneous switching noise (SSN). Traditional PDN optimization strategies in 2.5D systems primarily focus on reducing impedance by integrating decoupling capacitors (decaps) to lessen small signal noises. Unfortunately, relying solely on frequency-domain analysis has been proven inadequate for addressing coupled SSN, as indicated by our experimental results. In this work, we introduce a novel two-phase optimization flow using deep reinforcement learning to tackle both the on-chip small signal noise and SSN. Initially, we optimize the impedance in the frequency domain to maintain the small signal noise within acceptable limits while avoiding over-design. Subsequently, in the time domain, we refine the PDN to minimize the voltage violation integral (VVI), a more accurate measure of SSN severity. To the best of our knowledge, this is the first dual-domain optimization strategy that simultaneously addresses both the small signal noise and SSN propagation through strategic decap placement in on-chip and on-interposer PDNs, offering a significant step forward in the design of robust PDNs for 2.5D integrated systems.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-02
# コントラスト学習に基づくERP脳-コンピュータインタフェースのための畳み込みニューラルネットワーク

A Contrastive Learning Based Convolutional Neural Network for ERP Brain-Computer Interfaces ( http://arxiv.org/abs/2407.04738v1 )

ライセンス: Link先を確認
Yuntian Cui, Xinke Shen, Dan Zhang, Chen Yang, (参考訳) 脳-コンピュータインターフェースの分野では,ERPベースの脳波検出が注目されている。 しかし、ERP信号成分の複雑さ、低信号対雑音比、重要なオブジェクト間変動のため、クロスオブジェクトERP信号検出は困難である。 ディープラーニングの継続的な進歩は、この問題への対処に大きく貢献している。 本稿では,ERP信号の主観的不変成分を表すマルチスケールの時間的特徴と空間的特徴を抽出する,対照的な学習訓練フレームワークとインセプションモジュールを提案する。 具体的には、線形インセプションモジュールと非線形プロジェクタを統合したベースエンコーダを用いて、生データを潜在空間に投影する。 異なる目標下で信号類似性を最大化することにより、潜時空間における物体間脳波信号差を最小化する。 抽出した時空間特徴はERPターゲット検出に使用される。 提案アルゴリズムは,P300データセット上での単項二項分類タスクにおいて最高のAUC性能を達成し,既存のアルゴリズムと比較してスペルデコーディングタスクの大幅な最適化を示した。

ERP-based EEG detection is gaining increasing attention in the field of brain-computer interfaces. However, due to the complexity of ERP signal components, their low signal-to-noise ratio, and significant inter-subject variability, cross-subject ERP signal detection has been challenging. The continuous advancement in deep learning has greatly contributed to addressing this issue. This brief proposes a contrastive learning training framework and an Inception module to extract multi-scale temporal and spatial features, representing the subject-invariant components of ERP signals. Specifically, a base encoder integrated with a linear Inception module and a nonlinear projector is used to project the raw data into latent space. By maximizing signal similarity under different targets, the inter-subject EEG signal differences in latent space are minimized. The extracted spatiotemporal features are then used for ERP target detection. The proposed algorithm achieved the best AUC performance in single-trial binary classification tasks on the P300 dataset and showed significant optimization in speller decoding tasks compared to existing algorithms.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-02
# 有界エネルギーを持つ純状態の可算凸結合としての量子状態

Quantum states as countable convex combination of pure states with bounded energy ( http://arxiv.org/abs/2407.05950v1 )

ライセンス: Link先を確認
Juan Pablo Lopez, (参考訳) 無限次元状態において、E で有界なエネルギーを持つ状態を与えると、E で有界なエネルギーを持つ純状態の可算凸結合として状態を書くことができる。我々は、Alicki-Fannes-Winter テクニックをレビューし、有界なエネルギーを持つ純状態の混合である状態においてフォン・ノイマンエントロピーに有界な一様連続性を得る。

We give response to the question: in infinite dimension states,given a state with energy bounded by E, we can write the state as a countable convex combination of pure states with energy bounded by E. We review the Alicki-Fannes-Winter technique to obtain a uniform continuity bound for the von Neumann entropy in states that are a mix of pure states with bounded energy, using this bound we conclude that for a Hamiltonian satisfying the Gibb's hypothesis such states cannot exist.
翻訳日:2024-07-09 15:30:42 公開日:2024-07-02
# 余剰次元を持たない複素粒子の理論

Theory of Complex Particle without Extra Dimensions ( http://arxiv.org/abs/2407.03378v1 )

ライセンス: Link先を確認
Takayuki Hori, (参考訳) 複素粒子は予想外の対称性を持つ局所的な粒子の一種であり、これはオートアワーによって提案された。 本稿では,ミンコフスキー時空における複素粒子の臨界次元が$D = 4$であるのに対して,$D = 2, 4$あるいは6$はユークリッド時空において許容されることを示す。 次元に対する制限の起源は、正準理論における第三次制約の存在であり、量子化は、時空の特定の次元においてのみ単値で有界な解を持つ固有値方程式をもたらす。 この導出は、$S^{1,D-2}$または$S^{D-1}$上のラプラス・ベルトラミ作用素の詳細な解析に基づいている。

Complex particle is a kind of bilocal particle having unexpected symmetry, which was proposed by the authour. In the present paper, we show that critical dimension of the complex particle in Minkowski spacetime is $D = 4$, while $D = 2, 4$ or $6$ are permitted in Euclid spacetime. The origin of the restriction to the dimension is the existence of tertiary constraint in the canonical theory, quantization of which leads to an eigenvalue equation having single-valued and bounded solutions only in particular dimension of spacetime. The derivation is based on a detailed analysis of Laplace-Beltrami operator on $S^{1,D-2}$ or $S^{D-1}$.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-02
# missForestPredict -- 予測設定のためのデータ計算の欠如

missForestPredict -- Missing data imputation for prediction settings ( http://arxiv.org/abs/2407.03379v1 )

ライセンス: Link先を確認
Elena Albu, Shan Gao, Laure Wynants, Ben Van Calster, (参考訳) 予測モデルは、入力変数に基づいて結果を予測するために使用される。 入力変数におけるデータの欠落は、しばしばモデル開発や予測時に発生する。 missForestPredict Rパッケージは、予測設定に適した高速でユーザフレンドリなMissForest命令アルゴリズムの適応を提案する。 このアルゴリズムは、収束基準(連続的および分類的変数に統一され、バグのアウト・オブ・バグ・エラーに基づく)が満たされるまで、ランダムフォレストを用いて変数を反復的にインプットする。 計算モデルは変数と繰り返し毎に保存され、予測時に新しい観測に後から適用することができる。 missForestPredictパッケージは、エラー監視の拡張、命令で使用される変数の制御、カスタム初期化を提供する。 これにより、ユーザーは特定のニーズに合わせて計算を調整できる。 missForestPredictアルゴリズムは、平均/モードインプット、線形回帰インプット、マウス、k-ネアレスト隣人、バッグング、マウスRanger、IterativeImputerの8つのシミュレートされたデータセット(48のシナリオ)と、異なる予測モデルを使用した8つの大きなパブリックデータセットと比較される。 missForestPredictは、短い計算時間内で予測設定で競合する結果を提供する。

Prediction models are used to predict an outcome based on input variables. Missing data in input variables often occurs at model development and at prediction time. The missForestPredict R package proposes an adaptation of the missForest imputation algorithm that is fast, user-friendly and tailored for prediction settings. The algorithm iteratively imputes variables using random forests until a convergence criterion (unified for continuous and categorical variables and based on the out-of-bag error) is met. The imputation models are saved for each variable and iteration and can be applied later to new observations at prediction time. The missForestPredict package offers extended error monitoring, control over variables used in the imputation and custom initialization. This allows users to tailor the imputation to their specific needs. The missForestPredict algorithm is compared to mean/mode imputation, linear regression imputation, mice, k-nearest neighbours, bagging, miceRanger and IterativeImputer on eight simulated datasets with simulated missingness (48 scenarios) and eight large public datasets using different prediction models. missForestPredict provides competitive results in prediction settings within short computation times.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-02
# マルチペプチド:多モードレバレッジ言語グラフによるペプチド特性の学習

Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties ( http://arxiv.org/abs/2407.03380v1 )

ライセンス: Link先を確認
Srivathsan Badrinarayanan, Chakradhar Guntuboina, Parisa Mollaei, Amir Barati Farimani, (参考訳) ペプチドは生物学的プロセスや治療に必須である。 本研究では,トランスフォーマーに基づく言語モデルとグラフニューラルネットワーク(GNN)を組み合わせた,ペプチド特性の予測手法であるMulti-Peptideを紹介する。 ペプチド特性予測に適したトランスモデルであるPeptideBERTとGNNエンコーダを組み合わせることで,シーケンスベースと構造的両方の特徴を捉える。 Contrastive Language-Image Pre-Training (CLIP) を用いることで、マルチペプチドは両方のモードからの埋め込みを共有潜在空間に整列させ、モデルの予測精度を高める。 溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。 本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。

Peptides are essential in biological processes and therapeutics. In this study, we introduce Multi-Peptide, an innovative approach that combines transformer-based language models with Graph Neural Networks (GNNs) to predict peptide properties. We combine PeptideBERT, a transformer model tailored for peptide property prediction, with a GNN encoder to capture both sequence-based and structural features. By employing Contrastive Language-Image Pre-training (CLIP), Multi-Peptide aligns embeddings from both modalities into a shared latent space, thereby enhancing the model's predictive accuracy. Evaluations on hemolysis and nonfouling datasets demonstrate Multi-Peptide's robustness, achieving state-of-the-art 86.185% accuracy in hemolysis prediction. This study highlights the potential of multimodal learning in bioinformatics, paving the way for accurate and reliable predictions in peptide-based research and applications.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-02
# SeqMate:RNAシークエンシングを自動化する新しい大規模言語モデルパイプライン

SeqMate: A Novel Large Language Model Pipeline for Automating RNA Sequencing ( http://arxiv.org/abs/2407.03381v1 )

ライセンス: Link先を確認
Devam Mondal, Atharva Inamdar, (参考訳) バルクRNAシークエンシング技術(バルクRNAシーク)やシングルセルRNAシークエンシング技術(scRNAシークエンシング技術)は、実験中の組織や細胞の遺伝活動や転写を解析しようとする生物学者にとって重要なツールである。 Illuminaの次世代シークエンシング(NGS)のようなプラットフォームは、この実験手順の生データを生成するために使用される。 この生のFASTQデータは、バイオインフォマティクスによる複雑なデータ操作によって作成されなければならない。 このプロセスは、ユーザが複数のプログラムパッケージをインストールしてインポートする必要がある端末/コマンドラインのような、扱いにくいテキストユーザーインターフェースで実行され、訓練されていない生物学者がデータ分析を開始するのを防ぐ。 Galaxyのようなオープンソースプラットフォームは、よりユーザフレンドリーなパイプラインを作成していますが、ビジュアルインターフェースはいまだに散らかっていて、非常に技術的です。 SeqMateはユーザフレンドリなツールで、大きな言語モデル(LLM)のパワーを利用して、データ準備と分析(差分式、軌道解析など)を自動化する。 さらに、生成AIの力を利用することで、SeqMateはこれらの発見を分析し、PubMed、PDB、Uniprotといった既知のリポジトリから引用されたソースで、制御/制御/ユーザプロンプトされた遺伝子に関する記述されたレポートを生成することができる。

RNA sequencing techniques, like bulk RNA-seq and Single Cell (sc) RNA-seq, are critical tools for the biologist looking to analyze the genetic activity/transcriptome of a tissue or cell during an experimental procedure. Platforms like Illumina's next-generation sequencing (NGS) are used to produce the raw data for this experimental procedure. This raw FASTQ data must then be prepared via a complex series of data manipulations by bioinformaticians. This process currently takes place on an unwieldy textual user interface like a terminal/command line that requires the user to install and import multiple program packages, preventing the untrained biologist from initiating data analysis. Open-source platforms like Galaxy have produced a more user-friendly pipeline, yet the visual interface remains cluttered and highly technical, remaining uninviting for the natural scientist. To address this, SeqMate is a user-friendly tool that allows for one-click analytics by utilizing the power of a large language model (LLM) to automate both data preparation and analysis (differential expression, trajectory analysis, etc). Furthermore, by utilizing the power of generative AI, SeqMate is also capable of analyzing such findings and producing written reports of upregulated/downregulated/user-prompted genes with sources cited from known repositories like PubMed, PDB, and Uniprot.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-02
# SPD行列に対する部分空間構造保存を用いた幾何学的統計

Geometric statistics with subspace structure preservation for SPD matrices ( http://arxiv.org/abs/2407.03382v1 )

ライセンス: Link先を確認
Cyrus Mostajeran, Nathaël Da Costa, Graham Van Goffrier, Rodolphe Sepulchre, (参考訳) 本稿では,部分空間構造を保存し,超一般化固有値の効率的な計算に基づくSPD値データ処理のための幾何学的枠組みを提案する。 これは半定円錐のトンプソン幾何学を用いて達成される。 特定の測地空間構造を詳細に探求し、それに関連するいくつかの性質を確立する。 最後に、この幾何学に基づくSPD行列の新しい帰納的平均について概説する。

We present a geometric framework for the processing of SPD-valued data that preserves subspace structures and is based on the efficient computation of extreme generalized eigenvalues. This is achieved through the use of the Thompson geometry of the semidefinite cone. We explore a particular geodesic space structure in detail and establish several properties associated with it. Finally, we review a novel inductive mean of SPD matrices based on this geometry.
翻訳日:2024-07-08 20:20:26 公開日:2024-07-02
# 専門家の高次元混合におけるラッソの非漸近オラクル不等式

Non-asymptotic oracle inequalities for the Lasso in high-dimensional mixture of experts ( http://arxiv.org/abs/2009.10622v7 )

ライセンス: Link先を確認
TrungTin Nguyen, Hien D Nguyen, Faicel Chamroukhi, Geoffrey J McLachlan, (参考訳) 本研究では, 高次元環境下でのエキスパート(MoE)モデルの混合特性について検討し, 予測器の数は試料サイズよりもはるかに大きく, 理論的には特に不足している。 ソフトマックスゲーティング関数とガウスの専門家によるMoEモデルとして定義されるソフトマックスゲートガウスモデル(SGMoE)のクラスを考察し,その理論的性質に着目した。 我々の知る限りでは、SGMoE モデルの $l_1$-regularization 特性を非漸近的観点から、最も軽度な仮定、すなわちパラメータ空間の有界性の下で初めて調べる。 我々は、SGMoEモデルに対するラッソ推定器のKulback-Leibler損失の非漸近的理論的制御を保証するために、ラッソペナルティの正規化パラメータの低い境界を与える。 最後に,我々の理論的知見を実証的に検証するためのシミュレーション研究を行った。

We investigate the estimation properties of the mixture of experts (MoE) model in a high-dimensional setting, where the number of predictors is much larger than the sample size, and for which the literature is particularly lacking in theoretical results. We consider the class of softmax-gated Gaussian MoE (SGMoE) models, defined as MoE models with softmax gating functions and Gaussian experts, and focus on the theoretical properties of their $l_1$-regularized estimation via the Lasso. To the best of our knowledge, we are the first to investigate the $l_1$-regularization properties of SGMoE models from a non-asymptotic perspective, under the mildest assumptions, namely the boundedness of the parameter space. We provide a lower bound on the regularization parameter of the Lasso penalty that ensures non-asymptotic theoretical control of the Kullback--Leibler loss of the Lasso estimator for SGMoE models. Finally, we carry out a simulation study to empirically validate our theoretical findings.
翻訳日:2024-07-07 17:13:04 公開日:2024-07-02
# Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits

The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits ( http://arxiv.org/abs/2001.05452v4 )

ライセンス: Link先を確認
Ronshee Chawla, Abishek Sankararaman, Ayalvadi Ganesh, Sanjay Shakkottai, (参考訳) 我々は、N$エージェントからなる分散マルチエージェントマルチアームバンド(MAB)のセットアップを検討し、個々の累積後悔を最小限に抑えるために同じMABインスタンスを解決する。 我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。 我々は2つの新しいアルゴリズムを開発し、各エージェントはすべてのアームのサブセットからのみ演奏する。 エージェントは通信媒体を使用して、腕IDのみを推奨し(サンプルではない)、腕のセットを更新する。 エージェントが接続された任意のペアのゴシップ機構を介して$\Omega(\log(T))$ timesを通信した場合、すべてのエージェントの後悔は、コラボレーションがない場合と比較して$N$の小さな要素である。 さらに, 通信制約は, アルゴリズムの後悔に対する2次効果しか持たないことを示す。 次に、後悔とコミュニケーションのトレードオフの境界を導こうとする後悔のこの2次項を分析します。 最後に、我々のアルゴリズムを実証的に評価し、洞察は基本であり、境界の人工物ではないと結論付ける。 また, 通信制約がない場合でも, アルゴリズムによって得られた後悔のスケーリングは改善できないことを示す。 以上の結果から,エージェント間のコラボレーションが最小限であっても,すべてのエージェントに対する後悔が大幅に減少することが明らかとなった。

We consider a decentralized multi-agent Multi Armed Bandit (MAB) setup consisting of $N$ agents, solving the same MAB instance to minimize individual cumulative regret. In our model, agents collaborate by exchanging messages through pairwise gossip style communications on an arbitrary connected graph. We develop two novel algorithms, where each agent only plays from a subset of all the arms. Agents use the communication medium to recommend only arm-IDs (not samples), and thus update the set of arms from which they play. We establish that, if agents communicate $\Omega(\log(T))$ times through any connected pairwise gossip mechanism, then every agent's regret is a factor of order $N$ smaller compared to the case of no collaborations. Furthermore, we show that the communication constraints only have a second order effect on the regret of our algorithm. We then analyze this second order term of the regret to derive bounds on the regret-communication tradeoffs. Finally, we empirically evaluate our algorithm and conclude that the insights are fundamental and not artifacts of our bounds. We also show a lower bound which gives that the regret scaling obtained by our algorithm cannot be improved even in the absence of any communication constraints. Our results thus demonstrate that even a minimal level of collaboration among agents greatly reduces regret for all agents.
翻訳日:2024-07-05 15:33:04 公開日:2024-07-02
# セッション:最小限のメタデータリークによるエンドツーエンド暗号化会話

Session: End-To-End Encrypted Conversations With Minimal Metadata Leakage ( http://arxiv.org/abs/2002.04609v3 )

ライセンス: Link先を確認
Kee Jefferys, Maxim Shishmarev, Simon Harman, (参考訳) Sessionはオープンソースの公開鍵ベースのセキュアメッセージングアプリケーションで、分散ストレージサーバセットとオニオンルーティングプロトコルを使用して、エンド・ツー・エンドの暗号化メッセージを最小限のユーザメタデータで送信する。 マルチデバイス同期、オフラインの受信箱、音声/ビデオ通話など、メインストリームのメッセージングアプリケーションで期待される共通の機能を提供する。

Session is an open-source, public-key-based secure messaging application which uses a set of decentralised storage servers and an onion routing protocol to send end-to-end encrypted messages with minimal exposure of user metadata. It does this while providing the common features expected of mainstream messaging applications, such as multi-device syncing, offline inboxes, and voice/video calling.
翻訳日:2024-07-05 13:41:22 公開日:2024-07-02
# 微分プライバシーのための情報設計

Information Design for Differential Privacy ( http://arxiv.org/abs/2202.05452v6 )

ライセンス: Link先を確認
Ian M. Schmutte, Nathan Yoder, (参考訳) 企業や統計機関は、データを収集、分析、公開する個人のプライバシーを守らなければならない。 次第に、これらの組織は、差分プライバシーを満たすパブリッシングメカニズムを使用することで、そのようになってきている。 エンドユーザーに対する出力値の最大化を目的として,そのようなメカニズムを選択することの問題点を考察する。 本研究は, 利子統計に雑音を加えるメカニズムが, 一般的には, 統計が総和あるいは平均等級データ(所得など)である場合, 最適ではないことを示す。 しかし、統計学が特定の特徴を持つデータエントリ数である場合、ノイズを追加することが常に最適であることを示し、基礎となるデータベースは対称分布(例えば、個人のデータがi.d.d.である場合)から引き出される。 さらに、データ利用者が超モジュラーペイオフを持つ場合、情報構造を超モジュラー決定問題における有用性に応じてランク付けする新しい静的比較法を用いることにより、単純な幾何学的メカニズムが常に最適であることを示す。

Firms and statistical agencies must protect the privacy of the individuals whose data they collect, analyze, and publish. Increasingly, these organizations do so by using publication mechanisms that satisfy differential privacy. We consider the problem of choosing such a mechanism so as to maximize the value of its output to end users. We show that mechanisms which add noise to the statistic of interest--like most of those used in practice--are generally not optimal when the statistic is a sum or average of magnitude data (e.g., income). However, we also show that adding noise is always optimal when the statistic is a count of data entries with a certain characteristic, and the underlying database is drawn from a symmetric distribution (e.g., if individuals' data are i.i.d.). When, in addition, data users have supermodular payoffs, we show that the simple geometric mechanism is always optimal by using a novel comparative static that ranks information structures according to their usefulness in supermodular decision problems.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-02
# Skellam Mixture Mechanism: 差分プライバシによるフェデレーション学習への新しいアプローチ

Skellam Mixture Mechanism: a Novel Approach to Federated Learning with Differential Privacy ( http://arxiv.org/abs/2212.04371v2 )

ライセンス: Link先を確認
Ergute Bao, Yizheng Zhu, Xiaokui Xiao, Yin Yang, Beng Chin Ooi, Benjamin Hong Meng Tan, Khin Mi Mi Aung, (参考訳) ディープニューラルネットワークは、基礎となるトレーニングデータを記憶する強力な能力を持っている。 この問題の効果的な解決策は、勾配にランダムノイズを注入することで厳密なプライバシー保証を提供する差分プライバシを持つモデルを訓練することである。 本稿では、複数の参加者間でセンシティブなデータが分散されるシナリオに焦点を当て、フェデレートラーニング(FL)を通じてモデルを共同訓練し、セキュアなマルチパーティ計算(MPC)を用いて各勾配更新の機密性を確保するとともに、結果モデルのデータ漏洩を回避するために差分プライバシを実現する。 この設定における大きな課題は、実数値ノイズを注入するディープラーニングにおいてDPを強制する共通のメカニズムが、参加者間で有限体整数を交換するMPCと根本的に相容れないことである。 その結果、既存のDPメカニズムの多くはかなり高いノイズレベルを必要としており、モデルの有用性は低い。 そこで我々はSkellam Mixing Mechanism (SMM)を提案し,FLを用いたモデルにDPを強制する手法を提案する。 既存の手法と比較して、SMMは入力勾配が整数値でなければならないという仮定を排除し、DPを保存するために注入されるノイズの量を減少させる。 さらに、SMMは、DPによる正確なディープラーニングの鍵となるSkellamディストリビューションの優れた構成とサブサンプリング特性のために、厳密なプライバシ会計を可能にする。 SMMの理論解析は特に非自明である 一 差分的な私的深層学習の複雑な数学 (II) 2つのスケラム分布の混合は比較的複雑であり、我々の知る限り、DP文献では研究されていない。 様々な実践的設定に関する大規模な実験により、SMMは結果のモデルの有用性の観点から、既存のソリューションを一貫して、そして著しく上回っていることが示される。

Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
翻訳日:2024-07-04 21:02:45 公開日:2024-07-02
# 協調的マルチエージェント異種マルチアーマッドバンド

Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits ( http://arxiv.org/abs/2305.18784v2 )

ライセンス: Link先を確認
Ronshee Chawla, Daniel Vial, Sanjay Shakkottai, R. Srikant, (参考訳) 共同作業型マルチエージェント・バンディットの研究は近年大きな注目を集めている。 これを踏まえ、我々はN$エージェントからなる新しい共同作業環境の研究を開始し、各エージェントが、グループ累積後悔を最小限に抑えるために、M$確率的マルチアームバンディットの1つを学習している。 エージェント間の協調を容易にする分散アルゴリズムを2つのシナリオで開発する。 我々は,各エージェントの累積後悔とグループ後悔の上界を導出することにより,これらのアルゴリズムの性能を特徴付ける。 また,提案したアルゴリズムのほぼ最適動作を示すため,この設定におけるグループ後悔に対する限界も低めに証明する。

The study of collaborative multi-agent bandits has attracted significant attention recently. In light of this, we initiate the study of a new collaborative setting, consisting of $N$ agents such that each agent is learning one of $M$ stochastic multi-armed bandits to minimize their group cumulative regret. We develop decentralized algorithms which facilitate collaboration between the agents under two scenarios. We characterize the performance of these algorithms by deriving the per agent cumulative regret and group regret upper bounds. We also prove lower bounds for the group regret in this setting, which demonstrates the near-optimal behavior of the proposed algorithms.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-02
# オフライン帯域におけるベイズレジスト最小化

Bayesian Regret Minimization in Offline Bandits ( http://arxiv.org/abs/2306.01237v3 )

ライセンス: Link先を確認
Marek Petrik, Guy Tennenholtz, Mohammad Ghavamzadeh, (参考訳) オフライン線形包帯におけるベイズ的後悔を最小限に抑える決定の仕方について検討する。 以前の研究は、報酬に対して最大低信頼境界(LCB)で行動しなくてはならないことを示唆している。 我々は, LCB への依存は本質的にこの設定に欠陥があることを論じ, 効率的な円錐最適化解法を用いて, ベイズ後悔の上限を直接最小化するアルゴリズムを提案する。 我々の限界は金融リスク対策への新たなつながりに大きく依存している。 一致した下界を証明し、上界がきついことを示し、それらを最小化することで、LCBアプローチを上回ることが保証される。 合成ドメインの数値結果から, LCBよりもアプローチが優れていることが確認された。

We study how to make decisions that minimize Bayesian regret in offline linear bandits. Prior work suggests that one must take actions with maximum lower confidence bound (LCB) on their reward. We argue that the reliance on LCB is inherently flawed in this setting and propose a new algorithm that directly minimizes upper bounds on the Bayesian regret using efficient conic optimization solvers. Our bounds build heavily on new connections to monetary risk measures. Proving a matching lower bound, we show that our upper bounds are tight, and by minimizing them we are guaranteed to outperform the LCB approach. Our numerical results on synthetic domains confirm that our approach is superior to LCB.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-02
# モジュールモデルアーキテクチャによる機械学習における情報フロー制御

Information Flow Control in Machine Learning through Modular Model Architecture ( http://arxiv.org/abs/2306.03235v2 )

ライセンス: Link先を確認
Trishita Tiwari, Suchin Gururangan, Chuan Guo, Weizhe Hua, Sanjay Kariyappa, Udit Gupta, Wenjie Xiong, Kiwan Maeng, Hsien-Hsin S. Lee, G. Edward Suh, (参考訳) 今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分がモデル出力に影響を与える可能性がある。 トレーニングデータからモデル出力への情報フローの制御の欠如は、個々のユーザがデータのサブセットにしかアクセスできない場合にのみ、センシティブなデータに対するトレーニングモデルの大きな障害となる。 アクセス制御データに対するセキュアな機械学習を実現するため,機械学習のための情報フロー制御の概念を提案し,提案するIFC定義に厳密に準拠するTransformer言語モデルアーキテクチャの拡張を開発する。 本アーキテクチャは,各セキュリティドメインから1つのエキスパートモジュールへのトレーニングデータの影響を制限することで情報フローを制御し,アクセス制御ポリシに基づく推論時の専門家のサブセットのみを可能にするとともに,大規模テキストとコードデータセットを用いた評価により,提案したパラメトリックIFCアーキテクチャの性能オーバーヘッドが最小 (1.9%) であり,アクセス制御されたデータのトレーニングを可能にすることにより,モデル精度(テキストデータセットは38%,コードデータセットは44%~62%)を大幅に向上できることを示す。

In today's machine learning (ML) models, any part of the training data can affect the model output. This lack of control for information flow from training data to model output is a major obstacle in training models on sensitive data when access control only allows individual users to access a subset of data. To enable secure machine learning for access-controlled data, we propose the notion of information flow control for machine learning, and develop an extension to the Transformer language model architecture that strictly adheres to the IFC definition we propose. Our architecture controls information flow by limiting the influence of training data from each security domain to a single expert module, and only enables a subset of experts at inference time based on the access control policy.The evaluation using large text and code datasets show that our proposed parametric IFC architecture has minimal (1.9%) performance overhead and can significantly improve model accuracy (by 38% for the text dataset, and between 44%--62% for the code datasets) by enabling training on access-controlled data.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-02
# ゼロノイズ外挿による実効量子ボリュームの増大

Increasing the Measured Effective Quantum Volume with Zero Noise Extrapolation ( http://arxiv.org/abs/2306.15863v2 )

ライセンス: Link先を確認
Elijah Pelofske, Vincent Russo, Ryan LaRose, Andrea Mari, Dan Strano, Andreas Bärtschi, Stephan Eidenbenz, William J. Zeng, (参考訳) 量子ボリューム(Quantum Volume)は、短期量子コンピュータのフルスタックベンチマークである。 ターゲットデバイス上で合理的な忠実さで実行できる正方形回路の最大サイズを定量化する。 誤差緩和(英: Error mitigation)とは、関心の期待値を計算する際に、ノイズが雑音量子コンピュータの計算に現れる影響を取り除くための一連の手法である。 有効量子ボリュームは、ターゲットデバイスだけでなく、エラー軽減アルゴリズムの有効性を評価するために、量子ボリュームプロトコルにエラー緩和を適用するための提案された計量である。 ディジタルゼロノイズ外挿法 (Digital Zero-Noise Extrapolation, ZNE) は、回路折り畳みによるノイズレス予測値を推定し、既知のスケール因子による誤差を増幅し、ゼロノイズ極限への外挿を行う。 ここでは,大域的かつ局所的なユニタリ折り畳みと分数スケールの因子を併用したZNEが,動的デカップリングと組み合わせることで,ベンダーが測定した量子体積よりも有効な量子体積を増大させることができることを示す。 具体的には、4つのIBM量子超伝導プロセッサユニットの有効量子体積を測定し、各デバイス上のベンダーが測定した量子体積よりも大きい値を求める。 これが最初の報告である。

Quantum Volume is a full-stack benchmark for near-term quantum computers. It quantifies the largest size of a square circuit which can be executed on the target device with reasonable fidelity. Error mitigation is a set of techniques intended to remove the effects of noise present in the computation of noisy quantum computers when computing an expectation value of interest. Effective quantum volume is a proposed metric that applies error mitigation to the quantum volume protocol in order to evaluate the effectiveness not only of the target device but also of the error mitigation algorithm. Digital Zero-Noise Extrapolation (ZNE) is an error mitigation technique that estimates the noiseless expectation value using circuit folding to amplify errors by known scale factors and extrapolating to the zero-noise limit. Here we demonstrate that ZNE, with global and local unitary folding with fractional scale factors, in conjunction with dynamical decoupling, can increase the effective quantum volume over the vendor-measured quantum volume. Specifically, we measure the effective quantum volume of four IBM Quantum superconducting processor units, obtaining values that are larger than the vendor-measured quantum volume on each device. This is the first such increase reported.
翻訳日:2024-07-04 20:52:46 公開日:2024-07-02
# SimCol3D -- 大腸内視鏡検査中の3次元再構成

SimCol3D -- 3D Reconstruction during Colonoscopy Challenge ( http://arxiv.org/abs/2307.11261v2 )

ライセンス: Link先を確認
Anita Rau, Sophia Bano, Yueming Jin, Pablo Azagra, Javier Morlana, Rawen Kader, Edward Sanderson, Bogdan J. Matuszewski, Jae Young Lee, Dong-Jae Lee, Erez Posner, Netanel Frank, Varshini Elangovan, Sista Raviteja, Zhengwen Li, Jiquan Liu, Seenivasan Lalithkumar, Mobarakol Islam, Hongliang Ren, Laurence B. Lovat, José M. M. Montiel, Danail Stoyanov, (参考訳) 大腸癌は世界で最も一般的ながんの1つである。 大腸内視鏡検査は効果的なスクリーニング法であるが,ポリープ検出のために内視鏡を大腸をナビゲートすることは困難である。 観察された表面の3Dマップは、スクリーニングされていない大腸組織の同定を強化し、トレーニングプラットフォームとして機能する可能性がある。 しかし,ビデオ映像からの大腸再建は依然として困難である。 学習ベースのアプローチは、堅牢な代替手段としての可能性を秘めているが、広範なデータセットを必要とする。 ベンチマークデータセットを確立した2022 EndoVisのサブチャレンジSimCol3Dは、データ駆動の深度を促進し、大腸内視鏡中に予測を行う。 この挑戦はMICCAI 2022の一部としてシンガポールで開催された。 世界中の6つのチームと、学術・産業の代表チームが、合成深度予測、合成ポーズ予測、リアルポーズ予測という3つのサブチャレンジに参加した。 本稿では,課題,提案手法,その結果について述べる。 合成大腸内視鏡画像からの深度予測は頑健に解けるが, ポーズ推定は未解決の課題である。

Colorectal cancer is one of the most common cancers in the world. While colonoscopy is an effective screening technique, navigating an endoscope through the colon to detect polyps is challenging. A 3D map of the observed surfaces could enhance the identification of unscreened colon tissue and serve as a training platform. However, reconstructing the colon from video footage remains difficult. Learning-based approaches hold promise as robust alternatives, but necessitate extensive datasets. Establishing a benchmark dataset, the 2022 EndoVis sub-challenge SimCol3D aimed to facilitate data-driven depth and pose prediction during colonoscopy. The challenge was hosted as part of MICCAI 2022 in Singapore. Six teams from around the world and representatives from academia and industry participated in the three sub-challenges: synthetic depth prediction, synthetic pose prediction, and real pose prediction. This paper describes the challenge, the submitted methods, and their results. We show that depth prediction from synthetic colonoscopy images is robustly solvable, while pose estimation remains an open research question.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-02
# セグメンテーションのための単画像テスト時間適応

Single Image Test-Time Adaptation for Segmentation ( http://arxiv.org/abs/2309.14052v2 )

ライセンス: Link先を確認
Klara Janouskova, Tamir Shor, Chaim Baskin, Jiri Matas, (参考訳) テスト時間適応(TTA)手法は、ディープニューラルネットワークの堅牢性を改善し、画像分類やセグメンテーションといったさまざまなタスクにおけるドメインシフトを改善する。 この研究では、セグメンテーションモデルを、テスト時に利用可能な他のデータなしで、単一のラベルのないイメージに適応させる方法について検討する。 特に、この研究は、テスト時の自己監督的損失を最適化することで適応に焦点を当てている。 異なる原理に基づく複数のベースラインを多種多様な条件下で評価し,マスクリファインメントに適応するための新たな対戦訓練を導入する。 我々のベースラインへの追加は、非適応ベースラインよりも3.51と3.28%増加し、これらの改善がなければ1.7と2.16%の増加となる。

Test-Time Adaptation (TTA) methods improve the robustness of deep neural networks to domain shift on a variety of tasks such as image classification or segmentation. This work explores adapting segmentation models to a single unlabelled image with no other data available at test-time. In particular, this work focuses on adaptation by optimizing self-supervised losses at test-time. Multiple baselines based on different principles are evaluated under diverse conditions and a novel adversarial training is introduced for adaptation with mask refinement. Our additions to the baselines result in a 3.51 and 3.28 % increase over non-adapted baselines, without these improvements, the increase would be 1.7 and 2.16 % only.
翻訳日:2024-07-04 20:43:01 公開日:2024-07-02
# GlotLID:低リソース言語のための言語識別

GlotLID: Language Identification for Low-Resource Languages ( http://arxiv.org/abs/2310.16248v3 )

ライセンス: Link先を確認
Amir Hossein Kargaran, Ayyoob Imani, François Yvon, Hinrich Schütze, (参考訳) 最近のいくつかの論文は、約300の高ソースおよび中ソース言語に対して、言語識別(LID)のための優れたソリューションを公表している。 ただし、LIDは利用できない。 (i)低リソース言語を幅広くカバーする。 (二)厳格に評価され信頼性がある (三)効率的で使い易い。 本稿では,LIDモデルGlotLID-Mについて述べる。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。 実験では,F1と偽陽性率(FPR)のバランスをとる場合,GlotLID-Mは4つのベースライン(CLD3,FT176,OpenLID,NLLB)を上回った。 低リソースのLIDがもたらすユニークな課題は、不正なコーパスメタデータ、高リソース言語からの漏洩、密接に関連する言語分離の難しさ、マクロ言語対多様体の扱い、一般的なノイズの多いデータである。 GlotLID-Mをデータセット生成パイプラインに統合することで,低リソース言語や文化に対するNLP技術の品質向上とアクセシビリティ向上が期待できる。 GlotLID-Mモデル(将来のバージョンを含む)、コード、データソースのリストが利用可能である。

Several recent papers have published good solutions for language identification (LID) for about 300 high-resource and medium-resource languages. However, there is no LID available that (i) covers a wide range of low-resource languages, (ii) is rigorously evaluated and reliable and (iii) efficient and easy to use. Here, we publish GlotLID-M, an LID model that satisfies the desiderata of wide coverage, reliability and efficiency. It identifies 1665 languages, a large increase in coverage compared to prior work. In our experiments, GlotLID-M outperforms four baselines (CLD3, FT176, OpenLID and NLLB) when balancing F1 and false positive rate (FPR). We analyze the unique challenges that low-resource LID poses: incorrect corpus metadata, leakage from high-resource languages, difficulty separating closely related languages, handling of macrolanguage vs varieties and in general noisy data. We hope that integrating GlotLID-M into dataset creation pipelines will improve quality and enhance accessibility of NLP technology for low-resource languages and cultures. GlotLID-M model (including future versions), code, and list of data sources are available: https://github.com/cisnlp/GlotLID.
翻訳日:2024-07-04 20:33:17 公開日:2024-07-02
# 断熱量子プロセスにおけるトンネル発生時のクリープ-超クリープギャップのトポロジカル判別

Topological Discrimination of Steep to Supersteep Gap to Emergence of Tunneling in Adiabatic Quantum Processes ( http://arxiv.org/abs/2311.10333v2 )

ライセンス: Link先を確認
Edmond Jonckheere, (参考訳) 量子アニール過程の速度を制限するギャップは、次の3つの顕著な形態を取ることができる。 i) 地表面と第1の励起アイジェネギーレベル曲線の両方が、最大面と最小面の両方を与える近傍の屈折点の位相的に関係する対を持つ超クリープギャップ。 (II)第1の励起アイジェネギーレベル曲線のみが最低限の急な面を与える一対の反射点を持つような急な隙間であって、地上レベルの最大は屈折点を示さないこと。 (三)ゆがみのない緩やかな隙間 屈折点によって裏切られた様々な特異点の分類は、行列 H0+iH1 の二次数値範囲写像の臨界値曲線に依存する。 地平線は数値範囲の一般的な滑らかな境界線にマッピングされ、第1の励起線は内面の非滑らかな臨界値曲線にマッピングされる。 主な結果として、下肢尾部の位置が境界に比例し、上肢と急激な識別が可能であるのに対し、下肢尾部境界相互作用が欠如していることが軽度のギャップを特徴づけている。 特異点解析の系として、グロバー探索の高度に構造化された初期および最終ハミルトニアンは不安定な特異点を生成し、不安定な特異点の周囲で計算されたギャップスケーリング推定を無効にする。 大域的な観点からの全ての安定特異点の分類は、エネルギー準位曲線が接空間におけるレジェンド的結び目となるレジェンド的アプローチを必要とする。 最後に、スズメの尻尾がトンネルを準備していることが示される。

It is shown that the gap that limits the speed of a quantum annealing process can take three salient morphologies: (i) the supersteep gap where both the ground and the first excited eigenenergy level curves have topologically related pairs of nearby inflection points giving both the maximum and the minimum a steep aspect, (ii) the steep gap where only the first excited eigenenergy level curve has a pair of inflection points giving its minimum a steep aspect while the maximum of the ground level does not exhibit inflection points, and (iii) the mild gap that has no related inflection points. Classification of the various singularities betrayed by the inflection points relies on the critical value curves of the quadratic numerical range mapping of the matrix H0+iH1, where H0 is the transverse field Hamiltonian and H1 the problem Hamiltonian. It is shown that the ground level is mapped to the generically smooth boundary of the numerical range, while the first excited level is mapped to an interior non-smooth critical value curve exhibiting swallow tails. The major result is that the position of the swallow tails relative to the boundary allows the supersteep versus steep discrimination, while the absence of swallow tail-boundary interaction characterizes the mild gap. As a corollary of the singularity analysis, the highly structured initial and final Hamiltonians of the Grover search create unstable singularities that break into stable swallow tails under perturbation, with the consequence of invalidating the gap scaling estimates computed around the unstable singularity. Classification of all stable singularities from a global viewpoint requires the Legendrian approach where the energy level curves become Legendrian knots in the contact space. Last but not least, it will be shown that a supersteep swallow tail previews tunneling.
翻訳日:2024-07-04 20:33:16 公開日:2024-07-02
# RedditでAI生成コンテンツをモデレートする「見逃している場所」

"There Has To Be a Lot That We're Missing": Moderating AI-Generated Content on Reddit ( http://arxiv.org/abs/2311.12702v4 )

ライセンス: Link先を確認
Travis Lloyd, Joseph Reagle, Mor Naaman, (参考訳) ジェネレーティブAIは、私たちの働き方、学び方、コミュニケーション方、オンラインコミュニティへの参加方法を変え始めている。 私たちのオンラインコミュニティは、生成AIによってどのように変えられるのか? この問題に対処するために、我々はAIGC(AIGC)を使ったオンラインコミュニティモデレーターの経験に注目した。 われわれは、ソーシャル共有サイトRedditのコミュニティモデレーターと、AIGCに対する態度とコミュニティの反応を理解するために、詳細な、半構造化された15のインタビューを行った。 我々の研究によると、コミュニティはイデオロギーと実践の両方の理由からAIGCの使用を制限する規則を制定している。 我々は、AIGCを検知するばかげたツールがないにもかかわらず、モデレーターはAIGCの使用に関する規範を明確にするためにコミュニティと協力して、この新しい現象によって引き起こされる破壊を幾らか制限することができたことに気付いた。 しかし、モデレーターはAIGCの制限を強制することは困難であり、その努力には時間集約的で不正確な検出ヒューリスティックに頼る必要があった。 この急激な技術的変化に直面して、コミュニティの自主性と自己決定を支援することの重要性を強調し、潜在的な設計ソリューションを提案する。

Generative AI has begun to alter how we work, learn, communicate, and participate in online communities. How might our online communities be changed by generative AI? To start addressing this question, we focused on online community moderators' experiences with AI-generated content (AIGC). We performed fifteen in-depth, semi-structured interviews with community moderators on the social sharing site Reddit to understand their attitudes towards AIGC and how their communities are responding. Our study finds communities are choosing to enact rules restricting use of AIGC for both ideological and practical reasons. We find that, despite the absence of foolproof tools for detecting AIGC, moderators were able to somewhat limit the disruption caused by this new phenomenon by working with their communities to clarify norms about AIGC use. However, moderators found enforcing AIGC restrictions challenging, and had to rely on time-intensive and inaccurate detection heuristics in their efforts. Our results highlight the importance of supporting community autonomy and self-determination in the face of this sudden technological change, and suggest potential design solutions that may help.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-02
# サブシステムCSSコード、よりタイトなStabler-to-CSSマッピング、GoursatのLemma

Subsystem CSS codes, a tighter stabilizer-to-CSS mapping, and Goursat's Lemma ( http://arxiv.org/abs/2311.18003v2 )

ライセンス: Link先を確認
Michael Liaofan Liu, Nathanan Tantivasadakarn, Victor V. Albert, (参考訳) CSSコード構築は、量子コードの特徴を基礎となる2つの古典的コードの観点から表現するために使用される強力なフレームワークである。 そのサブシステム拡張は同様の表現を可能にするが、一般的なケースは十分に調査されていない。 Aly, Klappenecker, Sarvepalli[quantph/0610153]の以前の作業を拡張して, サブシステムCSSコードパラメータを決定し, コードワードを表現し, 2つの基本となる古典的コードからのデータのみを用いて, Steane型デコーダを開発する。 Kovalev と Pryadko [Phys. Rev. A 88 012311 (2013)] の結果を一般化すると、任意のサブシステム安定化コードを「倍増」して、物理的、論理的、ゲージクォーディットの2倍、コード距離の2倍のサブシステムCSSコードが得られることを示す。 この写像は局所性を保ち、マヨラナをベースとしたブラヴィイ、テルハル、リームフイの写像よりも厳密である(New J. Phys. 12 083039 (2010))。 GoursatのLemmaを使って、ある制約を満たす2つのネストされたサブシステムCSSコードから、すべてのサブシステム安定化器コードを構築できることを示し、ネストされたコードの性質に基づいてサブシステム安定化器コードを特徴付ける。

The CSS code construction is a powerful framework used to express features of a quantum code in terms of a pair of underlying classical codes. Its subsystem extension allows for similar expressions, but the general case has not been fully explored. Extending previous work of Aly, Klappenecker, and Sarvepalli [quantph/0610153], we determine subsystem CSS code parameters, express codewords, and develop a Steane-type decoder using only data from the two underlying classical codes. Generalizing a result of Kovalev and Pryadko [Phys. Rev. A 88 012311 (2013)], we show that any subsystem stabilizer code can be "doubled" to yield a subsystem CSS code with twice the number of physical, logical, and gauge qudits and up to twice the code distance. This mapping preserves locality and is tighter than the Majorana-based mapping of Bravyi, Terhal, and Leemhuis [New J. Phys. 12 083039 (2010)]. Using Goursat's Lemma, we show that every subsystem stabilizer code can be constructed from two nested subsystem CSS codes satisfying certain constraints, and we characterize subsystem stabilizer codes based on the nested codes' properties.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-02
# 家畜の給餌行動:反響モニタリングの自動化システムについて

Livestock feeding behaviour: A review on automated systems for ruminant monitoring ( http://arxiv.org/abs/2312.09259v3 )

ライセンス: Link先を確認
José Chelotti, Luciano Martinez-Rau, Mariano Ferrero, Leandro Vignolo, Julio Galli, Alejandra Planisich, H. Leonardo Rufiner, Leonardo Giovanini, (参考訳) 家畜の飼育行動は、畜産と農業に関わる人々にとって重要な研究分野である。 近年,反響者の行動を監視する自動化システムへの関心が高まっている。 過去10年間に達成された進歩にもかかわらず、家畜の摂食行動の測定と分析の方法について学ぶことはまだまだたくさんある。 自動監視システムは、主に動き、音響、画像センサーを使用して動物の行動データを収集する。 既存手法の性能評価は複雑であり,研究間の直接比較は困難である。 実験で使用されるデータとパフォーマンスメトリクスの多様性から始めると、いくつかの要因が直接比較を妨げます。 我々の知る限り、この研究は反響者の摂食行動の分析に関する最初のチュートリアルスタイルのレビューであり、検知方法、信号処理、および計算知能法との関係を強調している。 主な感知方法(動き、音、画像、映像、圧力に基づく)と、食事行動に関連する信号を計測し分析する主要な技術を評価し、異なる状況や状況におけるそれらの使用を評価する。 また、家畜の給餌行動の理解を深めるための貴重な情報を提供する自動監視システムの可能性を強調します。 これらのシステムの関連性は、生産システムや研究に影響を及ぼすため、ますます重要になっている。 最後に、家畜の摂食行動モニタリングにおける今後の課題と機会について論じる。

Livestock feeding behaviour is an influential research area for those involved in animal husbandry and agriculture. In recent years, there has been a growing interest in automated systems for monitoring the behaviour of ruminants. Despite the developments accomplished in the last decade, there is still much to do and learn about the methods for measuring and analysing livestock feeding behaviour. Automated monitoring systems mainly use motion, acoustic, and image sensors to collect animal behavioural data. The performance evaluation of existing methods is a complex task and direct comparisons between studies are difficult. Several factors prevent a direct comparison, starting from the diversity of data and performance metrics used in the experiments. To the best of our knowledge, this work represents the first tutorial-style review on the analysis of the feeding behaviour of ruminants, emphasising the relationship between sensing methodologies, signal processing, and computational intelligence methods. It assesses the main sensing methodologies (i.e. based on movement, sound, images/videos, and pressure) and the main techniques to measure and analyse the signals associated with feeding behaviour, evaluating their use in different settings and situations. It also highlights the potentiality of automated monitoring systems to provide valuable information that improves our understanding of livestock feeding behaviour. The relevance of these systems is increasingly important due to their impact on production systems and research. Finally, the paper closes by discussing future challenges and opportunities in livestock feeding behaviour monitoring.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-02
# イオンを捕捉した二モードスクイーズとSU(1,1)インターフェロメトリ

Two-mode squeezing and SU(1,1) interferometry with trapped ions ( http://arxiv.org/abs/2312.10847v2 )

ライセンス: Link先を確認
J. Metzner, A. Quinn, S. Brudney, I. D. Moore, S. C. Burd, D. J. Wineland, D. T. C Allcock, (参考訳) 単一イオンの2つの運動モードに対して, 1モードと2モードの回路を実験的に実装した。 これは、トラップ電極に印加される振動電位を用いて、所要の変位、スクイーズ、2モードスクイーズ、ビームスプリッタ演算を実装することで達成される。 結果として生じる電場は、光力を必要とせずに、モードを共鳴またはパラメトリックに駆動する。 実演として、Cram\'er-Rao境界付近の位相感度を持つSU(2)およびSU(1,1)干渉計を実装する。 我々は、標準量子限界(SQL)の0.67(5)\,$dBのSU(2)干渉計の最大感度と、SQLの下の5.9(2)\,$dBと4.5(2)\,$dBの1モードのSU(1,1)感度を報告する。

We experimentally implement circuits of one and two mode operations on two motional modes of a single trapped ion. This is achieved by implementing the required displacement, squeezing, two-mode squeezing, and beamsplitter operations using oscillating electric potentials applied to the trap electrodes. The resulting electric fields drive the modes resonantly or parametrically without the need for optical forces. As a demonstration, we implement SU(2) and SU(1,1) interferometers with phase sensitivities near the Cram\'er-Rao bound. We report a maximum sensitivity of a SU(2) interferometer within $0.67(5)\,$dB of the standard quantum limit (SQL) as well as a single and two-mode SU(1,1) sensitivity of $5.9(2)\,$dB and $4.5(2)\,$dB below the SQL respectively.
翻訳日:2024-07-04 20:23:32 公開日:2024-07-02
# Synergy: ウェアラブル上でのTiny AI AcceleratorコラボレーションによるオンボディAIを目指す

Synergy: Towards On-Body AI via Tiny AI Accelerator Collaboration on Wearables ( http://arxiv.org/abs/2401.08637v2 )

ライセンス: Link先を確認
Taesik Gong, Si Young Jang, Utku Günay Acer, Fahim Kawsar, Chulhong Min, (参考訳) 小型人工知能(AI)アクセラレーターの出現により、AIは極端に動作し、レイテンシを低減し、電力コストを低減し、プライバシーを改善した。 ウェアラブルデバイスに統合されると、これらのアクセラレーターはエキサイティングな機会を開き、さまざまなAIアプリが直接体の上で動くようになる。 我々は、AIアクセラレーターを搭載したウェアラブルに対して、システム駆動の全体的コラボレーションを通じて、AIアプリに最高のパフォーマンスを提供するSynergyを紹介します。 これを実現するため、SynergyはAIアプリにデバイスに依存しないプログラミングインターフェースを提供し、アプリのリソース使用に対するシステムの可視性と制御性を提供する。 次に、Synergyは、AIアクセラレーションの可用性を考慮して各アプリのさまざまな実行計画を作成し、最適な実行計画を選択することで、並行AIモデルの推論スループットを最大化する。 Synergyは、複数の計算ユニットにまたがる並列化の機会を活用することで、スループットをさらに向上する。 7つのベースラインと8つのモデルで評価した結果,Synergyは平均23.0倍のスループット向上を実現し,レイテンシを73.9%,消費電力を15.8%削減した。

The advent of tiny artificial intelligence (AI) accelerators enables AI to run at the extreme edge, offering reduced latency, lower power cost, and improved privacy. When integrated into wearable devices, these accelerators open exciting opportunities, allowing various AI apps to run directly on the body. We present Synergy that provides AI apps with best-effort performance via system-driven holistic collaboration over AI accelerator-equipped wearables. To achieve this, Synergy provides device-agnostic programming interfaces to AI apps, giving the system visibility and controllability over the app's resource use. Then, Synergy maximizes the inference throughput of concurrent AI models by creating various execution plans for each app considering AI accelerator availability and intelligently selecting the best set of execution plans. Synergy further improves throughput by leveraging parallelization opportunities over multiple computation units. Our evaluations with 7 baselines and 8 models demonstrate that, on average, Synergy achieves a 23.0 times improvement in throughput, while reducing latency by 73.9% and power consumption by 15.8%, compared to the baselines.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-02
# ColorVideoVDP:画像、ビデオ、表示歪みの視覚差予測器

ColorVideoVDP: A visual difference predictor for image, video and display distortions ( http://arxiv.org/abs/2401.11485v2 )

ライセンス: Link先を確認
Rafal K. Mantiuk, Param Hanji, Maliha Ashraf, Yuta Asano, Alexandre Chapiro, (参考訳) ColorVideoVDP(カラービデオVDP)は、視覚の空間的側面と時間的側面を、輝度と色の両方でモデル化したビデオと画質のメトリクスである。 この指標は、色空間の時間的コントラスト感度とチャンネル間のコントラストマスキングという新しい心理物理学モデルに基づいて構築されている。 ディスプレイの観察条件、幾何学的、および測光的特性を考慮に入れている。 一般的なビデオストリーミングの歪み(例えば、ビデオ圧縮、再スケーリング、送信エラー)の予測と、AR/VRディスプレイ(例えば、光源と導波路の非均一性)に関連する8つの新しい歪みタイプをトレーニングした。 後者のアプリケーションに対処するため,336の歪みビデオからなる新しいXR-Display-Artifact-Video Quality Data (XR-DAVID) を収集した。 XR-DAVIDの大規模なテストと文献からのいくつかのデータセットは、既存のメトリクスと比較して予測性能が大幅に向上したことを示している。 ColorVideoVDPは、ビデオストリーミング、ディスプレイ仕様とデザイン、結果の視覚的比較、知覚的に誘導された品質最適化など、輝度と色歪みの同時自動時空間評価を必要とする多くの新しいアプリケーションへの扉を開く。

ColorVideoVDP is a video and image quality metric that models spatial and temporal aspects of vision, for both luminance and color. The metric is built on novel psychophysical models of chromatic spatiotemporal contrast sensitivity and cross-channel contrast masking. It accounts for the viewing conditions, geometric, and photometric characteristics of the display. It was trained to predict common video streaming distortions (e.g. video compression, rescaling, and transmission errors), and also 8 new distortion types related to AR/VR displays (e.g. light source and waveguide non-uniformities). To address the latter application, we collected our novel XR-Display-Artifact-Video quality dataset (XR-DAVID), comprised of 336 distorted videos. Extensive testing on XR-DAVID, as well as several datasets from the literature, indicate a significant gain in prediction performance compared to existing metrics. ColorVideoVDP opens the doors to many novel applications which require the joint automated spatiotemporal assessment of luminance and color distortions, including video streaming, display specification and design, visual comparison of results, and perceptually-guided quality optimization.
翻訳日:2024-07-04 20:13:45 公開日:2024-07-02
# AIが生成した画像から人間のアートを区別できるのか?

Organic or Diffused: Can We Distinguish Human Art from AI-generated Images? ( http://arxiv.org/abs/2402.03214v3 )

ライセンス: Link先を確認
Anna Yoo Jeong Ha, Josephine Passananti, Ronik Bhaskar, Shawn Shan, Reid Southen, Haitao Zheng, Ben Y. Zhao, (参考訳) 生成的AI画像の出現は、アートの世界を完全に破壊した。 AIが生成した画像を人間のアートから取り除くことは、時間の経過とともにその影響が拡大する難しい問題だ。 この問題に対処できないため、悪いアクターは、AIイメージを禁止したポリシーを掲げる人間芸術や企業に対してプレミアムを支払う個人を欺くことができる。 また、コンテンツ所有者が著作権を確立することや、潜在的なモデルの崩壊を避けるためにトレーニングデータのキュレーションに関心のあるモデルトレーナーにとっても重要である。 人間のアートとAIのイメージを区別するためのアプローチには、教師付き学習によって訓練された分類器、拡散モデルをターゲットにした研究ツール、芸術技術に関する知識を使ったプロのアーティストによる識別など、いくつかの異なるものがある。 本稿では,これらの手法が,今日の近代的生成モデルに対して,良性および逆性の両方において,いかに効果的に機能するかを理解することを目的とする。 私たちは、実際の人間のアートを7つのスタイルでキュレートし、5つの生成モデルからマッチング画像を生成し、8つの検出器(5つの自動検出器と180人のクラウドワーカー、4000人以上のプロアーティスト、13人の専門家アーティストを含む3つの異なる人間グループ)を適用します。 Hiveとエキスパートアーティストはどちらも非常にうまく機能するが、異なる方法で間違いを犯す(Hiveは敵の摂動に対して弱く、エキスパートアーティストは高い偽陽性を生成する)。 モデルが進化を続けるにつれて、これらの弱点は今後も続くと私たちは信じており、私たちのデータを使って、人間と自動化された検出器のチームが、正確性と堅牢性の最高の組み合わせを提供する理由を実証しています。

The advent of generative AI images has completely disrupted the art world. Distinguishing AI generated images from human art is a challenging problem whose impact is growing over time. A failure to address this problem allows bad actors to defraud individuals paying a premium for human art and companies whose stated policies forbid AI imagery. It is also critical for content owners to establish copyright, and for model trainers interested in curating training data in order to avoid potential model collapse. There are several different approaches to distinguishing human art from AI images, including classifiers trained by supervised learning, research tools targeting diffusion models, and identification by professional artists using their knowledge of artistic techniques. In this paper, we seek to understand how well these approaches can perform against today's modern generative models in both benign and adversarial settings. We curate real human art across 7 styles, generate matching images from 5 generative models, and apply 8 detectors (5 automated detectors and 3 different human groups including 180 crowdworkers, 4000+ professional artists, and 13 expert artists experienced at detecting AI). Both Hive and expert artists do very well, but make mistakes in different ways (Hive is weaker against adversarial perturbations while Expert artists produce higher false positives). We believe these weaknesses will remain as models continue to evolve, and use our data to demonstrate why a combined team of human and automated detectors provides the best combination of accuracy and robustness.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-02
# ミュラーの定理の2つの簡単な証明

Two Simple Proofs of Müller's Theorem ( http://arxiv.org/abs/2402.05328v4 )

ライセンス: Link先を確認
Samuel Epstein, (参考訳) M\"{u}ller の定理により、弦のコルモゴロフ複雑性はその量子コルモゴロフ複雑性と等しいことが示されている。 したがって、古典的な情報を圧縮するために量子力学を使用する利点はない。 古典的な情報源の量的な情報は、使用する物理モデルに不変である。 これらの結果から、この定理はアルゴリズム情報理論と物理学の交わりにおいておそらく最も重要な結果となる。 元々の証明は非常に広範である。 本論文は、この定理の2つの簡単な証明を含む。 この論文は、誤りを伴う量子コルモゴロフ複雑性の新しい境界も含んでいる。

Due to M\"{u}ller's theorem, the Kolmogorov complexity of a string was shown to be equal to its quantum Kolmogorov complexity. Thus there are no benefits to using quantum mechanics to compress classical information. The quantitative amount of information in classical sources is invariant to the physical model used. These consequences make this theorem arguably the most important result in the intersection of algorithmic information theory and physics. The original proof is quite extensive. This paper contains two simple proofs of this theorem. This paper also contains new bounds for quantum Kolmogorov complexity with error.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-02
# 大規模言語モデルにおける分枝・分枝プロンプティングの有効性の検討

An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models ( http://arxiv.org/abs/2402.05359v6 )

ライセンス: Link先を確認
Yizhou Zhang, Lun Du, Defu Cao, Qiang Fu, Yan Liu, (参考訳) LLM(Large Language Models)のような基礎的なモデルは、多数のアプリケーションによって大きな関心を集めている。 しかし、算術計算や記事レベルの偽ニュース検出など、反復的なサブタスクや偽装コンテンツを含むタスクを扱う場合、単純な命令プロンプトは不正確な応答に悩まされる。 既存の研究は、Chain-of-ThoughtsやLeast-to-Mostのようなより複雑なプロンプト戦略が、様々な分野でLLMの強力な能力を解き放つことを示している。 近年の研究では、入力シーケンスを複数のサブインプットに分割するだけで、誤情報検出などの特定のタスクにおけるLCMの性能を大幅に向上させることができる。 本稿では,この戦略がどのようなタスクに有利になるのかを,分断・分断促進戦略の有用性を検証し,その課題に対処することを目的とする。 具体的には,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。 次に、実験結果が理論解析と一致する2つのケース(大整数算術と実数検証)を提示する。

Foundation models, such as Large language Models (LLMs), have attracted significant amount of interest due to their large number of applications. However, when handling tasks involving repetitive sub-tasks and/or deceptive contents, such as arithmetic calculation and article-level fake news detection, simple instructional prompts suffer from inaccurate responses. Existing works show that more complicated prompting strategies, such as Chain-of-Thoughts and Least-to-Most, can unlock LLM's powerful capacity in diverse areas. Recent researches reveal that simple divide-and-conquer prompting strategy, i.e. simply dividing the input sequence to multiple sub-inputs, can also substantially improve LLM's performance in some specific tasks such as misinformation detection. In this paper, we aim at examining the utility of divide-and-conquer prompting strategy and answer on which kind of tasks this strategy gets advantages. Specifically, we provide a theoretic analysis to divide-and-conquer prompting strategy and help us identify the specific tasks where DaC prompting can bring performance boost with theoretic guarantee. We then present two cases (large integer arithmetic and fact verification) where experimental results aligns with our theoretic analysis.
翻訳日:2024-07-04 20:04:00 公開日:2024-07-02
# 光空洞における集合XYZスピンモデルのハミルトン工学

Hamiltonian Engineering of collective XYZ spin models in an optical cavity ( http://arxiv.org/abs/2402.19429v2 )

ライセンス: Link先を確認
Chengyi Luo, Haoqing Zhang, Anjun Chu, Chitose Maruko, Ana Maria Rey, James K. Thompson, (参考訳) 合成量子システムを用いた量子シミュレーションは、多体物理学におけるオープンな質問を探索するユニークな機会を与え、有用な絡み合った状態を生成するための道筋を提供する。 それでも、これまで多くの量子シミュレーターは、それらが模倣できるモデルに根本的に制限されてきた。 ここでは、任意の二次ハミルトニアンあるいは事実上無限の範囲チューナブルなハイゼンベルクXYZモデルとのオール・ツー・オールな相互作用を実現することができる。 これは、700のルビジウム原子間の工学的な空洞による4光子相互作用によって達成され、そこでは1対の運動量状態が効果的な擬スピンまたはクビット自由度として利用される。 この能力を利用することで、平均場レベルでのいわゆる2軸逆回転モデルが初めて実現される。 我々のプラットフォームは、2つ以上の関連する運動量状態を含み、キャビティトーンを加えることでシミュレーションされたハミルトンの柔軟性と組み合わせることで、物質波干渉計および光学時計や磁気センサのような他の量子センサーにおける量子シミュレーションと量子センシングの豊富な機会が開ける。

Quantum simulation using synthetic quantum systems offers unique opportunities to explore open questions in many-body physics and a path for the generation of useful entangled states. Nevertheless, so far many quantum simulators have been fundamentally limited in the models they can mimic. Here, we are able to realize an all-to-all interaction with arbitrary quadratic Hamiltonian or effectively an infinite range tunable Heisenberg XYZ model. This is accomplished by engineering cavity-mediated four-photon interactions between 700 rubidium atoms in which we harness a pair of momentum states as the effective pseudo spin or qubit degree of freedom. Using this capability we realize for the first time the so-called two-axis counter-twisting model at the mean-field level. The versatility of our platform to include more than two relevant momentum states, combined with the flexibility of the simulated Hamiltonians by adding cavity tones opens rich opportunities for quantum simulation and quantum sensing in matter-wave interferometers and other quantum sensors such as optical clocks and magnetometers
翻訳日:2024-07-04 19:54:15 公開日:2024-07-02
# Deep Configuration Performance Learning: A Systematic Survey and Taxonomy

Deep Configuration Performance Learning: A Systematic Survey and Taxonomy ( http://arxiv.org/abs/2403.03322v2 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen, (参考訳) パフォーマンスは、構成可能なソフトウェアシステムの品質を反映する最も重要な属性であることは間違いない。 しかし、現代のソフトウェアの規模と複雑さの増大を考えると、様々な構成がパフォーマンスにどのように影響するかをモデリングし、予測することは、ソフトウェアメンテナンスにおける大きな課題の1つになります。 このように、パフォーマンスはソフトウェアシステムに詳しい知識を持たずにモデル化されることが多いが、主にデータに依存しており、これはディープラーニングの目的に正確に適合する。 本稿では6つの索引付けサービスにまたがる1,206件の検索論文を網羅し,99件の一次論文を抽出,分析した。 本研究は、構成データの作成、深層学習のパフォーマンスモデルの構築、それらのモデルの評価、各種ソフトウェア構成関連タスクにおける活用に関する技術に関する重要な統計、分類学、強度、弱点、そして最適利用シナリオについて概説し、また、調査した研究から、優れた実践と潜在的に問題となる事象を、現場における行動可能な提案と今後の可能性に関する洞察の包括的概要とともに明らかにする。 オープンサイエンスを促進するために、この調査の生の成果はすべて、私たちのリポジトリでアクセスできます。

Performance is arguably the most crucial attribute that reflects the quality of a configurable software system. However, given the increasing scale and complexity of modern software, modeling and predicting how various configurations can impact performance becomes one of the major challenges in software maintenance. As such, performance is often modeled without having a thorough knowledge of the software system, but relying mainly on data, which fits precisely with the purpose of deep learning. In this paper, we conduct a comprehensive review exclusively on the topic of deep learning for performance learning of configurable software, covering 1,206 searched papers spanning six indexing services, based on which 99 primary papers were extracted and analyzed. Our results outline key statistics, taxonomy, strengths, weaknesses, and optimal usage scenarios for techniques related to the preparation of configuration data, the construction of deep learning performance models, the evaluation of these models, and their utilization in various software configuration-related tasks.We also identify the good practices and potentially problematic phenomena from the studies surveyed, together with a comprehensive summary of actionable suggestions and insights into future opportunities within the field. To promote open science, all the raw results of this survey can be accessed at our repository: https://github.com/ideas-labo/DCPL-SLR.
翻訳日:2024-07-04 19:54:15 公開日:2024-07-02
# マルチ・ロバスト因果変化の寄与

Multiply-Robust Causal Change Attribution ( http://arxiv.org/abs/2404.08839v3 )

ライセンス: Link先を確認
Victor Quintas-Martinez, Mohammad Taha Bahadori, Eduardo Santiago, Jeff Mu, Dominik Janzing, David Heckerman, (参考訳) 2つのサンプルデータを比較して、結果変数の分布の変化を観察する。 複数の説明変数が存在する場合、それぞれの原因によってどの程度の変化が説明できるのか? 我々は、因果モデルから回帰法と再重み付け法を組み合わせて、それぞれの因果機構の寄与を定量化する新しい推定戦略を開発する。 提案手法は多元的ロバストであり,部分的不特定条件下でも対象パラメータを復元する。 我々は、推定器が一貫し、漸近的に正常であることを証明した。 さらに、Shapley値のような因果帰属のための既存のフレームワークにも組み込むことができ、一貫性と大規模な分布特性を継承する。 本手法はモンテカルロシミュレーションにおいて優れた性能を示し,その有効性を示す。 提案手法はPythonライブラリであるDoWhy(arXiv:2011.04216, arXiv:2206.06821)の一部として実装されている。

Comparing two samples of data, we observe a change in the distribution of an outcome variable. In the presence of multiple explanatory variables, how much of the change can be explained by each possible cause? We develop a new estimation strategy that, given a causal model, combines regression and re-weighting methods to quantify the contribution of each causal mechanism. Our proposed methodology is multiply robust, meaning that it still recovers the target parameter under partial misspecification. We prove that our estimator is consistent and asymptotically normal. Moreover, it can be incorporated into existing frameworks for causal attribution, such as Shapley values, which will inherit the consistency and large-sample distribution properties. Our method demonstrates excellent performance in Monte Carlo simulations, and we show its usefulness in an empirical application. Our method is implemented as part of the Python library DoWhy (arXiv:2011.04216, arXiv:2206.06821).
翻訳日:2024-07-04 19:44:31 公開日:2024-07-02
# 進化的アーキテクチャへの平衡伝播を用いたSNNのスケーリング

Scaling SNNs Trained Using Equilibrium Propagation to Convolutional Architectures ( http://arxiv.org/abs/2405.02546v3 )

ライセンス: Link先を確認
Jiaqi Lin, Malyaban Bal, Abhronil Sengupta, (参考訳) 平衡伝播(Equilibrium Propagation、EP)は、当初は収束性再帰ニューラルネットワーク(RNN)のために開発された生物学的に妥当な局所学習アルゴリズムである。 EPの勾配計算は、無限小のヌッジ係数を用いる場合、BPTT(Back Proagation Through Time)によって計算される勾配を近似することが示されている。 この特性により、EPはBPTTによって訓練されるスパイキングニューラルネットワーク(SNN)をトレーニングするための強力な候補となる。 しかし、スパイク領域では、EPに関する以前の研究は、少数の線形層を含むアーキテクチャに限られていた。 本研究では,EPを用いた畳み込みスパイク収束RNNと非スパイク収束RNNとのギャップを埋めて,初めて畳み込みスパイク収束RNNを訓練するための定式化を行う。 本研究では, 収束RNNをスパイクする場合, 最大プールと逆演算にミスマッチがあり, EPにおける不正確な勾配推定が導かれることを示した。 これを平均プールに置き換えることでこの問題を解決し、スパイク収束RNNの正確な勾配推定を可能にする。 また,BPTTと比較してEPのメモリ効率を強調した。 EPによりトレーニングされたSNNでは,MNISTデータセットとFashionMNISTデータセットの最先端性能がそれぞれ0.97%,8.89%であった。 これらの結果はBPTTで訓練された収束RNNやSNNと同等である。 これらの結果から,EPはオンチップトレーニングの最適選択であり,生物学的に予測可能な誤差勾配計算法であることが示された。

Equilibrium Propagation (EP) is a biologically plausible local learning algorithm initially developed for convergent recurrent neural networks (RNNs), where weight updates rely solely on the connecting neuron states across two phases. The gradient calculations in EP have been shown to approximate the gradients computed by Backpropagation Through Time (BPTT) when an infinitesimally small nudge factor is used. This property makes EP a powerful candidate for training Spiking Neural Networks (SNNs), which are commonly trained by BPTT. However, in the spiking domain, previous studies on EP have been limited to architectures involving few linear layers. In this work, for the first time we provide a formulation for training convolutional spiking convergent RNNs using EP, bridging the gap between spiking and non-spiking convergent RNNs. We demonstrate that for spiking convergent RNNs, there is a mismatch in the maximum pooling and its inverse operation, leading to inaccurate gradient estimation in EP. Substituting this with average pooling resolves this issue and enables accurate gradient estimation for spiking convergent RNNs. We also highlight the memory efficiency of EP compared to BPTT. In the regime of SNNs trained by EP, our experimental results indicate state-of-the-art performance on the MNIST and FashionMNIST datasets, with test errors of 0.97% and 8.89%, respectively. These results are comparable to those of convergent RNNs and SNNs trained by BPTT. These findings underscore EP as an optimal choice for on-chip training and a biologically-plausible method for computing error gradients.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-02
# Guylingo:Guyana Creole Corpora(英語)

Guylingo: The Republic of Guyana Creole Corpora ( http://arxiv.org/abs/2405.03832v3 )

ライセンス: Link先を確認
Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars, (参考訳) 主要言語は、しばしばかなりの注意と資源を享受するが、世界中の言語多様性は、同じレベルの計算支援を欠く、より小さく、先住民的、地域言語を含む。 そのような地域の一つがカリブ海である。 一般的に「英語」と名付けられているが、元カリブ海地域は英語と共に繁栄するクレオール語が多数存在する。 本稿では,ガイアナの文化的に豊かな国で最も広く話されている言語であるクレオール語(グアーン英語・レキシコンクレオール語)の領域におけるNLP研究を促進するために設計された包括的コーパスであるGuylingoを紹介する。 我々はまず,この多言語コーパスの収集とデジタル化のための枠組みについて概説する。 次に、クレオールにおける機械翻訳のためのNLPモデルの訓練と評価の課題を示す。 最後に、カリブ海における公用語としてのクレオール語の公式導入を促進するため、最近のNLPの進歩によってもたらされる特異な機会について論じる。

While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the Caribbean. While commonly labeled as "English speaking", the ex-British Caribbean region consists of a myriad of Creole languages thriving alongside English. In this paper, we present Guylingo: a comprehensive corpus designed for advancing NLP research in the domain of Creolese (Guyanese English-lexicon Creole), the most widely spoken language in the culturally rich nation of Guyana. We first outline our framework for gathering and digitizing this diverse corpus, inclusive of colloquial expressions, idioms, and regional variations in a low-resource language. We then demonstrate the challenges of training and evaluating NLP models for machine translation in Creole. Lastly, we discuss the unique opportunities presented by recent NLP advancements for accelerating the formal adoption of Creole languages as official languages in the Caribbean.
翻訳日:2024-07-04 19:34:44 公開日:2024-07-02
# 非定型音声へのASRのパーソナライズのためのハイパーネット

Hypernetworks for Personalizing ASR to Atypical Speech ( http://arxiv.org/abs/2406.04240v4 )

ライセンス: Link先を確認
Max Müller-Eberstein, Dianna Yee, Karren Yang, Gautam Varma Mantena, Colin Lea, (参考訳) 自動音声認識(ASR)をパーソナライズするためのパラメータ効率のよい微調整(PEFT)は,最近,一般集団モデルを非定型音声に適用することを約束している。 しかし、これらのアプローチは、非典型的言語障害が適応されているという先駆的な知識を前提としており、その診断には、常に利用できるわけではない専門家の知識が必要である。 この知識を踏まえると、データ不足とイントラスピーカー間の高いばらつきにより、従来の微調整の有効性はさらに制限される。 これらの課題を回避するために、まずASR適応に必要なモデルパラメータの最小セットを同定する。 適応性能に対する各パラメータの影響の分析により,全重みの0.03%を適応しながらワード誤り率(WER)を半減することができる。 次に,コホート固有モデルの必要性を軽減し,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成するメタ学習型ハイパーネットワークを提案する。 グローバル,コホート,個人レベルでの適応を評価することで,ハイパーネットワークは,全パラメータ予算の0.1%を用いて,WER全体の75.2%削減を維持しつつ,アウト・オブ・ディストリビューション話者よりも一般化されていることを示す。

Parameter-efficient fine-tuning (PEFT) for personalizing automatic speech recognition (ASR) has recently shown promise for adapting general population models to atypical speech. However, these approaches assume a priori knowledge of the atypical speech disorder being adapted for -- the diagnosis of which requires expert knowledge that is not always available. Even given this knowledge, data scarcity and high inter/intra-speaker variability further limit the effectiveness of traditional fine-tuning. To circumvent these challenges, we first identify the minimal set of model parameters required for ASR adaptation. Our analysis of each individual parameter's effect on adaptation performance allows us to reduce Word Error Rate (WER) by half while adapting 0.03% of all weights. Alleviating the need for cohort-specific models, we next propose the novel use of a meta-learned hypernetwork to generate highly individualized, utterance-level adaptations on-the-fly for a diverse set of atypical speech characteristics. Evaluating adaptation at the global, cohort and individual-level, we show that hypernetworks generalize better to out-of-distribution speakers, while maintaining an overall relative WER reduction of 75.2% using 0.1% of the full parameter budget.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-02
# 脳の微妙な教訓:自己監督型学習による音声デコーディングのスケーリング

The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning ( http://arxiv.org/abs/2406.04328v2 )

ライセンス: Link先を確認
Dulhan Jayalath, Gilad Landau, Brendan Shillingford, Mark Woolrich, Oiwi Parker Jones, (参考訳) 過去数年間、脳の活動から発せられる音声の復号化において、目覚ましい進歩を遂げてきた。 これらの進歩のエンジンはラベル付きデータの取得であり、ますます大きなデータセットが単一の被験者から取得されるようになっている。 しかし、参加者は解剖学的および他の個人差を示し、データセットは様々なスキャナーとタスクデザインを使用する。 その結果、事前の作業では、複数の課題、複数のデータセット、複数のタスク、非競合的なデータセットからのデータを活用するのに苦労している。 逆にこの分野は、大規模データとディープラーニングを活用するオープンなニューラルネットワークレポジトリの急増による恩恵を受けていない。 これを解決するために、我々は、神経科学にインスパイアされた自己教師対象の初期のセットを、神経アーキテクチャとともに開発し、異種および非競合的な神経記録からの学習を表現する。 実験の結果、これらの目的によって学習された表現は、データとともにスケールし、対象、データセット、タスクをまたいで一般化し、ラベル付きデータのみを使用してより速く学習されることが示されている。 さらに,2つの基礎的音声復号処理のための新しいベンチマークを設定した。 まとめると、これらの手法は、膨大な量の既存のデータで音声復号モデルを訓練する可能性を解き放つ。

The past few years have produced a series of spectacular advances in the decoding of speech from brain activity. The engine of these advances has been the acquisition of labelled data, with increasingly large datasets acquired from single subjects. However, participants exhibit anatomical and other individual differences, and datasets use varied scanners and task designs. As a result, prior work has struggled to leverage data from multiple subjects, multiple datasets, multiple tasks, and unlabelled datasets. In turn, the field has not benefited from the rapidly growing number of open neural data repositories to exploit large-scale data and deep learning. To address this, we develop an initial set of neuroscience-inspired self-supervised objectives, together with a neural architecture, for representation learning from heterogeneous and unlabelled neural recordings. Experimental results show that representations learned with these objectives scale with data, generalise across subjects, datasets, and tasks, and are also learned faster than using only labelled data. In addition, we set new benchmarks for two foundational speech decoding tasks. Taken together, these methods now unlock the potential for training speech decoding models with orders of magnitude more existing data.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-02
# 強化学習による光学系の絡み合い工学

Entanglement engineering of optomechanical systems by reinforcement learning ( http://arxiv.org/abs/2406.04550v2 )

ライセンス: Link先を確認
Li-Li Ye, Christian Arenz, Joseph M. Lukens, Ying-Cheng Lai, (参考訳) 絡み合いは量子情報科学と技術の基礎であるが、任意の量子系に対する絡み合い(いわゆる絡み合い工学)の制御と操作は、依然として困難な課題である。 量子エンタングルメントの脆弱さと、その実験的特徴の2つの困難がある。 本研究では,弱い連続測定と部分状態観察を併用したフィードバック制御を利用して,所望の絡み合いを生成・維持する,モデルフリー深部強化学習(RL)アプローチを開発した。 我々は、線形または非線形光子-フォノン相互作用を持つ量子光学系を用いて、機械学習ベースの絡み合い工学プロトコルの動作を実証する。 特に、RLエージェントは、1つまたは複数の並列量子光学環境と逐次的に相互作用し、軌道を収集し、蓄積された報酬を最大化するためにポリシーを更新し、任意の時間にわたって量子絡み合いを発生および安定化する。 機械学習に基づくモデルフリー制御原理は、一般に実験量子系の絡み合い工学に適用できる。

Entanglement is fundamental to quantum information science and technology, yet controlling and manipulating entanglement -- so-called entanglement engineering -- for arbitrary quantum systems remains a formidable challenge. There are two difficulties: the fragility of quantum entanglement and its experimental characterization. We develop a model-free deep reinforcement-learning (RL) approach to entanglement engineering, in which feedback control together with weak continuous measurement and partial state observation is exploited to generate and maintain desired entanglement. We employ quantum optomechanical systems with linear or nonlinear photon-phonon interactions to demonstrate the workings of our machine-learning-based entanglement engineering protocol. In particular, the RL agent sequentially interacts with one or multiple parallel quantum optomechanical environments, collects trajectories, and updates the policy to maximize the accumulated reward to create and stabilize quantum entanglement over an arbitrary amount of time. The machine-learning-based model-free control principle is applicable to the entanglement engineering of experimental quantum systems in general.
翻訳日:2024-07-04 19:24:59 公開日:2024-07-02
# GraphSnapShot: 高速ストレージと検索を備えたグラフ機械学習の高速化

GraphSnapShot: Graph Machine Learning Acceleration with Fast Storage and Retrieval ( http://arxiv.org/abs/2406.17918v2 )

ライセンス: Link先を確認
Dong Liu, Roger Waleffe, Meng Jiang, Shivaram Venkataraman, (参考訳) 最近の研究では、グラフ学習加速に有用なツールであることが証明されたGraphSnapShotというフレームワークを開発した。 GraphSnapShotは、グラフ学習のための高速キャッシュ、ストレージ、検索、計算のためのフレームワークである。 グラフ構造の局所的なトポロジを素早く保存して更新することができ、グラフのスナップショットを取るように、グラフネットワークの構造内のパターンを追跡することができます。 実験では、GraphSnapShotは効率性を示し、dglのような現在のベースラインと比較して、最大30%のトレーニングアクセラレーションと73%のメモリ削減を実現している。この技術は、ソーシャルメディア分析やリコメンデーションシステムといった大規模動的グラフ学習タスクにおいて、エンティティ間の複雑な関係を処理するのに特に有用である。

In our recent research, we have developed a framework called GraphSnapShot, which has been proven an useful tool for graph learning acceleration. GraphSnapShot is a framework for fast cache, storage, retrieval and computation for graph learning. It can quickly store and update the local topology of graph structure and allows us to track patterns in the structure of graph networks, just like take snapshots of the graphs. In experiments, GraphSnapShot shows efficiency, it can achieve up to 30% training acceleration and 73% memory reduction for lossless graph ML training compared to current baselines such as dgl.This technique is particular useful for large dynamic graph learning tasks such as social media analysis and recommendation systems to process complex relationships between entities.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-02
# リプシッツ演算子の演算子学習 : 情報理論の視点から

Operator Learning of Lipschitz Operators: An Information-Theoretic Perspective ( http://arxiv.org/abs/2406.18794v2 )

ライセンス: Link先を確認
Samuel Lanthaler, (参考訳) ニューラル演算子に基づく演算子学習は、無限次元バナッハ空間間の写像である演算子のデータ駆動近似の有望なパラダイムとして登場した。 経験的進歩にもかかわらず、これらの近似の効率に関する理論的理解はいまだに不完全である。 この研究は、リプシッツ連続作用素の一般クラスに対するニューラル作用素近似のパラメトリック複雑性に対処する。 パラメトリック複雑性の呪いという,特定のアーキテクチャの限界に関する最近の知見に触発され,情報理論の視点を取り入れた。 我々の主な貢献は、2つの近似設定におけるリプシッツ作用素の計量エントロピーの下位境界、すなわち、コンパクトな入力関数の集合に対する一様近似と、確率測度から引き出された入力関数による期待の近似である。 これらのエントロピー境界は、使用されるアクティベーション関数に関係なく、近似精度$\epsilon$に達するニューラル作用素アーキテクチャは、$\epsilon^{-1}$で指数関数的に大きいサイズでなければならないことを示唆している。 アーキテクチャのサイズは、与えられたモデルを計算メモリに格納するのに必要な符号化ビットの数を数えることによって測定される。 この研究の結果は、演算子学習における基本的なトレードオフと制限を明らかにする。

Operator learning based on neural operators has emerged as a promising paradigm for the data-driven approximation of operators, mapping between infinite-dimensional Banach spaces. Despite significant empirical progress, our theoretical understanding regarding the efficiency of these approximations remains incomplete. This work addresses the parametric complexity of neural operator approximations for the general class of Lipschitz continuous operators. Motivated by recent findings on the limitations of specific architectures, termed curse of parametric complexity, we here adopt an information-theoretic perspective. Our main contribution establishes lower bounds on the metric entropy of Lipschitz operators in two approximation settings; uniform approximation over a compact set of input functions, and approximation in expectation, with input functions drawn from a probability measure. It is shown that these entropy bounds imply that, regardless of the activation function used, neural operator architectures attaining an approximation accuracy $\epsilon$ must have a size that is exponentially large in $\epsilon^{-1}$. The size of architectures is here measured by counting the number of encoded bits necessary to store the given model in computational memory. The results of this work elucidate fundamental trade-offs and limitations in operator learning.
翻訳日:2024-07-04 19:03:22 公開日:2024-07-02
# 群値ループモデルにおけるロバスト・ヒルベルト空間の断片化

Robust Hilbert space fragmentation in group-valued loop models ( http://arxiv.org/abs/2406.19386v2 )

ライセンス: Link先を確認
Alexey Khudorozhkov, Charles Stahl, Oliver Hart, Rahul Nandkishore, (参考訳) 我々は、量子力学における堅牢なエルゴディディディティの破れを示す大規模なモデルを紹介する。 我々の研究は「位相的に堅牢なヒルベルト空間の断片化」という最近の議論に触発されているが、大まかに一般化されている: 第一に「ループ・スープ」と呼ばれる状態から、文字列ネットやスポンジを連想させるより広い状態のクラスへ、第二に、平方格子や立方格子に制限されたモデルから、任意の格子(および変換不変性のない任意のグラフ)で定義されるモデルまでである。 我々は最近提案された群理論の枠組み(PRX 14 021034 (2024))を活用し、「群モデル力学」と格子構造の相互作用から生じる新しい現象のホストを同定する。 我々はゲージ理論へのクリップ接続を作り、この構成は北エフの量子二重群を無限群に一般化する。

We introduce a large class of models exhibiting robust ergodicity breaking in quantum dynamics. Our work is inspired by recent discussions of "topologically robust Hilbert space fragmentation," but massively generalizes in two directions: firstly from states describable as "loop-soups" to a broader class of states reminiscent of string-nets and sponges, and secondly from models restricted to square or cubic lattices, to models defined on arbitrary lattices (and even arbitrary graphs without translation invariance). Our constructions leverage a recently proposed group-theory framework [PRX 14, 021034 (2024)], and identify a host of new phenomena arising from the interplay of "group-model dynamics" and lattice structure. We make crisp connections to gauge theories, and our construction generalizes Kitaev's quantum double to infinite groups.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-02
# 暗号化メッセージングのためのプライベート階層ガバナンス

Private Hierarchical Governance for Encrypted Messaging ( http://arxiv.org/abs/2406.19433v2 )

ライセンス: Link先を確認
Armin Namavari, Barry Wang, Sanketh Menda, Ben Nassi, Nirvan Tyagi, James Grimmelmann, Amy Zhang, Thomas Ristenpart, (参考訳) 憎しみ、嫌がらせ、その他のオンラインの虐待によって引き起こされる害の増加は、階層的なガバナンスを探求する主要なプラットフォームを動機付けている。 コミュニティが指定メンバーにモデレーションとリーダーシップの義務を負わせるようにすることを目的としているが、一方で、メンバーはプラットフォームに問題をエスカレートすることができる。 しかし、これらの有望なアプローチは、コミュニティコンテンツがプラットフォームに公開される平文設定でのみ検討されている。 エンド・ツー・エンド・暗号化(E2EE)メッセージングをプライバシとして利用するオンラインコミュニティの巨大で増え続けている中で、階層的なガバナンスを実現するにはどうすればよいのかは不明だ。 民間階層型ガバナンスシステムを提案する。 これらは、平文設定と同じレベルのコミュニティガバナンスを可能にすると同時に、プラットフォームに報告されていないコンテンツとガバナンスアクションの暗号化プライバシを維持します。 我々は、暗号化されたメッセージプロトコルの上にガバナンスロジックを追加する階層化されたアプローチをとっており、メッセージ層セキュリティ(MLS)プロトコルの拡張が、リッチなガバナンスポリシーの集合を達成するのにいかに十分かを示す。 当社のアプローチでは,PhysicKitと呼ばれる平文システムからインスピレーションを得て,新たなガバナンス機能の迅速なプロトタイプを開発者が実現しています。 我々は,コンテンツベースのコミュニティとプラットフォームモデレーション,コミュニティモデレーターの選挙,虐待的ユーザを排除するための投票などをサポートする,MlsGovというプロトタイプE2EEメッセージングシステムを構築している。

The increasing harms caused by hate, harassment, and other forms of abuse online have motivated major platforms to explore hierarchical governance. The idea is to allow communities to have designated members take on moderation and leadership duties; meanwhile, members can still escalate issues to the platform. But these promising approaches have only been explored in plaintext settings where community content is public to the platform. It is unclear how one can realize hierarchical governance in the huge and increasing number of online communities that utilize end-to-end encrypted (E2EE) messaging for privacy. We propose private hierarchical governance systems. These should enable similar levels of community governance as in plaintext settings, while maintaining cryptographic privacy of content and governance actions not reported to the platform. We design the first such system, taking a layered approach that adds governance logic on top of an encrypted messaging protocol; we show how an extension to the message layer security (MLS) protocol suffices for achieving a rich set of governance policies. Our approach allows developers to rapidly prototype new governance features, taking inspiration from a plaintext system called PolicyKit. We build a prototype E2EE messaging system called MlsGov that supports content-based community and platform moderation, elections of community moderators, votes to remove abusive users, and more.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-02
# LLMEasyQuant - LLM量子化のためのツールキット

LLMEasyQuant -- An Easy to Use Toolkit for LLM Quantization ( http://arxiv.org/abs/2406.19657v2 )

ライセンス: Link先を確認
Dong Liu, Meng Jiang, Kaiser Pister, (参考訳) 現在、LLM量子化には多くの量子化方法が存在するが、ユーザフレンドリで、ローカルにデプロイしやすいものはほとんどない。 TensorRTやQuantohaveのようなパッケージは、多くの基盤構造と自己起動内部機能を持ち、開発者のパーソナライズされた開発とデプロイメントの学習には影響しない。 そこで我々は,LLMEasyQuantを開発し,初心者の学習に適したユーザフレンドリな量子化展開を目的としたパッケージである。

Currently, there are many quantization methods appeared for LLM quantization, yet few are user-friendly and easy to be deployed locally. Packages like TensorRT and Quantohave many underlying structures and self-invoking internal functions, which are not conducive to developers' personalized development and learning for deployment. Therefore, we develop LLMEasyQuant, it is a package aiming to for easy quantization deployment which is user-friendly and suitable for beginners' learning.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-02
# 効率的なロボットマニピュレーションスキル獲得のためのヒューマンエージェント共同学習

Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition ( http://arxiv.org/abs/2407.00299v2 )

ライセンス: Link先を確認
Shengcheng Luo, Quanquan Peng, Jun Lv, Kaiwen Hong, Katherine Rose Driggs-Campbell, Cewu Lu, Yong-Lu Li, (参考訳) デモ収集のための遠隔操作システムを利用することで、ロボット操作をより効率的に学習することが可能になる。 しかし、手やグリップを備えたロボットアームの遠隔操作は、その高次元性、複雑な動き、生理的構造の違いなど、重要な課題を生んでいる。 本研究では,人間とロボットの協調学習システムを紹介し,人間の操作者がロボットのエンドエフェクタの制御を学習支援エージェントと共有し,人間によるデモンストレーション収集とロボット操作指導の同時実施を支援する。 この設定では、データが蓄積されると、補助エージェントが徐々に学習する。 その結果、人的労力や注意力の削減が要求され、データ収集プロセスの効率が向上する。 また、人間の操作者は手動制御と自動制御のトレードオフを達成するために制御比率を調整できる。 実環境と実環境の両方で実験を行った。 ユーザスタディと定量的評価により,本システムはデータ収集効率を向上し,収集したデータが下流作業に十分な品質であることを保証するとともに,人的適応の必要性を低減できることが明らかとなった。 ビデオはhttps://norweig1an.github.io/ human-agent-joint-learning.github.io/で公開されている。

Employing a teleoperation system for gathering demonstrations offers the potential for more efficient learning of robot manipulation. However, teleoperating a robot arm equipped with a dexterous hand or gripper, via a teleoperation system poses significant challenges due to its high dimensionality, complex motions, and differences in physiological structure. In this study, we introduce a novel system for joint learning between human operators and robots, that enables human operators to share control of a robot end-effector with a learned assistive agent, facilitating simultaneous human demonstration collection and robot manipulation teaching. In this setup, as data accumulates, the assistive agent gradually learns. Consequently, less human effort and attention are required, enhancing the efficiency of the data collection process. It also allows the human operator to adjust the control ratio to achieve a trade-off between manual and automated control. We conducted experiments in both simulated environments and physical real-world settings. Through user studies and quantitative evaluations, it is evident that the proposed system could enhance data collection efficiency and reduce the need for human adaptation while ensuring the collected data is of sufficient quality for downstream tasks. Videos are available at https://norweig1an.github.io/human-agent-joint-learning.github.io/.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-02
# FedEx: 重複および参加選択による不均一なモバイルデバイス上でのフェデレーション学習の迅速化

FedEx: Expediting Federated Learning over Heterogeneous Mobile Devices by Overlapping and Participant Selection ( http://arxiv.org/abs/2407.00943v2 )

ライセンス: Link先を確認
Jiaxiang Geng, Boyu Li, Xiaoqi Qin, Yixuan Li, Liang Li, Yanzhao Hou, Miao Pan, (参考訳) トレーニングレイテンシは、異種モバイルデバイス上でのフェデレーション学習(FL)によって起動される多くの興味深いアプリケーションの成功に不可欠である。 局所勾配伝送と連続的な局所計算を革命的に重複させることで、FLは均質なクライアントよりもトレーニングの遅延を著しく低減できるが、重いモデル不安定性、モデルドリフト、メモリコスト、異種環境におけるストラグラー問題に遭遇する。 重なり合う可能性を完全に解き放つために、FedExは、データ、計算、および無線異種性の下でモバイルデバイス上での‘underline{ex}pedite FL’トレーニングのための、新しい学習手法である。 FedExは重なり合う手順を再定義し、メモリ消費を制限し、参加選択(PS)設計と重なり合うようにしている。 そこでFedExは、重複による遅延低減を考慮したPSユーティリティ機能を特徴付け、トラグラー問題に対処するための総合PSソリューションを提供する。 FedExはまた、モデルドリフトを避けるために、オーバーラップをトリガーする単純だが効果的なメトリックも導入している。 実験結果から、FedExはピア設計と比較して、メモリコストが制限された異種モバイルデバイス上でのFLトレーニングのレイテンシを大幅に削減することを示した。

Training latency is critical for the success of numerous intrigued applications ignited by federated learning (FL) over heterogeneous mobile devices. By revolutionarily overlapping local gradient transmission with continuous local computing, FL can remarkably reduce its training latency over homogeneous clients, yet encounter severe model staleness, model drifts, memory cost and straggler issues in heterogeneous environments. To unleash the full potential of overlapping, we propose, FedEx, a novel \underline{fed}erated learning approach to \underline{ex}pedite FL training over mobile devices under data, computing and wireless heterogeneity. FedEx redefines the overlapping procedure with staleness ceilings to constrain memory consumption and make overlapping compatible with participation selection (PS) designs. Then, FedEx characterizes the PS utility function by considering the latency reduced by overlapping, and provides a holistic PS solution to address the straggler issue. FedEx also introduces a simple but effective metric to trigger overlapping, in order to avoid model drifts. Experimental results show that compared with its peer designs, FedEx demonstrates substantial reductions in FL training latency over heterogeneous mobile devices with limited memory cost.
翻訳日:2024-07-04 18:53:35 公開日:2024-07-02
# 強化学習に基づく自律ロボットナビゲーションに関する研究

Research on Autonomous Robots Navigation based on Reinforcement Learning ( http://arxiv.org/abs/2407.02539v1 )

ライセンス: Link先を確認
Zixiang Wang, Hao Yan, Yining Wang, Zhengjia Xu, Zhuoyue Wang, Zhizhong Wu, (参考訳) 強化学習は、環境との継続的な相互作用を通じてリアルタイムフィードバック報酬信号に基づいて意思決定を継続的に最適化し、適応性と自己学習能力を示す。 近年,ロボットの自律的なナビゲーションを実現するための重要な手法の1つとなっている。 本研究では,強化学習に基づく自律型ロボットナビゲーション手法を提案する。 本稿では,DQNとPPOモデルを用いて,ロボットと環境の継続的な相互作用による経路計画と意思決定プロセスの最適化と,リアルタイムフィードバックによる報酬信号について述べる。 Q値関数とディープニューラルネットワークを組み合わせることで、ディープQネットワークは高次元の状態空間を処理し、複雑な環境で経路計画を実現することができる。 ポリシー関数を最適化することで、ロボットが環境情報をより効率的に探索・活用できる戦略勾配に基づく手法である。 これらの方法は、未知の環境におけるロボットのナビゲーション能力を改善するだけでなく、適応性と自己学習能力を向上させる。 複数のトレーニングとシミュレーション実験を通じて,これらのモデルの有効性とロバスト性を様々な複雑なシナリオで検証した。

Reinforcement learning continuously optimizes decision-making based on real-time feedback reward signals through continuous interaction with the environment, demonstrating strong adaptive and self-learning capabilities. In recent years, it has become one of the key methods to achieve autonomous navigation of robots. In this work, an autonomous robot navigation method based on reinforcement learning is introduced. We use the Deep Q Network (DQN) and Proximal Policy Optimization (PPO) models to optimize the path planning and decision-making process through the continuous interaction between the robot and the environment, and the reward signals with real-time feedback. By combining the Q-value function with the deep neural network, deep Q network can handle high-dimensional state space, so as to realize path planning in complex environments. Proximal policy optimization is a strategy gradient-based method, which enables robots to explore and utilize environmental information more efficiently by optimizing policy functions. These methods not only improve the robot's navigation ability in the unknown environment, but also enhance its adaptive and self-learning capabilities. Through multiple training and simulation experiments, we have verified the effectiveness and robustness of these models in various complex scenarios.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# 行列指数活性化関数を持つ3層ネットワークの解析解

Analytical Solution of a Three-layer Network with a Matrix Exponential Activation Function ( http://arxiv.org/abs/2407.02540v1 )

ライセンス: Link先を確認
Kuo Gai, Shihua Zhang, (参考訳) 実際には、より深いネットワークは浅いネットワークよりも強力である傾向にあるが、理論的には理解されていない。 本稿では,行列指数活性化関数を持つ3層ネットワークの解析解,すなわち$$ f(X)=W_3\exp(W_2\exp(W_2\exp(W_1X)),X\in \mathbb{C}^{d\times d} $$は,方程式に対して$ Y_1=f(X_1),Y_2=f(X_2)$$$$$X_1,X_2,Y_1,Y_2$を持つ。 我々の証明は、一層ネットワークが1つの方程式、すなわち$Y=WX$しか解けないため、深さのパワーと非線形活性化関数の使用を示している。

In practice, deeper networks tend to be more powerful than shallow ones, but this has not been understood theoretically. In this paper, we find the analytical solution of a three-layer network with a matrix exponential activation function, i.e., $$ f(X)=W_3\exp(W_2\exp(W_1X)), X\in \mathbb{C}^{d\times d} $$ have analytical solutions for the equations $$ Y_1=f(X_1),Y_2=f(X_2) $$ for $X_1,X_2,Y_1,Y_2$ with only invertible assumptions. Our proof shows the power of depth and the use of a non-linear activation function, since one layer network can only solve one equation,i.e.,$Y=WX$.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# ECAT: クロスドメインレコメンデーションのための拡張空間連続および適応トランスファー学習フレームワーク

ECAT: A Entire space Continual and Adaptive Transfer Learning Framework for Cross-Domain Recommendation ( http://arxiv.org/abs/2407.02542v1 )

ライセンス: Link先を確認
Chaoqun Hou, Yuanhang Zhou, Yi Cao, Tong Liu, (参考訳) 産業レコメンデーションシステムには、ユーザの多様な関心やニーズを満たすように設計されたミニアプリがいくつかある。 それらのサンプル空間は、単に空間全体の小さな部分集合であり、効率的なモデルを訓練することは困難である。 近年,データ疎結合の問題を緩和するためのドメイン間推薦に関する優れた研究が数多く行われている。 しかし、対象タスクに対するサンプルと表現継続転送設定の両方の適応性を同時に考慮しているものはほとんどない。 上記の課題を克服するために,ECAT と呼ばれる拡張空間連続・適応変換学習フレームワークを提案する。まず,サンプル転送について,粗大なプロセスを実現する2段階の手法を提案する。 具体的には、グラフ誘導法を用いて初期選択を行い、続いてドメイン適応法を用いてきめ細かい選択を行う。 第2に,空間データセット全体においてよく訓練されたモデルから表現を継続的に伝達する適応的知識蒸留法を提案する。 ECATは、ターゲットタスクの監督下にある全空間サンプルと表現のフル活用を可能にすると同時に、負のマイグレーションを回避する。 Taobaoの実際の産業データセットに関する総合的な実験によると、ECATはオフラインメトリクスで最先端のパフォーマンスを向上し、TaobaoのミニアプリBaiyibutieに+13.6%のCVRと+8.6%の注文をもたらす。

In industrial recommendation systems, there are several mini-apps designed to meet the diverse interests and needs of users. The sample space of them is merely a small subset of the entire space, making it challenging to train an efficient model. In recent years, there have been many excellent studies related to cross-domain recommendation aimed at mitigating the problem of data sparsity. However, few of them have simultaneously considered the adaptability of both sample and representation continual transfer setting to the target task. To overcome the above issue, we propose a Entire space Continual and Adaptive Transfer learning framework called ECAT which includes two core components: First, as for sample transfer, we propose a two-stage method that realizes a coarse-to-fine process. Specifically, we perform an initial selection through a graph-guided method, followed by a fine-grained selection using domain adaptation method. Second, we propose an adaptive knowledge distillation method for continually transferring the representations from a model that is well-trained on the entire space dataset. ECAT enables full utilization of the entire space samples and representations under the supervision of the target task, while avoiding negative migration. Comprehensive experiments on real-world industrial datasets from Taobao show that ECAT advances state-of-the-art performance on offline metrics, and brings +13.6% CVR and +8.6% orders for Baiyibutie, a famous mini-app of Taobao.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# アンタングルを用いた音声表現学習の次のフロンティアに向けて

Towards the Next Frontier in Speech Representation Learning Using Disentanglement ( http://arxiv.org/abs/2407.02543v1 )

ライセンス: Link先を確認
Varun Krishna, Sriram Ganapathy, (参考訳) 音声表現の自己教師型学習のための一般的なフレームワークは、主にフレームレベルマスキングによる音声領域の予測に焦点を当てている。 このことは、音声認識や関連するタスクに対して有望なダウンストリームタスクのパフォーマンスを示すが、これは、音声の発声を通したままに維持する話者やチャンネルの特性など、粗いレベルで符号化される音声の要因をほとんど無視している。 本研究では,フレームレベルと発話レベルエンコーダモジュールから構成される音声の拡散自己監視(Learning Disentangled Self Supervised,Learning2Diss)表現のためのフレームワークを提案する。 2つのエンコーダは、当初独立して学習され、フレームレベルモデルは既存の自己監督技術に主にインスパイアされ、擬音表現を学習する一方、発話レベルエンコーダはプール埋め込みのコンストラクティブ学習にインスパイアされ、擬音表現を学習する。 これら2つのモジュールの合同学習は、相互情報に基づく基準を用いて2つのエンコーダをアンタングリングする。 いくつかのダウンストリーム評価実験により,提案したLearn2Dissは,意味的タスクを改善するフレームレベルエンコーダ表現,非意味的タスクを改善する発話レベル表現など,様々なタスクに対して最先端の結果が得られることを示す。

The popular frameworks for self-supervised learning of speech representations have largely focused on frame-level masked prediction of speech regions. While this has shown promising downstream task performance for speech recognition and related tasks, this has largely ignored factors of speech that are encoded at coarser level, like characteristics of the speaker or channel that remain consistent through-out a speech utterance. In this work, we propose a framework for Learning Disentangled Self Supervised (termed as Learn2Diss) representations of speech, which consists of frame-level and an utterance-level encoder modules. The two encoders are initially learned independently, where the frame-level model is largely inspired by existing self supervision techniques, thereby learning pseudo-phonemic representations, while the utterance-level encoder is inspired by constrastive learning of pooled embeddings, thereby learning pseudo-speaker representations. The joint learning of these two modules consists of disentangling the two encoders using a mutual information based criterion. With several downstream evaluation experiments, we show that the proposed Learn2Diss achieves state-of-the-art results on a variety of tasks, with the frame-level encoder representations improving semantic tasks, while the utterance-level representations improve non-semantic tasks.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# アダプティブオートパイロット:横駆動動作の制約付きDRL

Adaptive Autopilot: Constrained DRL for Diverse Driving Behaviors ( http://arxiv.org/abs/2407.02546v1 )

ライセンス: Link先を確認
Dinesh Cyril Selvaraj, Christian Vitale, Tania Panayiotou, Panayiotis Kolios, Carla Fabiana Chiasserini, Georgios Ellinas, (参考訳) 自動運転車を追求するためには、人間のような運転行動を達成することが不可欠である。 本研究では,制約深度強化学習(C-DRL)を利用した独自のフレームワークである適応オートパイロット(AA)を導入する。 AAは、ドライバーの介入の必要性を減らすために、人間の運転を安全にエミュレートすることを目的としている。 自動車追尾のシナリオに焦点を合わせると、そのプロセスが伴う 一 高次元自然運転研究からデータを抽出し、規則に基づく分類器を用いて三つの運転様式に分類すること。 二 ディープ・ニューラル・ネットワーク(DNN)レグレシタを用いて、様式をまたいだ人間的なアクセラレーションを予測すること。 3)C-DRL,特にソフトアクター・クリティックなラグランジアン技術を用いて,人間のような安全な運転方針を学習する。 その結果,運転スタイルを識別するルールベース分類器,アクセラレーションを正確に予測する回帰器モデル,従来の乗用車追従モデルよりも優れたC-DRLエージェントなど,各ステップの有効性が示された。

In pursuit of autonomous vehicles, achieving human-like driving behavior is vital. This study introduces adaptive autopilot (AA), a unique framework utilizing constrained-deep reinforcement learning (C-DRL). AA aims to safely emulate human driving to reduce the necessity for driver intervention. Focusing on the car-following scenario, the process involves (i) extracting data from the highD natural driving study and categorizing it into three driving styles using a rule-based classifier; (ii) employing deep neural network (DNN) regressors to predict human-like acceleration across styles; and (iii) using C-DRL, specifically the soft actor-critic Lagrangian technique, to learn human-like safe driving policies. Results indicate effectiveness in each step, with the rule-based classifier distinguishing driving styles, the regressor model accurately predicting acceleration, outperforming traditional car-following models, and C-DRL agents learning optimal policies for humanlike driving across styles.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# 概念集約と関係に基づく注意によるドメイン一般化可能な知識追跡

Domain Generalizable Knowledge Tracing via Concept Aggregation and Relation-Based Attention ( http://arxiv.org/abs/2407.02547v1 )

ライセンス: Link先を確認
Yuquan Xie, Wanqi Yang, Jinyu Wei, Ming Yang, Yang Gao, (参考訳) KT(Knowledge Tracing)は、学習期間を通じて学生の知識状態を監視することを目的として、オンライン教育システムにおいて重要な課題である。 一般的なKTアプローチは、学生が運動履歴に基づいて次の質問に正しく答える確率を予測することである。 しかし、これらの手法は、新しい教育システムにおける学生の交流の欠如に直面した場合、性能劣化に悩まされることが多い。 これを解決するために,既存の教育システムからの学生のインタラクションを活用して,限られた学習データによる性能劣化を軽減する。 しかしながら、これらの相互作用は、異なる教育システムから派生したものであるため、大きな違いを示す。 この問題に対処するために,既存の教育システムをソースドメインとみなし,限られたデータを持つ新しい教育システムをターゲットドメインとみなす,知識追跡のためのドメイン一般化手法を提案する。 さらに,任意のKTモデルに適用可能なドメイン一般化型知識追跡フレームワーク(DGKT)を設計する。 具体的には、多様なドメインから学生同士の相互作用のシーケンスにおける概念格差を低減するために、概念集約アプローチを提案する。 ドメインの相違をさらに緩和するために、SeqIN(Sequence Instance Normalization)と呼ばれる新しい正規化モジュールを導入する。 さらに,エクササイズ情報を完全に活用するために,ドメイン一般化KTタスクに適した新しい知識追跡モデル,ドメイン一般化型関係ベース知識トレース(DGRKT)を提案する。 5つのベンチマークデータセットにわたる大規模な実験により、限られたトレーニングデータにもかかわらず、提案手法が良好に動作することを示した。

Knowledge Tracing (KT) is a critical task in online education systems, aiming to monitor students' knowledge states throughout a learning period. Common KT approaches involve predicting the probability of a student correctly answering the next question based on their exercise history. However, these methods often suffer from performance degradation when faced with the scarcity of student interactions in new education systems. To address this, we leverage student interactions from existing education systems to mitigate performance degradation caused by limited training data. Nevertheless, these interactions exhibit significant differences since they are derived from different education systems. To address this issue, we propose a domain generalization approach for knowledge tracing, where existing education systems are considered source domains, and new education systems with limited data are considered target domains. Additionally, we design a domain-generalizable knowledge tracing framework (DGKT) that can be applied to any KT model. Specifically, we present a concept aggregation approach designed to reduce conceptual disparities within sequences of student interactions from diverse domains. To further mitigate domain discrepancies, we introduce a novel normalization module called Sequence Instance Normalization (SeqIN). Moreover, to fully leverage exercise information, we propose a new knowledge tracing model tailored for the domain generalization KT task, named Domain-Generalizable Relation-based Knowledge Tracing (DGRKT). Extensive experiments across five benchmark datasets demonstrate that the proposed method performs well despite limited training data.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# 語彙データインプットと合成データ生成のための拡散モデル

Diffusion Models for Tabular Data Imputation and Synthetic Data Generation ( http://arxiv.org/abs/2407.02549v1 )

ライセンス: Link先を確認
Mario Villaizán-Vallelado, Matteo Salvatori, Carlos Segura, Ioannis Arapakis, (参考訳) データ計算とデータ生成は、医療や金融など多くの分野において重要な応用であり、不完全なデータや欠落したデータが正確な分析や意思決定を妨げる可能性がある。 拡散モデルは、画像、オーディオ、時系列データなどの様々なデータモダリティにまたがる複雑なデータ分布をキャプチャできる強力な生成モデルとして登場した。 近年,表型データの生成にも適応している。 本稿では,(1)コンディショニングアテンション機構,(2)デノナイジングネットワークとしてのエンコーダ・デコーダ・トランスフォーマ,(3)動的マスキングの3つの重要な拡張を取り入れた表型データ拡散モデルを提案する。 コンディショニングアテンション機構は、条件と合成データの関係をキャプチャするモデルの能力を改善するように設計されている。 トランスフォーマー層は条件(エンコーダ)や合成データ(デコーダ)内での相互作用をモデル化するのに対して,動的マスキングは欠落したデータ計算と合成データ生成タスクの両方を統一されたフレームワーク内で効率的に処理することを可能にする。 本研究では, モデルモデルと変分オートエンコーダ, 生成逆数ネットワーク, 拡散モデルといった最先端技術とをベンチマークデータセット上で比較し, 総合評価を行う。 本評価は,(1)機械学習の効率,(2)統計的類似性,(3)プライバシーリスク軽減の3つの重要な基準について,生成されたサンプルの評価に焦点を当てた。 データ計算のタスクでは、異なるレベルの欠落した特徴にまたがって生成されたサンプルの効率を考察する。

Data imputation and data generation have important applications for many domains, like healthcare and finance, where incomplete or missing data can hinder accurate analysis and decision-making. Diffusion models have emerged as powerful generative models capable of capturing complex data distributions across various data modalities such as image, audio, and time series data. Recently, they have been also adapted to generate tabular data. In this paper, we propose a diffusion model for tabular data that introduces three key enhancements: (1) a conditioning attention mechanism, (2) an encoder-decoder transformer as the denoising network, and (3) dynamic masking. The conditioning attention mechanism is designed to improve the model's ability to capture the relationship between the condition and synthetic data. The transformer layers help model interactions within the condition (encoder) or synthetic data (decoder), while dynamic masking enables our model to efficiently handle both missing data imputation and synthetic data generation tasks within a unified framework. We conduct a comprehensive evaluation by comparing the performance of diffusion models with transformer conditioning against state-of-the-art techniques, such as Variational Autoencoders, Generative Adversarial Networks and Diffusion Models, on benchmark datasets. Our evaluation focuses on the assessment of the generated samples with respect to three important criteria, namely: (1) Machine Learning efficiency, (2) statistical similarity, and (3) privacy risk mitigation. For the task of data imputation, we consider the efficiency of the generated samples across different levels of missing features.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# 安全に関する偽の感覚:AIの「安全」反応における安全でない情報漏洩

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses ( http://arxiv.org/abs/2407.02551v1 )

ライセンス: Link先を確認
David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot, (参考訳) 大きな言語モデル(LLM)は、有害または一般的に許容できない出力を引き出すためにjailbreaks$\unicode{x2013}$methodsに対して脆弱である。 安全対策は、安全が堅牢性と同等のものであると信じているジェイルブレイク攻撃を防御する効果を開発・評価する。 出力フィルタやアライメント微調整などの現在の防御機構は、モデル安全性を確保するために基本的に不十分である、と我々は主張する。 これらの防御は、二重インテリジェントクエリと有害な目標を達成するために無害なアウトプットを合成する能力から生じるリスクに対処することができない。 この重要なギャップに対処するために、モデル出力から不寛容な情報漏洩を利用して悪意ある目標を達成する、推論敵と呼ばれる情報理論脅威モデルを導入する。 我々は、被害者モデルに特定の不寛容な出力を強制することのみを求める、よく研究されているセキュリティ敵と区別する。 本稿では,質問分解と応答アグリゲーションによる推論敵の自動化の実現可能性を示す。 安全性を保証するため,検閲機構に関する情報検閲基準を定義し,不許可情報の漏洩を回避した。 そこで本研究では,本質的な安全効用トレードオフを明らかにするための防衛機構を提案する。 我々の研究は、安全なLCMをリリースするための要件と、関連するユーティリティコストについて、理論上は初めての理解を提供する。

Large Language Models (LLMs) are vulnerable to jailbreaks$\unicode{x2013}$methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# RLHFは多くの言語を話せる: LLMの多言語推論最適化をアンロックする

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs ( http://arxiv.org/abs/2407.02552v1 )

ライセンス: Link先を確認
John Dang, Arash Ahmadian, Kelly Marchisio, Julia Kreutzer, Ahmet Üstün, Sara Hooker, (参考訳) 優先度最適化技術は、最先端の大規模言語モデル(LLM)を訓練するための標準的な最終段階となっている。 しかし、広く普及しているにもかかわらず、これまでの作業の大部分は英語や中国語のような一流の市民言語に焦点を当ててきた。 これは世界の少数の言語をとらえるだけでなく、現在の最先端の研究のどの側面が多言語化されているのかもはっきりしない。 本研究では,多言語LLMの整列化における新しい最先端技術を実現するために,徹底的な研究を行う。 本稿では,データカバレッジのバランスをとるために,高品質な多言語フィードバックデータを生成する,新しいスケーラブルな手法を提案する。 嗜好学習において、言語間移動とデータセットサイズの増加の利点を確立する。 我々の嗜好学習モデルは、Aya 23 8Bに対する54.4%の勝利率、そのパラメータクラスにおける最先端多言語LLM、Gemma-1.1-7B-it、Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3といった広く使われているモデルに対する69.5%以上の勝利率を達成する。 その結果,世界の人口の半分をカバーする23言語にアライメント手法のフロンティアを広げた。

Preference optimization techniques have become a standard final stage for training state-of-art large language models (LLMs). However, despite widespread adoption, the vast majority of work to-date has focused on first-class citizen languages like English and Chinese. This captures a small fraction of the languages in the world, but also makes it unclear which aspects of current state-of-the-art research transfer to a multilingual setting. In this work, we perform an exhaustive study to achieve a new state-of-the-art in aligning multilingual LLMs. We introduce a novel, scalable method for generating high-quality multilingual feedback data to balance data coverage. We establish the benefits of cross-lingual transfer and increased dataset size in preference training. Our preference-trained model achieves a 54.4% win-rate against Aya 23 8B, the current state-of-the-art multilingual LLM in its parameter class, and a 69.5% win-rate or higher against widely used models like Gemma-1.1-7B-it, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3. As a result of our study, we expand the frontier of alignment techniques to 23 languages covering half of the world's population.
翻訳日:2024-07-04 18:43:42 公開日:2024-07-02
# アナログ量子コンピュータを用いた大規模量子貯水池学習

Large-scale quantum reservoir learning with an analog quantum computer ( http://arxiv.org/abs/2407.02553v1 )

ライセンス: Link先を確認
Milan Kornjača, Hong-Ye Hu, Chen Zhao, Jonathan Wurtz, Phillip Weinberg, Majd Hamdan, Andrii Zhdanov, Sergio H. Cantu, Hengyun Zhou, Rodrigo Araiza Bravo, Kevin Bagnall, James I. Basham, Joseph Campo, Adam Choukri, Robert DeAngelo, Paige Frederick, David Haines, Julian Hammett, Ning Hsu, Ming-Guang Hu, Florian Huber, Paul Niklas Jepsen, Ningyuan Jia, Thomas Karolyshyn, Minho Kwon, John Long, Jonathan Lopatin, Alexander Lukin, Tommaso Macrì, Ognjen Marković, Luis A. Martínez-Martínez, Xianmei Meng, Evgeny Ostroumov, David Paquette, John Robinson, Pedro Sales Rodriguez, Anshuman Singh, Nandan Sinha, Henry Thoreen, Noel Wan, Daniel Waxman-Lenz, Tak Wong, Kai-Hsin Wu, Pedro L. S. Lopes, Yuval Boger, Nathan Gemelke, Takuya Kitagawa, Alexander Keesling, Xun Gao, Alexei Bylinskii, Susanne F. Yelin, Fangli Liu, Sheng-Tao Wang, (参考訳) 量子機械学習は、量子技術が進歩するにつれて大きな注目を集め、複雑なデータパターンを効率的に学習するための有望なアプローチを提示している。 この約束にもかかわらず、現代のほとんどの量子法は変分パラメータ最適化のための重要な資源を必要とし、消失する勾配の問題に直面する。 これを解決するために、中立原子アナログ量子コンピュータの量子力学を利用してデータを処理する汎用的で勾配のないスケーラブルな量子貯水池学習アルゴリズムを開発した。 アルゴリズムを実験的に実装し、二進および多進の分類を含む機械学習タスクの様々なカテゴリで競合性能を達成し、タイムリー予測を行う。 システムサイズを最大108キュービットに増やすことで、効果的な学習と学習の改善が観察され、これまでで最大の量子機械学習実験が実証された。 さらに、生成した量子カーネルと古典的データカーネルの幾何学的差異に基づいて、合成データセットを構築することにより、学習タスクにおける比較量子カーネルの利点を観察する。 本研究は,従来の量子相関を有効機械学習に活用する可能性を示すものである。 これらの結果は、早期フォールトトレラントハードウェアや生成機械学習タスクを含む、さまざまな量子ハードウェアと機械学習パラダイムへのさらなる拡張を期待する。

Quantum machine learning has gained considerable attention as quantum technology advances, presenting a promising approach for efficiently learning complex data patterns. Despite this promise, most contemporary quantum methods require significant resources for variational parameter optimization and face issues with vanishing gradients, leading to experiments that are either limited in scale or lack potential for quantum advantage. To address this, we develop a general-purpose, gradient-free, and scalable quantum reservoir learning algorithm that harnesses the quantum dynamics of neutral-atom analog quantum computers to process data. We experimentally implement the algorithm, achieving competitive performance across various categories of machine learning tasks, including binary and multi-class classification, as well as timeseries prediction. Effective and improving learning is observed with increasing system sizes of up to 108 qubits, demonstrating the largest quantum machine learning experiment to date. We further observe comparative quantum kernel advantage in learning tasks by constructing synthetic datasets based on the geometric differences between generated quantum and classical data kernels. Our findings demonstrate the potential of utilizing classically intractable quantum correlations for effective machine learning. We expect these results to stimulate further extensions to different quantum hardware and machine learning paradigms, including early fault-tolerant hardware and generative machine learning tasks.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# ランダムテンソルネットワークへのマックスフローアプローチ

A Max-Flow approach to Random Tensor Networks ( http://arxiv.org/abs/2407.02559v1 )

ライセンス: Link先を確認
Khurshed Fitter, Faedi Loulidi, Ion Nechita, (参考訳) 確率論のツールを用いたランダムテンソルネットワーク(RTN)の絡み合いエントロピーについて検討する。 ランダムテンソルネットワークは、ALS/CFTコンテキストにおける境界領域の絡み合いの理解を支援する単純な玩具モデルである。 ランダムテンソルネットワーク(英: random tensor network)は、グラフ(またはネットワーク)構造によって決定される特定の幾何を持つテンソルに対する特定の確率モデルであると考えることができる。 まず、ガウステンソルのテンソル積上の最大絡み合った状態(グラフのエッジに対応する)を(グラフの頂点に対応する)収縮させることで得られるRTNのモデルを紹介する。 局所ヒルベルト空間の与えられた二分法に沿ったランダムスペクトルの絡み合いスペクトルについて検討する。 RTN状態の縮小密度演算子の局所次元の制限値分布について検討する。 制限値は、RTNの幾何学と与えられた二分法に対応する新しいグラフにおいて、最大フロー最適化問題を介して記述される。 直列並列グラフの場合、古典的および自由乗法的畳み込みを用いて固有値分布を制限するための明示的な公式を提供する。 結果の物理的含意について議論し、カットされた仮定なしに半古典的な状態を超えて、特にRTNの平均絡み合いエントロピーに対する有限の補正を行えるようにした。

We study the entanglement entropy of a random tensor network (RTN) using tools from free probability theory. Random tensor networks are simple toy models that help the understanding of the entanglement behavior of a boundary region in the ADS/CFT context. One can think of random tensor networks are specific probabilistic models for tensors having some particular geometry dictated by a graph (or network) structure. We first introduce our model of RTN, obtained by contracting maximally entangled states (corresponding to the edges of the graph) on the tensor product of Gaussian tensors (corresponding to the vertices of the graph). We study the entanglement spectrum of the resulting random spectrum along a given bipartition of the local Hilbert spaces. We provide the limiting eigenvalue distribution of the reduced density operator of the RTN state, in the limit of large local dimension. The limit value is described via a maximum flow optimization problem in a new graph corresponding to the geometry of the RTN and the given bipartition. In the case of series-parallel graphs, we provide an explicit formula for the limiting eigenvalue distribution using classical and free multiplicative convolutions. We discuss the physical implications of our results, allowing us to go beyond the semiclassical regime without any cut assumption, specifically in terms of finite corrections to the average entanglement entropy of the RTN.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# デコヒーレンス下におけるCSS符号のコヒーレント情報

Coherent information for CSS codes under decoherence ( http://arxiv.org/abs/2407.02564v1 )

ライセンス: Link先を確認
Ryotaro Niwa, Jong Yeon Lee, (参考訳) 安定化器符号は、現代の量子エラー訂正符号(QECC)の中心に位置する。 特に重要なのは、Calderbank-Shor-Steane (CSS) コードと呼ばれるクラスで、トーリックコード、カラーコード、フラクトンなど多くの重要な例が含まれている。 近年の研究では、これらのQECCの復号遷移は、混合状態から情報理論量を計算することによって本質的に捕捉可能であることが示されている。 ここでは、密度行列の対角化と古典統計力学(SM)モデルへの写像により、局所的不整合パウリ誤差の下での一般的なCSS符号のコヒーレント情報を簡易に解析する。 この結果は、量子コードの復号化遷移と、ランダムな古典SMモデルにおける位相遷移との間の厳密な接続を確立する。 またCSSコードに対して、最大形(ML)デコーダが常に漸近的極限で成功する場合に限り、正確なエラー訂正が可能であることを直接確認する。 これにより、基本閾値は最適復号器によって飽和される。

Stabilizer codes lie at the heart of modern quantum-error-correcting codes (QECC). Of particular importance is a class called Calderbank-Shor-Steane (CSS) codes, which includes many important examples such as toric codes, color codes, and fractons. Recent studies have revealed that the decoding transition for these QECCs could be intrinsically captured by calculating information-theoretic quantities from the mixed state. Here we perform a simple analytic calculation of the coherent information for general CSS codes under local incoherent Pauli errors via diagonalization of the density matrices and mapping to classical statistical mechanical (SM) models. Our result establishes a rigorous connection between the decoding transition of the quantum code and the phase transition in the random classical SM model. It is also directly confirmed for CSS codes that exact error correction is possible if and only if the maximum-likelihood (ML) decoder always succeeds in the asymptotic limit. Thus, the fundamental threshold is saturated by the optimal decoder.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# ブラックホールやその他の天体による量子重ね合わせのデコヒーレンスの局所的説明

Local Description of Decoherence of Quantum Superpositions by Black Holes and Other Bodies ( http://arxiv.org/abs/2407.02567v1 )

ライセンス: Link先を確認
Daine L. Danielson, Gautam Satishchandran, Robert M. Wald, (参考訳) 実験員のアリスが質量または電荷を持つ天体を量子空間の重ね合わせに入れると、ブラックホール(あるいはより一般的にはキリング地平線)の存在は最終的に重ね合わせを分解する(arXiv:2205.06279, arXiv:2301.00026, arXiv:2311.11461)。 このデコヒーレンスは、地平線を通した軟質光子/重力子の放射の結果であると同定され、このデコヒーレンスを記述するために、時空のグローバルな構造が不可欠であることが示唆された。 本稿では,このデコヒーレンスを,水平線に直接言及することなく,アリス研究室内の量子場の局所的2点関数で記述することができることを示す。 この観点から、ブラックホールの存在下でのアリスの重ね合わせのデコヒーレンスは、アリスの研究室に存在する非常に低い周波数のホーキング量子から生じる。 局所的な視点から、ウンルー真空中のシュワルツシルト時空におけるデコヒーレンスを明示的に計算する。 そしてこの視点を使って解明する i)BoulwareとHartle-Hawking vacuaにおけるシュワルツシルト時空における脱コヒーレンス効果の差異 (II)ミンコフスキー時空において、シュワルツシルト時空と比較して熱浴で満たされる脱コヒーレンス効果の差 三 恒星の外の真空状態がブラックホールの周りのブールウェア真空と多くの点で似ているにもかかわらず、静止星の時空におけるデコヒーレンスがないこと。 (四)ブラックホールを模したデコヒーレンス効果を生み出すために必要な物質体の自由度に関する要件。

It was previously shown that if an experimenter, Alice, puts a massive or charged body in a quantum spatial superposition, then the presence of a black hole (or more generally any Killing horizon) will eventually decohere the superposition [arXiv:2205.06279, arXiv:2301.00026, arXiv:2311.11461]. This decoherence was identified as resulting from the radiation of soft photons/gravitons through the horizon, thus suggesting that the global structure of the spacetime is essential for describing the decoherence. In this paper, we show that the decoherence can alternatively be described in terms of the local two-point function of the quantum field within Alice's lab, without any direct reference to the horizon. From this point of view, the decoherence of Alice's superposition in the presence of a black hole arises from the extremely low frequency Hawking quanta present in Alice's lab. We explicitly calculate the decoherence occurring in Schwarzschild spacetime in the Unruh vacuum from the local viewpoint. We then use this viewpoint to elucidate (i) the differences in decoherence effects that would occur in Schwarzschild spacetime in the Boulware and Hartle-Hawking vacua; (ii) the difference in decoherence effects that would occur in Minkowski spacetime filled with a thermal bath as compared with Schwarzschild spacetime; (iii) the lack of decoherence in the spacetime of a static star even though the vacuum state outside the star is similar in many respects to the Boulware vacuum around a black hole; and (iv) the requirements on the degrees of freedom of a material body needed to produce a decoherence effect that mimics that of a black hole.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# 準拘束的二項最適化問題に対する構造インスピレーションアンザッツと変分量子アルゴリズムのウォームスタート

Structure-inspired Ansatz and Warm Start of Variational Quantum Algorithms for Quadratic Unconstrained Binary Optimization Problems ( http://arxiv.org/abs/2407.02569v1 )

ライセンス: Link先を確認
Yahui Chai, Karl Jansen, Stefan Kühn, Tim Schwägerl, Tobias Stollenwerk, (参考訳) 本稿では、変分量子固有解器を用いて2次非制約二元最適化問題に対処する構造に着想を得たアンザッツを提案する。 本稿では,資源効率のよい方法で低エネルギー状態の優先度を優先する初期パラメータのセットを決定することのできる,想像上の時間進化に基づく新しいウォームスタート手法を提案する。 古典的なシミュレーションを用いて、このウォームスタート法は成功率を大幅に改善し、変分量子固有解器の収束に必要なイテレーション数を減少させることを示した。 また,温暖化開始法は,有限個の測定値から生じる統計的誤差を効果的に軽減し,バレン高原の効果をある程度緩和することを示した。

This paper introduces a structure-inspired ansatz for addressing quadratic unconstrained binary optimization problems with the Variational Quantum Eigensolver. We propose a novel warm start technique that is based on imaginary time evolution, and allows for determining a set of initial parameters prioritizing lower energy states in a resource-efficient way. Using classical simulations, we demonstrate that this warm start method significantly improves the success rate and reduces the number of iterations required for the convergence of Variational Quantum Eigensolver. The numerical results also indicate that the warm start approach effectively mitigates statistical errors arising from a finite number of measurements, and to a certain extent alleviates the effect of barren plateaus.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# 雑音量子演算の非局所的性質の証明

Certifying nonlocal properties of noisy quantum operations ( http://arxiv.org/abs/2407.02570v1 )

ライセンス: Link先を確認
Albert Rico, Moisés Bermejo-Morán, Fereshte Shahbeigi, Karol Życzkowski, (参考訳) 我々は、測定プロトコルで得られた相関から量子チャネルの非局所的性質を認証するための統一的なフレームワークを提供する。 このアプローチは、この目的のために、完全デバイスおよび半デバイス独立メソッドを収集し、拡張します。 特殊ケースにおいて非局所性や絡み合いを生じさせるものもあれば, 異なるデフォーカスノイズモデルの効果について検討する。 完全なデファス化の極端な場合、議論された測定プロトコルは、非局所性を証明するための特に単純なテストをもたらす。 これらは、2部量子チャネルとそれらの古典的アナログの関係に基づいており、条件分布を定義する2部確率行列である。

We provide a unified framework to certify nonlocal properties of quantum channels from the correlations obtained in measurement protocols. Our approach gathers and extends fully- and semi-device independent methods for this purpose. We study the effect of different models of dephasing noise, some of which are shown to generate nonlocality and entanglement in special cases. In the extreme case of complete dephasing, the measurement protocols discussed yield particularly simple tests to certify nonlocality. These are based on the relations between bipartite quantum channels and their classical analogs: bipartite stochastic matrices defining conditional distributions.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# ロバストADAS: 逆気象に対する機械学習に基づく先進運転支援システムのロバスト性向上

Robust ADAS: Enhancing Robustness of Machine Learning-based Advanced Driver Assistance Systems for Adverse Weather ( http://arxiv.org/abs/2407.02581v1 )

ライセンス: Link先を確認
Muhammad Zaeem Shahzad, Muhammad Abdullah Hanif, Muhammad Shafique, (参考訳) 機械学習ベースのAdvanced Driver Assistance Systems(ML-ADAS)を現実のシナリオにデプロイする領域では、悪天候条件が大きな課題となる。 通常のMLモデルは、極度の霧や豪雨といったシナリオに直面した時に、晴れた天気データでトレーニングされ、事故や安全上の危険に繋がる可能性がある。 本稿では,デノイング・ディープ・ニューラル・ニューラルネットワークを前処理のステップとして利用し,悪天候画像を鮮明な気象画像に変換することにより,ML-ADASシステムの堅牢性を向上させるという,新しいアプローチを提案する。 提案手法は、ML-ADASパイプラインにおいて、その後のDepp Neural Networks (DNN) を再トレーニングする必要をなくし、計算資源と時間を節約する。 さらに、悪天候下での安全なナビゲーションに欠かせないドライバーの可視化を改善する。 合成悪天候画像を用いたKITTIデータセットをトレーニングしたUNetアーキテクチャを活用することで,気象アーチファクトを除去するWUNet(Weather UNet)DNNを開発した。 本研究では,悪天候条件下でのWUNetプリプロセッシングによる物体検出の性能改善について検討した。 特に, 極度の霧を伴う場合, 提案手法は, YOLOv8nの平均平均精度(mAP)を4%から70%に向上させる。

In the realm of deploying Machine Learning-based Advanced Driver Assistance Systems (ML-ADAS) into real-world scenarios, adverse weather conditions pose a significant challenge. Conventional ML models trained on clear weather data falter when faced with scenarios like extreme fog or heavy rain, potentially leading to accidents and safety hazards. This paper addresses this issue by proposing a novel approach: employing a Denoising Deep Neural Network as a preprocessing step to transform adverse weather images into clear weather images, thereby enhancing the robustness of ML-ADAS systems. The proposed method eliminates the need for retraining all subsequent Depp Neural Networks (DNN) in the ML-ADAS pipeline, thus saving computational resources and time. Moreover, it improves driver visualization, which is critical for safe navigation in adverse weather conditions. By leveraging the UNet architecture trained on an augmented KITTI dataset with synthetic adverse weather images, we develop the Weather UNet (WUNet) DNN to remove weather artifacts. Our study demonstrates substantial performance improvements in object detection with WUNet preprocessing under adverse weather conditions. Notably, in scenarios involving extreme fog, our proposed solution improves the mean Average Precision (mAP) score of the YOLOv8n from 4% to 70%.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# チャネル型YOLOv5sモデルを用いたロバストハンドジェスチャー認識システムによる新しいヒューマンマシンインタフェース

Novel Human Machine Interface via Robust Hand Gesture Recognition System using Channel Pruned YOLOv5s Model ( http://arxiv.org/abs/2407.02585v1 )

ライセンス: Link先を確認
Abir Sen, Tapas Kumar Mishra, Ratnakar Dash, (参考訳) ハンドジェスチャー認識(HGR)は、バーチャルリアリティ、ゲーム、スマートホームオートメーションシステムなど、特にマルチメディアアプリケーションにおいて、人間とコンピュータのインタラクションエクスペリエンスを向上させる上で重要なコンポーネントである。 ユーザはジェスチャーを正確に検出し、認識することで、これらのアプリケーションをシームレスに制御し、ナビゲートすることができる。 しかし、リアルタイムのシナリオでは、複雑な背景、低照度照明、閉塞問題などにより、ジェスチャー認識システムの性能が影響を受けることがある。 もうひとつの問題は、リアルタイムシナリオにおいて、高速で堅牢なジェスチャー制御型ヒューマンコンピュータインタフェース(HCI)を構築することだ。 本研究の目的は, チャネルプレーニングされたYOLOv5小モデルを用いて, 高速応答時間(ms)と高速検出速度(fps)でジェスチャー制御されたHCIを構築することにある。 まず、ジェスチャー検出タスクに対してYOLOv5sモデルを選択する。 次に、チャネル計算アルゴリズムを用いてモデルを単純化する。 その後、プルーンドモデルはさらに微調整され、検出効率が確保される。 提案手法を他の最先端技術と比較した結果,mAP(平均精度),精度(平均精度),リコール(倍率),F1スコア(倍率),高速推論時間(ms),検出速度(fps)で優れた結果が得られた。 提案手法は,リアルタイムなジェスチャコマンドに基づくHCIのためのプルーニングされたYOLOv5sモデルをデプロイし,VLCメディアプレーヤやSpotifyプレーヤなど,リアルタイムシナリオで正しく分類されたジェスチャコマンドを使用して,いくつかのアプリケーションを制御する方法である。 提案システムの平均検出速度は60フレーム/秒 (fps) 以上に達し, リアルタイムアプリケーション制御の完全要件を満たす。

Hand gesture recognition (HGR) is a vital component in enhancing the human-computer interaction experience, particularly in multimedia applications, such as virtual reality, gaming, smart home automation systems, etc. Users can control and navigate through these applications seamlessly by accurately detecting and recognizing gestures. However, in a real-time scenario, the performance of the gesture recognition system is sometimes affected due to the presence of complex background, low-light illumination, occlusion problems, etc. Another issue is building a fast and robust gesture-controlled human-computer interface (HCI) in the real-time scenario. The overall objective of this paper is to develop an efficient hand gesture detection and classification model using a channel-pruned YOLOv5-small model and utilize the model to build a gesture-controlled HCI with a quick response time (in ms) and higher detection speed (in fps). First, the YOLOv5s model is chosen for the gesture detection task. Next, the model is simplified by using a channel-pruned algorithm. After that, the pruned model is further fine-tuned to ensure detection efficiency. We have compared our suggested scheme with other state-of-the-art works, and it is observed that our model has shown superior results in terms of mAP (mean average precision), precision (\%), recall (\%), and F1-score (\%), fast inference time (in ms), and detection speed (in fps). Our proposed method paves the way for deploying a pruned YOLOv5s model for a real-time gesture-command-based HCI to control some applications, such as the VLC media player, Spotify player, etc., using correctly classified gesture commands in real-time scenarios. The average detection speed of our proposed system has reached more than 60 frames per second (fps) in real-time, which meets the perfect requirement in real-time application control.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# マルチモーダル大言語モデルによるビジュアルストーリーテリングの改善

Improving Visual Storytelling with Multimodal Large Language Models ( http://arxiv.org/abs/2407.02586v1 )

ライセンス: Link先を確認
Xiaochuan Lin, Xiangyong Chen, (参考訳) ビジュアルストーリーテリング(Visual Storytelling)は、画像と物語を組み合わせて、魅力的で文脈的にリッチなストーリーを作成する新興分野である。 その可能性にもかかわらず、視覚情報とテキスト情報の整合が複雑になるため、コヒーレントで感情的に共鳴する視覚的ストーリーを生成することは依然として困難である。 本稿では,大規模言語モデル (LLM) と大規模視覚言語モデル (LVLM) を併用した新しい手法を提案する。 様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。 本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。 GPT-4と定性的人間評価を用いた定量的評価は,本手法が既存のモデルよりも優れ,物語のコヒーレンス,関連性,感情深度,全体的な品質において高いスコアを達成していることを示す。 その結果,視覚的ストーリーテリングの進行における指導指導の有効性とLLM/LVLMの有効性が示された。

Visual storytelling is an emerging field that combines images and narratives to create engaging and contextually rich stories. Despite its potential, generating coherent and emotionally resonant visual stories remains challenging due to the complexity of aligning visual and textual information. This paper presents a novel approach leveraging large language models (LLMs) and large vision-language models (LVLMs) combined with instruction tuning to address these challenges. We introduce a new dataset comprising diverse visual stories, annotated with detailed captions and multimodal elements. Our method employs a combination of supervised and reinforcement learning to fine-tune the model, enhancing its narrative generation capabilities. Quantitative evaluations using GPT-4 and qualitative human assessments demonstrate that our approach significantly outperforms existing models, achieving higher scores in narrative coherence, relevance, emotional depth, and overall quality. The results underscore the effectiveness of instruction tuning and the potential of LLMs/LVLMs in advancing visual storytelling.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# 量子開系進化におけるゲージ最適化の物理的帰結

Physical consequences of gauge optimization in quantum open systems evolutions ( http://arxiv.org/abs/2407.02590v1 )

ライセンス: Link先を確認
Yohan Vianna de Almeida, Fernando Nicacio, Marcelo F. Santos, (参考訳) それ自体は、マルコフのマスター方程式のゲージ変換による不変性は、主に量子開系力学の評価において数学的あるいは計算的な役割を担っている。 これまでのところ、特定のゲージの固定は、システム上で行われた測定結果やいわゆる量子軌道の環境といった付加的な情報と相関する場合にのみ物理的意味が得られた。 ここでは、ゲージ変換を自分自身で活用して、実用的な物理タスクを最適化できることが示される。 まず、量子マルコフ力学における基底対称性の固有構造を記述し、物理量の測定可能な値を変更する方法を示す一般的な定式化を示す。 次に、量子熱力学における最適化の例を分析し、最後に、量子軌道の観点から最適化されたプロトコルの実践的実装について議論する。

On its own, the invariance by gauge transformations of Markovian master equations has mostly played a mathematical or computational role in the evaluation of quantum open system dynamics. So far, the fixation of a particular gauge has only gained physical meaning when correlated with additional information such as the results of measurements carried on over the system or the environment in so-called quantum trajectories. Here, we show that gauge transformations can be exploited, on their own, to optimize practical physical tasks. To do so, first, we describe the inherent structure of the underlying symmetries in quantum Markovian dynamics and present a general formulation showing how they can be used to change the measurable values of physical quantities. We then analyze examples of optimization in quantum thermodynamics and, finally, we discuss the practical implementation of the optimized protocols in terms of quantum trajectories.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# バーチャルリアリティ開発による学生のイノベーションの実現

Enabling Student Innovation through Virtual Reality Development ( http://arxiv.org/abs/2407.02591v1 )

ライセンス: Link先を確認
Sherri Harms, (参考訳) ビデオストリーミング、ゲーム、シミュレートされた学習など、さまざまな産業でVR開発への関心が高まっていることは明らかだ。 PC, Web, モバイルはいまだソフトウェア開発の最上位プラットフォームであるが, 学生を開発プラットフォームとしてVRに公開することが大学コンピュータ科学(CS)プログラムにとって重要である。 また,CS分野における変化は一定であるため,CS学生が新しい技術を学ぶ方法を学ぶことが重要である。 CSカリキュラムの変更は、技術採用のペースよりもずっと遅い。 新しい技術が導入されるにつれて、CSの教員や学生は、特に小さなCSプログラムで一緒に学ぶことが多い。 本稿では,学生主導のVRプロジェクトがCSカリキュラム全体において,基本的なCS概念を網羅する形でどのように利用されているかを説明する。 学生主導のVRプロジェクトは、学習と創造性を促進する。 さらに、各学生プロジェクトは、より多くの学生にVR開発への挑戦を促す。

It is clear, from the major press coverage that Virtual Reality (VR) development is garnering, that there is a huge amount of development interest in VR across multiple industries, including video streaming, gaming and simulated learning. Even though PC, web, and mobile are still the top platforms for software development, it is important for university computer science (CS) programs to expose students to VR as a development platform. Additionally, it is important for CS students to learn how to learn about new technologies, since change is constant in the CS field. CS curriculum changes happen much slower than the pace of technology adoption. As new technologies are introduced, CS faculty and students often learn together, especially in smaller CS programs. This paper describes how student-led VR projects are used, across the CS curriculum, as basic CS concepts are covered. The student-led VR projects are engaging, and promote learning and creativity. Additionally, each student project inspires more students to try their hand at VR development as well.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# BPSKを用いた絡み合い支援通信のための最適受信機設計

Optimized Receiver Design for Entanglement-Assisted Communication using BPSK ( http://arxiv.org/abs/2407.02592v1 )

ライセンス: Link先を確認
Rahul Bhadani, Ivan B. Djordjevic, (参考訳) 絡み合い支援通信における事前の絡み合いの使用は、古典的なコミュニケーション、特に光子飢え状態やノイズの多い環境において、優れた代替手段を提供する。 本稿では,光パラメトリック増幅器を用いた複数の低複雑受信機の性能解析を行う。 シミュレーションにより、位相シフト鍵変調を用いたエンタングルメント支援方式を用いた受信機は、古典的容量よりも優れた性能を示すことが示された。 本稿では,2x2光ハイブリッド受信機について,従来提案していた10モード以上の光パラメトリック増幅器を用いた受信機と比較して約10%低い誤差率を示す。 しかし、光パラメトリック増幅器ベースの受信機は、単一モードの場合、ホレボ容量と光位相共役受信機と2x2光ハイブリッド受信機の容量を超える。 数値的な結果は、ホレボとホモディネの容量を超えると、多くの信号イドラーモードを必要としないことを示している。 さらに,BPSKにおける不平等な事前利用は,等価な事前よりも情報レートの方が約3倍有利であることがわかった。

The use of pre-shared entanglement in entanglement-assisted communication offers a superior alternative to classical communication, especially in the photon-starved regime and highly noisy environments. In this paper, we analyze the performance of several low-complexity receivers that use optical parametric amplifiers. The simulations demonstrate that receivers employing an entanglement-assisted scheme with phase-shift-keying modulation can outperform classical capacities. We present a 2x2 optical hybrid receiver for entanglement-assisted communication and show that it has a roughly 10% lower error probability compared to previously proposed optical parametric amplifier-based receivers for more than 10 modes. However, the capacity of the optical parametric amplifier-based receiver exceeds the Holevo capacity and the capacities of the optical phase conjugate receiver and 2x2 optical hybrid receiver in the case of a single mode. The numerical findings indicate that surpassing the Holevo and Homodyne capacities does not require a large number of signal-idler modes. Furthermore, we find that using unequal priors for BPSK provides roughly three times the information rate advantage over equal priors.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# より現実的な抽出攻撃に向けて:敵対的視点

Towards More Realistic Extraction Attacks: An Adversarial Perspective ( http://arxiv.org/abs/2407.02596v1 )

ライセンス: Link先を確認
Yash More, Prakhar Ganesh, Golnoosh Farnadi, (参考訳) 言語モデルは、トレーニングデータの大部分を記憶しやすく、抽出攻撃に対して脆弱である。 これらの攻撃に関する既存の研究は範囲に限られており、しばしばこれらのモデルとの現実的な相互作用よりも孤立した傾向を研究する。 本稿では,言語モデルの脆さを活かして,敵対的観点からの抽出攻撃を再考する。 例えば、プロンプトに対する微妙で直感的な変更や、より小さなモデルや古いチェックポイントをターゲットにしても、抽出のリスクを最大2-4 \times$で悪化させる可能性がある。 さらに,広く受け入れられている動詞マッチングのみに頼って抽出情報の程度を過小評価し,抽出の真のリスクをより正確に把握するための様々な代替手段を提案する。 我々は、一般的に推奨される緩和戦略であるデータ重複に関する議論を締めくくり、暗記の懸念に対処しながらも、現実世界の敵に対する抽出リスクのエスカレーションに対して脆弱であることに気付く。 本研究は, 抽出リスクの過小評価を回避するために, 敵の真の能力を認める必要性を浮き彫りにした。

Language models are prone to memorizing large parts of their training data, making them vulnerable to extraction attacks. Existing research on these attacks remains limited in scope, often studying isolated trends rather than the real-world interactions with these models. In this paper, we revisit extraction attacks from an adversarial perspective, exploiting the brittleness of language models. We find significant churn in extraction attack trends, i.e., even minor, unintuitive changes to the prompt, or targeting smaller models and older checkpoints, can exacerbate the risks of extraction by up to $2-4 \times$. Moreover, relying solely on the widely accepted verbatim match underestimates the extent of extracted information, and we provide various alternatives to more accurately capture the true risks of extraction. We conclude our discussion with data deduplication, a commonly suggested mitigation strategy, and find that while it addresses some memorization concerns, it remains vulnerable to the same escalation of extraction risks against a real-world adversary. Our findings highlight the necessity of acknowledging an adversary's true capabilities to avoid underestimating extraction risks.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# AutoSplat: 自動走行シーン再構築のための制約付きガウススプラッティング

AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction ( http://arxiv.org/abs/2407.02598v1 )

ライセンス: Link先を確認
Mustafa Khan, Hamidreza Fazlali, Dhruv Sharma, Tongtong Cao, Dongfeng Bai, Yuan Ren, Bingbing Liu, (参考訳) 安全クリティカルなシナリオをシミュレートすることで、自律走行システムの進行に現実的なシーン再構築とビュー合成が不可欠である。 3D Gaussian Splattingは、リアルタイムレンダリングと静的なシーン再構築に優れていますが、複雑な背景、動的オブジェクト、スパースビューによる駆動シナリオのモデリングに苦労しています。 本稿では,自律走行シーンの高度に現実的な再構築を実現するために,ガウススプラッティングを用いたAutoSplatを提案する。 道路および空域を表すガウス多様体に幾何的制約を課すことにより,車線変更を含む課題シナリオの多視点一貫したシミュレーションを可能にする。 3Dテンプレートを活用することで,前景オブジェクトの視界と視界の両面を監督するガウス整合性制約を導入する。 さらに,前景の動的外観をモデル化するために,各前景ガウスの残留球面高調波を推定する。 PandasetとKITTIの大規模な実験により、AutoSplatは様々な運転シナリオにおけるシーン再構築と新しいビュー合成において最先端の手法より優れていることが示された。 当社の$\href{https://autosplat.github.io/}{\text{project page}}$をご覧ください。

Realistic scene reconstruction and view synthesis are essential for advancing autonomous driving systems by simulating safety-critical scenarios. 3D Gaussian Splatting excels in real-time rendering and static scene reconstructions but struggles with modeling driving scenarios due to complex backgrounds, dynamic objects, and sparse views. We propose AutoSplat, a framework employing Gaussian splatting to achieve highly realistic reconstructions of autonomous driving scenes. By imposing geometric constraints on Gaussians representing the road and sky regions, our method enables multi-view consistent simulation of challenging scenarios including lane changes. Leveraging 3D templates, we introduce a reflected Gaussian consistency constraint to supervise both the visible and unseen side of foreground objects. Moreover, to model the dynamic appearance of foreground objects, we estimate residual spherical harmonics for each foreground Gaussian. Extensive experiments on Pandaset and KITTI demonstrate that AutoSplat outperforms state-of-the-art methods in scene reconstruction and novel view synthesis across diverse driving scenarios. Visit our $\href{https://autosplat.github.io/}{\text{project page}}$.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# Meta 3D Gen

Meta 3D Gen ( http://arxiv.org/abs/2407.02599v1 )

ライセンス: Link先を確認
Raphael Bensadoun, Tom Monnier, Yanir Kleiman, Filippos Kokkinos, Yawar Siddiqui, Mahendra Kariya, Omri Harosh, Roman Shapovalov, Benjamin Graham, Emilien Garreau, Animesh Karnewar, Ang Cao, Idan Azuri, Iurii Makarov, Eric-Tuan Le, Antoine Toisoul, David Novotny, Oran Gafni, Natalia Neverova, Andrea Vedaldi, (参考訳) そこで我々はMeta 3D Gen(3DGen)を紹介した。 3DGenは、3Dアセットを作成でき、高速な忠実さと高品質な3D形状とテクスチャを1分以内で提供する。 現実世界のアプリケーションで3Dアセットのリライトに必要な物理ベースのレンダリング(PBR)をサポートする。 さらに、3DGenは、ユーザが提供した追加のテキスト入力を使用して、以前に生成された(またはアーティストが作成した)3D形状の生成的リテクスチャをサポートする。 3DGenにはMeta 3D AssetGenとMeta 3D TextureGenという重要な技術コンポーネントが組み込まれています。 それらの強度を組み合わせることで、3DGenは3Dオブジェクトを同時に3つの方法で表現する。 これら2つの手法を統合することで、単段モデルに対する勝利率は68%に達する。 我々は3DGenを多くの業界ベースラインと比較し、複雑なテキストプロンプトの迅速な忠実さと視覚的品質において、はるかに高速であることを示す。

We introduce Meta 3D Gen (3DGen), a new state-of-the-art, fast pipeline for text-to-3D asset generation. 3DGen offers 3D asset creation with high prompt fidelity and high-quality 3D shapes and textures in under a minute. It supports physically-based rendering (PBR), necessary for 3D asset relighting in real-world applications. Additionally, 3DGen supports generative retexturing of previously generated (or artist-created) 3D shapes using additional textual inputs provided by the user. 3DGen integrates key technical components, Meta 3D AssetGen and Meta 3D TextureGen, that we developed for text-to-3D and text-to-texture generation, respectively. By combining their strengths, 3DGen represents 3D objects simultaneously in three ways: in view space, in volumetric space, and in UV (or texture) space. The integration of these two techniques achieves a win rate of 68% with respect to the single-stage model. We compare 3DGen to numerous industry baselines, and show that it outperforms them in terms of prompt fidelity and visual quality for complex textual prompts, while being significantly faster.
翻訳日:2024-07-04 18:33:58 公開日:2024-07-02
# 帯域フィードバックを用いた線形部分モジュラ最大化

Linear Submodular Maximization with Bandit Feedback ( http://arxiv.org/abs/2407.02601v1 )

ライセンス: Link先を確認
Wenjing Chen, Victoria G. Crawford, (参考訳) 帯域フィードバックによる部分モジュラ最適化は,近年,様々な文脈で研究されている。 多様化されたレコメンデータシステムやデータ要約のような現実世界の多くの応用において、部分モジュラ函数は追加の線形構造を示す。 準モジュラー対象関数 $f:2^U\to\mathbb{R}_{\geq 0}$, $f=\sum_{i=1}^dw_iF_{i}$ の最大化のための近似アルゴリズムの開発を検討する。 F_i$ 関数へのオラクルアクセスが期待できるが、係数 $w_i$ は未知であり、$f$ はノイズの多いクエリによってのみアクセス可能である。 本研究では,線形帯域に対する最適アーム識別における適応的アロケーションアルゴリズムに着想を得たこの設定のためのアルゴリズムを開発し,その近似により,値のオラクルアクセスが$f$となるような設定に任意に近づくことが保証される。 最後に、我々のアルゴリズムは、移動推奨インスタンス上の$f$の線形構造を活用できないアルゴリズムと比較して、サンプル効率の点で大幅に改善されていることを実証的に示す。

Submodular optimization with bandit feedback has recently been studied in a variety of contexts. In a number of real-world applications such as diversified recommender systems and data summarization, the submodular function exhibits additional linear structure. We consider developing approximation algorithms for the maximization of a submodular objective function $f:2^U\to\mathbb{R}_{\geq 0}$, where $f=\sum_{i=1}^dw_iF_{i}$. It is assumed that we have value oracle access to the functions $F_i$, but the coefficients $w_i$ are unknown, and $f$ can only be accessed via noisy queries. We develop algorithms for this setting inspired by adaptive allocation algorithms in the best-arm identification for linear bandit, with approximation guarantees arbitrarily close to the setting where we have value oracle access to $f$. Finally, we empirically demonstrate that our algorithms make vast improvements in terms of sample efficiency compared to algorithms that do not exploit the linear structure of $f$ on instances of move recommendation.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# D-Rax:マルチモーダルデータとeXpertモデル予測を利用したドメイン固有無線アシスタント

D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions ( http://arxiv.org/abs/2407.02604v1 )

ライセンス: Link先を確認
Hareem Nisar, Syed Muhammad Anwar, Zhifan Jiang, Abhijeet Parida, Vishwesh Nath, Holger R. Roth, Marius George Linguraru, (参考訳) 大規模視覚言語モデル(VLM)は、研究から汎用ユースケースへの適用に至るまで、驚くほど進歩している。 LLaVA-Medは、バイオメディシンのための先駆的な大規模言語とビジョンアシスタントであり、放射線医学者のための自然言語インタフェースを提供するために、マルチモーダルなバイオメディカルイメージとデータ分析を実行することができる。 非常に一般化可能であり、マルチモーダルデータで動作するが、現在、大きな言語モデル空間に存在するよく知られた課題によって制限されている。 幻覚と反応のインプレクションは、現在VLMの臨床的適応性を阻害している誤診を引き起こす可能性がある。 医療において正確なユーザフレンドリなモデルを作成するために、D-Raxを提案する。D-Raxは、特定の放射線画像についての洞察を得るために使用できる、ドメイン固有の、会話型、無線支援ツールである。 本研究では,胸部X線画像(CXR)の会話解析を強化し,放射線学的診断を支援するとともに,医用画像からの包括的洞察と正確な診断の定式化を支援する。 D-Raxは、画像、命令、およびMIMIC-CXR画像データ、CXR関連視覚質問応答(VQA)ペア、および複数の専門家AIモデルから得られる予測結果からなる画像、命令、および疾患診断および人口統計予測を含む、我々のキュレートされた命令追従データに基づいてLLaVA-Medアーキテクチャを微調整することで実現される。 オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。 最先端の診断モデルのパワーをVLMと組み合わせることで、D-Raxは、臨床医が自然言語を使って医療画像と対話できるようにし、意思決定プロセスの合理化、診断精度の向上、時間の保存を可能にする。

Large vision language models (VLMs) have progressed incredibly from research to applicability for general-purpose use cases. LLaVA-Med, a pioneering large language and vision assistant for biomedicine, can perform multi-modal biomedical image and data analysis to provide a natural language interface for radiologists. While it is highly generalizable and works with multi-modal data, it is currently limited by well-known challenges that exist in the large language model space. Hallucinations and imprecision in responses can lead to misdiagnosis which currently hinder the clinical adaptability of VLMs. To create precise, user-friendly models in healthcare, we propose D-Rax -- a domain-specific, conversational, radiologic assistance tool that can be used to gain insights about a particular radiologic image. In this study, we enhance the conversational analysis of chest X-ray (CXR) images to support radiological reporting, offering comprehensive insights from medical imaging and aiding in the formulation of accurate diagnosis. D-Rax is achieved by fine-tuning the LLaVA-Med architecture on our curated enhanced instruction-following data, comprising of images, instructions, as well as disease diagnosis and demographic predictions derived from MIMIC-CXR imaging data, CXR-related visual question answer (VQA) pairs, and predictive outcomes from multiple expert AI models. We observe statistically significant improvement in responses when evaluated for both open and close-ended conversations. Leveraging the power of state-of-the-art diagnostic models combined with VLMs, D-Rax empowers clinicians to interact with medical images using natural language, which could potentially streamline their decision-making process, enhance diagnostic accuracy, and conserve their time.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 多光子偏光GHZ状態を用いた分散相のための弱クレーメラオ境界を超えて:エクササイズ量子フィッシャーマトリックス結果

Beyond Weak Cramér Rao Bound for Distributed Phases Using Multiphoton Polarization GHZ State: Exact Quantum Fisher Matrix Results ( http://arxiv.org/abs/2407.02605v1 )

ライセンス: Link先を確認
Jiaxuan Wang, Girish Agarwal, (参考訳) 量子化パラメータ推定は分散センシングを含む様々な分野において重要である。 本研究では,多光子偏光絡み状態を用いた異なる空間ノードにおける未知位相の推定に焦点をあてる。 これまでの研究では、正確な量子フィッシャー情報行列の正確な境界よりもはるかに弱いクラム・ラーオ境界に依存していた。 分散センシングの正確な結果を示す。 特異な性質のため、量子フィッシャー情報行列の直接利用は不可能である。 この特異点の理由を分析し、量子クラム・ラオ境界の決定を妨げた。 多光子絡み合った状態を持つ分散センシングのすべての位相が独立であるわけではないことを実証する。 計算から冗長位相を同定して除去することにより,非特異行列を得る。 これにより、正確な量子Cram\'er-Rao境界を導出することができ、それが射影測定によって飽和であることが確認できる。 これらの境界は平均位相に対するハイゼンベルク制限センシングを可能にする。 我々の分析は、複数のノードにまたがるN- Photon GHZ状態に特に当てはまる。 この進歩は、より正確で効率的な分散センシングの道を開き、N光子GHZ状態に基づく量子センシング技術の全体的な能力を高めるために重要である。

Quantum-enhanced parameter estimation is critical in various fields, including distributed sensing. In this study, we focus on estimating multiple unknown phases at different spatial nodes using multiphoton polarization-entangled states. Previous research has relied on a much weaker Cram\'er-Rao bound rather than precise bounds from exact quantum Fisher information matrices. We present exact results for the distributed sensing. We find that, due to its singular nature, direct use of the quantum Fisher information matrix is not possible. We analyze the reasons for this singularity, which has prevented the determination of quantum Cram\'er-Rao bounds. We demonstrate that not all phases in distributed sensing with multiphoton entangled states are independent. We obtain non-singular matrices by identifying and removing the redundant phase from the calculation. This allows us to derive exact quantum Cram\'er-Rao bounds, which we verify are saturated by projective measurements. These bounds enable Heisenberg-limited sensing for the average phase. Our analysis is specifically applicable to N-photon GHZ states distributed across multiple nodes. This advancement is significant as it paves the way for more precise and efficient distributed sensing, enhancing the overall capabilities of quantum sensing technologies based on N photon GHZ states.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# コレスキー多様体上の積測地とSPD多様体への応用

Product Geometries on Cholesky Manifolds with Applications to SPD Manifolds ( http://arxiv.org/abs/2407.02607v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Xiao-Jun Wu, Nicu Sebe, (参考訳) 本稿では、コレスキー多様体を通して対称正定値(SPD)多様体上の2つの新しい測度、すなわち正の対角要素を持つ下方三角形行列の空間を示す。 最初に、コレスキー多様体上の既存のリーマン計量が、一般にユークリッド計量の積計量と n-次元正ベクトルの空間上のリーマン計量として特徴づけられることを明らかにした。 この分析に基づいて、コレスキー多様体上の2つの新しい計量、すなわち、既存のコレスキー計量よりも数値的に安定な対角パワーユークリッド計量と対角一般化ビューレス=ワッサーシュタイン計量を提案する。 また、メトリクスに関連するジャイロ構造や変形メトリクスについても論じます。 ジャイロ構造は線形および幾何学的性質を結合し、デフォルメトリは提案したメトリクスと既存のメトリクスの間に相互に交差する。 さらに、チョレスキー分解により、提案された変形計量とジャイロ構造はSPD多様体に引き戻される。 SPD多様体上の既存のリーマン測度と比較すると、我々の測度は使いやすく、計算効率が良く、数値的に安定である。

This paper presents two new metrics on the Symmetric Positive Definite (SPD) manifold via the Cholesky manifold, i.e., the space of lower triangular matrices with positive diagonal elements. We first unveil that the existing popular Riemannian metric on the Cholesky manifold can be generally characterized as the product metric of a Euclidean metric and a Riemannian metric on the space of n-dimensional positive vectors. Based on this analysis, we propose two novel metrics on the Cholesky manifolds, i.e., Diagonal Power Euclidean Metric and Diagonal Generalized Bures-Wasserstein Metric, which are numerically stabler than the existing Cholesky metric. We also discuss the gyro structures and deformed metrics associated with our metrics. The gyro structures connect the linear and geometric properties, while the deformed metrics interpolate between our proposed metrics and the existing metric. Further, by Cholesky decomposition, the proposed deformed metrics and gyro structures are pulled back to SPD manifolds. Compared with existing Riemannian metrics on SPD manifolds, our metrics are easy to use, computationally efficient, and numerically stable.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 8ビット浮動小数点におけるオンデバイストレーニングとコミュニケーションによるフェデレーションラーニング

Towards Federated Learning with On-device Training and Communication in 8-bit Floating Point ( http://arxiv.org/abs/2407.02610v1 )

ライセンス: Link先を確認
Bokun Wang, Axel Berg, Durmus Alp Emre Acar, Chuteng Zhou, (参考訳) 近年の研究では、8ビット浮動小数点(FP8)が、FP32/FP16のトレーニングと比較して計算オーバーヘッドを減らしたニューラルネットワークのトレーニングに有効であることが示されている。 本研究では,フェデレート学習におけるFP8トレーニングの利用について検討する。 これにより、エッジでのデバイス上でのトレーニングに望ましいFP8の通常のメリットがもたらされるだけでなく、重み圧縮によるクライアントサーバ間の通信コストも削減される。 本稿では,グローバルなFP32サーバモデルを維持しながらFP8クライアントトレーニングを組み合わせる新しい手法を提案する。 各種機械学習モデルとデータセットを用いた実験により、FP32ベースラインと比較して、我々の手法は、様々なタスクやモデルに対して、少なくとも2.9倍の通信削減を連続的に得ることが示された。

Recent work has shown that 8-bit floating point (FP8) can be used for efficiently training neural networks with reduced computational overhead compared to training in FP32/FP16. In this work, we investigate the use of FP8 training in a federated learning context. This brings not only the usual benefits of FP8 which are desirable for on-device training at the edge, but also reduces client-server communication costs due to significant weight compression. We present a novel method for combining FP8 client training while maintaining a global FP32 server model and provide convergence analysis. Experiments with various machine learning models and datasets show that our method consistently yields communication reductions of at least 2.9x across a variety of tasks and models compared to an FP32 baseline.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# セルオートマタ(WARP-CA)を用いた火災自動応答と予測

Wildfire Autonomous Response and Prediction Using Cellular Automata (WARP-CA) ( http://arxiv.org/abs/2407.02613v1 )

ライセンス: Link先を確認
Abdelrahman Ramadan, (参考訳) 森林火災は気候変動や環境要因によって悪化する生態系や人的居住地にとって深刻な課題となる。 伝統的な山火事モデリングは有用であるが、そのような事象の急激なダイナミクスに適応できないことが多い。 本稿では,パーリンノイズを用いた地形生成とセルオートマタ(CA)のダイナミズムを統合し,山火事の拡散をシミュレートする手法であるWARP-CAモデルを提案する。 我々は,UAVやUGVなどの自律型エージェントを協調的な枠組みでシミュレーションすることにより,山火事を管理するマルチエージェント強化学習(MARL)の可能性を探る。 本手法は,世界シミュレーション技術とMARLの創発的挙動を併用し,効率的な山火事抑制と,風のパターンや地形特性といった重要な環境要因を考察する。

Wildfires pose a severe challenge to ecosystems and human settlements, exacerbated by climate change and environmental factors. Traditional wildfire modeling, while useful, often fails to adapt to the rapid dynamics of such events. This report introduces the (Wildfire Autonomous Response and Prediction Using Cellular Automata) WARP-CA model, a novel approach that integrates terrain generation using Perlin noise with the dynamism of Cellular Automata (CA) to simulate wildfire spread. We explore the potential of Multi-Agent Reinforcement Learning (MARL) to manage wildfires by simulating autonomous agents, such as UAVs and UGVs, within a collaborative framework. Our methodology combines world simulation techniques and investigates emergent behaviors in MARL, focusing on efficient wildfire suppression and considering critical environmental factors like wind patterns and terrain features.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# びまん性グリオーマに対する多パラメータMR画像からの深層学習に基づくApparent Diffusion Coefficient Map Generation1

Deep Learning Based Apparent Diffusion Coefficient Map Generation1 from Multi-parametric MR Images for Patients with Diffuse Gliomas ( http://arxiv.org/abs/2407.02616v1 )

ライセンス: Link先を確認
Zach Eidex, Mojtaba Safari, Jacob Wynne, Richard L. J. Qiu, Tonghe Wang, David Viar Hernandez, Hui-Kuo Shu, Hui Mao, Xiaofeng Yang, (参考訳) 目的:拡散強調(DWI)MRIから得られたADCマップは組織中の水分子に関する機能的測定を提供する。 しかし、DWIは時間がかかり、画像のアーティファクトに非常に影響を受けやすいため、不正確なADC測定に繋がる。 本研究では,多パラメータMR画像からADCマップを合成するディープラーニングフレームワークを開発することを目的とする。 方法: 畳み込み演算子の精度とともに、ViT層の長距離コンテキストを利用するマルチパラメトリック残差視覚変換器モデル(MPR-ViT)を提案する。 ネットワーク全体の残差ブロックは、モデルの表現力を大幅に増大させた。 The MPR-ViT model applied to T1w and T2- fluid attenuated inversion recovery image of 501 glioma case from a public available dataset including preprocessed ADC map。 選択した患者はトレーニング(N=400),バリデーション(N=50),テスト(N=51)に分けた。 事前処理したADCマップを根拠として、モデル性能を評価し、Vision Convolutional Transformer (VCT) モデルとResViT (ResViT) モデルと比較した。 MPR-ViT - PSNR: 31.0 +/- 2.1, MSE: 0.009 +/- 0.0005, SSIM: 0.950 +/- 0.015。 さらに,アブレーション実験では,各入力シーケンスの性能に相対的な影響が認められた。 定性的および定量的な結果は,提案したMR-ViTモデルが真理データに対して良好に動作することを示す。 結論: MPR-VCT モデルを用いて構造MRI から高品質な ADC マップを合成できることが示唆された。 我々の予測画像は、ResViTやVCTの予測よりも、地上の真理量との整合性が高い。 これらの高品質の合成ADCマップは、病気の診断や介入に特に有用であり、特にADCマップがアーティファクトを持っているか、利用できない場合に有用である。

Purpose: Apparent diffusion coefficient (ADC) maps derived from diffusion weighted (DWI) MRI provides functional measurements about the water molecules in tissues. However, DWI is time consuming and very susceptible to image artifacts, leading to inaccurate ADC measurements. This study aims to develop a deep learning framework to synthesize ADC maps from multi-parametric MR images. Methods: We proposed the multiparametric residual vision transformer model (MPR-ViT) that leverages the long-range context of ViT layers along with the precision of convolutional operators. Residual blocks throughout the network significantly increasing the representational power of the model. The MPR-ViT model was applied to T1w and T2- fluid attenuated inversion recovery images of 501 glioma cases from a publicly available dataset including preprocessed ADC maps. Selected patients were divided into training (N=400), validation (N=50) and test (N=51) sets, respectively. Using the preprocessed ADC maps as ground truth, model performance was evaluated and compared against the Vision Convolutional Transformer (VCT) and residual vision transformer (ResViT) models. Results: The results are as follows using T1w + T2-FLAIR MRI as inputs: MPR-ViT - PSNR: 31.0 +/- 2.1, MSE: 0.009 +/- 0.0005, SSIM: 0.950 +/- 0.015. In addition, ablation studies showed the relative impact on performance of each input sequence. Both qualitative and quantitative results indicate that the proposed MR- ViT model performs favorably against the ground truth data. Conclusion: We show that high-quality ADC maps can be synthesized from structural MRI using a MPR- VCT model. Our predicted images show better conformality to the ground truth volume than ResViT and VCT predictions. These high-quality synthetic ADC maps would be particularly useful for disease diagnosis and intervention, especially when ADC maps have artifacts or are unavailable.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 変分非ガウス状態をもつ開量子力学と切り刻まれたウィグナー近似

Open quantum dynamics with variational non-Gaussian states and the truncated Wigner approximation ( http://arxiv.org/abs/2407.02617v1 )

ライセンス: Link先を確認
Liam J. Bond, Bas Gerritsen, Jiří Minář, Jeremy T. Young, Johannes Schachenmayer, Arghavan Safavi-Naini, (参考訳) 本稿では、変分非ガウス状態と量子軌道のアプローチを組み合わせ、スピンボソン系の開力学をシミュレートする枠組みを提案する。 この方法は、Tavis-CummingsとHolstein型カップリングの両方を持ち、様々な量子シミュレーションプラットフォーム、分極物理学、量子化学に広く応用されている一般的なスピンボソンハミルトニアンに適用する。 さらに、最近開発された開量子系に対するウィグナー近似が、同じハミルトニアンに対してどのように適用できるかについて議論する。 両手法のパフォーマンスをベンチマークし、各手法が最適である条件を特定します。 最後に、各手法を改善するための戦略について議論する。

We present a framework for simulating the open dynamics of spin-boson systems by combing variational non-Gaussian states with a quantum trajectories approach. We apply this method to a generic spin-boson Hamiltonian that has both Tavis-Cummings and Holstein type couplings, and which has broad applications to a variety of quantum simulation platforms, polaritonic physics, and quantum chemistry. Additionally, we discuss how the recently developed truncated Wigner approximation for open quantum systems can be applied to the same Hamiltonian. We benchmark the performance of both methods and identify the regimes where each method is best suited to. Finally we discuss strategies to improve each technique.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# RefExpo: 高度な依存性グラフ抽出によるソフトウェアプロジェクト構造の構築

RefExpo: Unveiling Software Project Structures through Advanced Dependency Graph Extraction ( http://arxiv.org/abs/2407.02620v1 )

ライセンス: Link先を確認
Vahid Haratian, Pouria Derakhshanfar, Vladimir Kovalenko, Eray Tüzün, (参考訳) ソフトウェアプロジェクトの依存性グラフ(DG)を評価することは、重要なコンポーネントを特定する上で貴重な洞察を提供する。 多くの研究がDGを抽出し、セキュリティやバスファクターの計算など様々な分析に利用している。 しかし、DG抽出のためのユーザフレンドリなツールが欠如しており、オープンソースプロジェクトからの包括的なDGデータセットが利用できない。 この記事では、Java、Python、JavaScriptなどの複数の言語をサポートする、使い易いDG抽出ツールであるRefExpoを紹介した。 IntelliJプラグインSDKに基づいて、RefExpoはさまざまなプロジェクト構造と技術バージョンとの互換性を保証する。 また、20のJavaおよびPythonプロジェクトのデータセットも提供しています。 RefExpoを検証するために、JavaとPythonに焦点を当てました。 マイクロテストスイートではRefExpoが92%,マイクロテストスイートでは100%リコールされた。 マクロレベルの実験では、RefExpoは、独特で共有された結果を見つける上で、既存のツールを少なくとも31%、7%上回った。 私たちのツールのソースコードは、レプリケーションパッケージ1からアクセスできます。 RefExpoのインストール可能なバージョンはIntelliJマーケットプレースで入手できる。 さらに、機能を説明する短いビデオは、https://youtu.be/eCnPUlj6YgA.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s /s/s/s

Assessing the dependency graph (DG) of a software project offers valuable insights for identifying its key components. Numerous studies have explored extracting DGs and leveraging them for various analyses, including security and bus factor calculations. However, there is a lack of user-friendly tools for DG extraction, and no comprehensive DG datasets from open-source projects are available. This study introduces RefExpo, an easy-to-use DG extraction tool supporting multiple languages like Java, Python, and JavaScript. Based on the IntelliJ plugin SDK, RefExpo ensures compatibility with various project structures and technology versions. We also provide a dataset of 20 Java and Python projects, with plans to expand upon request. To validate RefExpo we focused on Java and Python. Our tests showed RefExpo achieving 92% and 100% recall on micro test suites Judge and PyCG for Python and Java, respectively. In macro-level experiments, RefExpo outperformed existing tools by at least 31% and 7% in finding unique and shared results. You can access the source code of our tool from our replication package1. The installable version of RefExpo is available on the IntelliJ marketplace. Additionally, a short video describing its functionality can be viewed here: https://youtu.be/eCnPUlj6YgA.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 磁場変調によるエフィモフ状態の干渉計測における密度効果

Density effects on the interferometry of Efimov states by modulating magnetic fields ( http://arxiv.org/abs/2407.02621v1 )

ライセンス: Link先を確認
G. Bougas, S. I. Mistakidis, P. Giannakeas, (参考訳) 変調磁場による熱ガス中のエフィモフトリマーの動的結合は、トリマーの結合エネルギーを決定する上で非常に有益であることが証明された。 後者は残基数から抽出され、原子-二量体による三量体の重ね合わせから生じる振動縞が特徴的である。 その後、時間依存の3体問題を用いた理論的研究により、エフィモフ状態とトラップ状態と、後者と原子-二量体との重ね合わせとして現れる追加の関連機構が明らかになった。 3つの原子は、均一な密度で熱ガスをエミュレートする方法で初期化された。 ここでは、半古典的熱気体の密度分布の影響を考慮し、この分析を拡大する。 エフィモフ三量体と第1原子二量体との重畳は依然として同じであり、高い振動率のフリンジの周波数は低い値に変化する。 後者は、密度プロファイルがトラップ状態の寄与を調べるため、自由空間における三量体と原子二量体の周波数を参照する。

Dynamical association of Efimov trimers in thermal gases by means of modulated magnetic fields has proven very fruitful in determining the binding energy of trimers. The latter was extracted from the number of remaining atoms, which featured oscillatory fringes stemming from the superposition of trimers with atom-dimers. Subsequent theoretical investigations utilizing the time-dependent three-body problem revealed additional association mechanisms, manifested as superpositions of the Efimov state with the trap states and the latter with atom-dimers. The three atoms were initialized in a way to emulate a thermal gas with uniform density. Here, this analysis is extended by taking into account the effects of the density profile of a semi-classical thermal gas. The supersposition of the Efimov trimer with the first atom-dimer remains the same, while the frequencies of highly oscillatory fringes shift to lower values. The latter refer to the frequencies of trimers and atom-dimers in free space since the density profile smears out the contribution of trap states.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# RISC-V R-Extension:Rented-PipelineによるエッジDNN処理の効率化

RISC-V R-Extension: Advancing Efficiency with Rented-Pipeline for Edge DNN Processing ( http://arxiv.org/abs/2407.02622v1 )

ライセンス: Link先を確認
Won Hyeok Kim, Hyeong Jin Kim, Tae Hee Han, (参考訳) エッジデバイスの普及は、軽量タスク、特にディープニューラルネットワーク(DNN)推論のための効率的な計算アーキテクチャを必要とする。 従来のNPUはそのような操作に有効だが、軽量エッジデバイスに統合された場合、電力、コスト、領域の課題に直面している。 RISC-Vアーキテクチャはモジュラリティとオープンソースの性質で知られており、実行可能な代替手段を提供する。 本稿では,エッジデバイス上でのDNNプロセス効率向上のための新しいアプローチであるRISC-V R-extensionを紹介する。 この拡張はレンタルパイプラインステージとアーキテクチャパイプラインレジスタ(APR)を備えており、クリティカルな操作の実行を最適化し、レイテンシとメモリアクセス頻度を低減している。 さらにこの拡張には、これらのアーキテクチャ改善をサポートするための新しいカスタム命令が含まれている。 包括的解析により,エッジデバイス処理におけるR伸展の促進が示され,より応答性が高くインテリジェントなエッジアプリケーションのためのステージが設定される。

The proliferation of edge devices necessitates efficient computational architectures for lightweight tasks, particularly deep neural network (DNN) inference. Traditional NPUs, though effective for such operations, face challenges in power, cost, and area when integrated into lightweight edge devices. The RISC-V architecture, known for its modularity and open-source nature, offers a viable alternative. This paper introduces the RISC-V R-extension, a novel approach to enhancing DNN process efficiency on edge devices. The extension features rented-pipeline stages and architectural pipeline registers (APR), which optimize critical operation execution, thereby reducing latency and memory access frequency. Furthermore, this extension includes new custom instructions to support these architectural improvements. Through comprehensive analysis, this study demonstrates the boost of R-extension in edge device processing, setting the stage for more responsive and intelligent edge applications.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 低所得データの引き上げ:視覚・言語モデルにおける社会経済的な視点変化の戦略

Uplifting Lower-Income Data: Strategies for Socioeconomic Perspective Shifts in Vision-Language Models ( http://arxiv.org/abs/2407.02623v1 )

ライセンス: Link先を確認
Joan Nwatu, Oana Ignat, Rada Mihalcea, (参考訳) この問題に対処するため、翻訳された非英語、地理的、社会経済的統合プロンプトを定式化し、異なる国や所得集団のデータに対するVLモデルの性能への影響を評価する。 その結果,低所得家庭における地理的・社会経済的統合は,低所得家庭におけるVLパフォーマンスの向上と,低所得家庭におけるトピックの出現の検索に寄与することが示唆された。 分析から、これらの戦略が最も改善をもたらす状況を特定し、強調する。 私たちのモデル解析コードはhttps://github.com/Anniejoan/Uplifting-Lower-income-dataで公開されています。

To address this issue, we formulate translated non-English, geographic, and socioeconomic integrated prompts and evaluate their impact on VL model performance for data from different countries and income groups. Our findings show that geographic and socioeconomic integrated prompts improve VL performance on lower-income data and favor the retrieval of topic appearances commonly found in data from low-income households. From our analyses, we identify and highlight contexts where these strategies yield the most improvements. Our model analysis code is publicly available at https://github.com/Anniejoan/Uplifting-Lower-income-data .
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# 胸部CT画像における肺結節の完全自動ゼロショット検出と分類

Lung-CADex: Fully automatic Zero-Shot Detection and Classification of Lung Nodules in Thoracic CT Images ( http://arxiv.org/abs/2407.02625v1 )

ライセンス: Link先を確認
Furqan Shaukat, Syed Muhammad Anwar, Abhijeet Parida, Van Khanh Lam, Marius George Linguraru, Mubarak Shah, (参考訳) 肺癌は何十年にもわたって、人間の命にとって大きな脅威の1つだ。 コンピュータ支援診断は早期の肺結節の検出に役立ち、その後の結節の特徴づけを促進する。 大規模なビジュアル言語モデル(VLM)は、画像データとテキストデータの両方に依存する複数の下流医療タスクに有効であることが判明した。 しかし,VLMを用いた病変レベルの検出とその後の診断はまだ検討されていない。 MedSAMと呼ばれるSegment Anything Modelの変種を用いて肺結節をゼロショットでセグメント化するためのCADeを提案する。 CADeは、プレフィックスチューニングを通じてCLIPテキストエンコーダを使用して、入力計算トモグラフィ(CT)スキャンのプロンプトスイートでトレーニングを行う。 また、放射能特徴のギャラリーを作成し、コントラスト学習を通じて画像と画像のペアを整列させることにより、良性/良性としての結節的特徴付けを行うCADxを提案する。 CADeとCADxのトレーニングと検証は、LIDCと呼ばれる最も大きな公開データセットを使用して行われている。 モデルの一般化能力を確認するために、挑戦的なデータセットLUNGxで評価する。 実験の結果,提案手法の感度は0.86であり,他の完全教師付き手法に比べて0.76であることがわかった。

Lung cancer has been one of the major threats to human life for decades. Computer-aided diagnosis can help with early lung nodul detection and facilitate subsequent nodule characterization. Large Visual Language models (VLMs) have been found effective for multiple downstream medical tasks that rely on both imaging and text data. However, lesion level detection and subsequent diagnosis using VLMs have not been explored yet. We propose CADe, for segmenting lung nodules in a zero-shot manner using a variant of the Segment Anything Model called MedSAM. CADe trains on a prompt suite on input computed tomography (CT) scans by using the CLIP text encoder through prefix tuning. We also propose, CADx, a method for the nodule characterization as benign/malignant by making a gallery of radiomic features and aligning image-feature pairs through contrastive learning. Training and validation of CADe and CADx have been done using one of the largest publicly available datasets, called LIDC. To check the generalization ability of the model, it is also evaluated on a challenging dataset, LUNGx. Our experimental results show that the proposed methods achieve a sensitivity of 0.86 compared to 0.76 that of other fully supervised methods.The source code, datasets and pre-processed data can be accessed using the link:
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# Nollywood: 映画を見に行こう!

Nollywood: Let's Go to the Movies! ( http://arxiv.org/abs/2407.02631v1 )

ライセンス: Link先を確認
John E. Ortega, Ibrahim Said Ahmad, William Chen, (参考訳) ノリウッド(英: Nollywood)は、インド出身のボリウッドのアイデアを基にした、ナイジェリア発の一連の傑出した映画である。 残念ながら、映画は英語で書かれているが、話される英語の方言のため、多くの母語話者にとって理解が難しい。 本稿では,(1)ナイジェリア英語をアメリカ英語に翻訳できる音声サブタイトルモデルを作成し,(2)最も高度な毒性検知器を用いて,その音声がいかに有害であるかを明らかにする。 我々の狙いは、ナイジェリアの多くの人々が家庭でHausaのような母国語を話しているという事実から、方言理解の欠如からしばしば無視されるこれらのビデオのテキストを強調することである。

Nollywood, based on the idea of Bollywood from India, is a series of outstanding movies that originate from Nigeria. Unfortunately, while the movies are in English, they are hard to understand for many native speakers due to the dialect of English that is spoken. In this article, we accomplish two goals: (1) create a phonetic sub-title model that is able to translate Nigerian English speech to American English and (2) use the most advanced toxicity detectors to discover how toxic the speech is. Our aim is to highlight the text in these videos which is often times ignored for lack of dialectal understanding due the fact that many people in Nigeria speak a native language like Hausa at home.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# HOIMotion:エゴセントリックな3Dオブジェクト境界ボックスを用いた人間と物体の相互作用の予測

HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes ( http://arxiv.org/abs/2407.02633v1 )

ライセンス: Link先を確認
Zhiming Hu, Zheming Yin, Daniel Haeufle, Syn Schmitt, Andreas Bulling, (参考訳) 我々は,過去の身体のポーズやエゴセントリックな3Dオブジェクトバウンディングボックスに関する情報を統合した,人間と物体の相互作用における人間の動作予測の新しいアプローチであるHOIMotionを提案する。 人間の動き予測は、多くの拡張現実アプリケーションにおいて重要であるが、既存のほとんどの方法は、将来の動きを予測するために過去の身体のポーズしか使われていない。 HOIMotionはまず、エンコーダ-残留グラフ畳み込みネットワーク(GCN)と多層パーセプトロンを使用して、それぞれボディポーズとエゴセントリックな3Dオブジェクト境界ボックスから特徴を抽出する。 提案手法は,ポーズとオブジェクトの特徴を新しいポーズオブジェクトグラフに融合し,残差デコーダGCNを用いて将来の身体動作を予測する。 Aria Digital twin (ADT) と MoGaze のデータセットを用いて, HOIMotion は ADT では8.7% , MoGaze では7.2% という大差で, 常に最先端の手法より優れていることを示す。 これらの評価を補完し,本手法が達成した改善が,既存手法よりも正確かつ現実的なものと認識される結果をもたらすことを示す人間研究(N=20)を報告する。 これらの結果から,人間の動き予測のためのエゴセントリックな3次元オブジェクト境界ボックスで利用可能な重要な情報内容と,この情報を活用する方法の有効性が明らかになった。

We present HOIMotion - a novel approach for human motion forecasting during human-object interactions that integrates information about past body poses and egocentric 3D object bounding boxes. Human motion forecasting is important in many augmented reality applications but most existing methods have only used past body poses to predict future motion. HOIMotion first uses an encoder-residual graph convolutional network (GCN) and multi-layer perceptrons to extract features from body poses and egocentric 3D object bounding boxes, respectively. Our method then fuses pose and object features into a novel pose-object graph and uses a residual-decoder GCN to forecast future body motion. We extensively evaluate our method on the Aria digital twin (ADT) and MoGaze datasets and show that HOIMotion consistently outperforms state-of-the-art methods by a large margin of up to 8.7% on ADT and 7.2% on MoGaze in terms of mean per joint position error. Complementing these evaluations, we report a human study (N=20) that shows that the improvements achieved by our method result in forecasted poses being perceived as both more precise and more realistic than those of existing methods. Taken together, these results reveal the significant information content available in egocentric 3D object bounding boxes for human motion forecasting and the effectiveness of our method in exploiting this information.
翻訳日:2024-07-04 18:24:13 公開日:2024-07-02
# Change My Frame: r/ChangeMyViewの野生環境でのリフレーミング

Change My Frame: Reframing in the Wild in r/ChangeMyView ( http://arxiv.org/abs/2407.02637v1 )

ライセンス: Link先を確認
Arturo Martínez Peguero, Taro Watanabe, (参考訳) テキストスタイルの転送の範囲内でのリフレーミングにおける最近の研究は、中性化や楽観的なリフレームを生成するために、アウト・オブ・コンテクスト(out-of-context, task-prompted utterances)を用いてきた。 我々の研究は、サブレディット r/ChangeMyView (CMV) に基づいてリフレーミングを一般化することを目的としている。 我々は、CMVのコミュニティのインタラクションと規約を活用して、視点の変化を生み出す高価値でコミュニティに認識された発話を特定するデータセットを構築します。 このデータにより、視点の変化は中立方向や正方向だけに限らず、リフレーミングの方向の範囲を広げる。 トランスフォーマーベースのモデルを微調整し、最新のLCMを使用してデータセットを洗練し、この種のリフレーミングに関するデータセット作成と評価の課題を探求する。

Recent work in reframing, within the scope of text style transfer, has so far made use of out-of-context, task-prompted utterances in order to produce neutralizing or optimistic reframes. Our work aims to generalize reframing based on the subreddit r/ChangeMyView (CMV). We build a dataset that leverages CMV's community's interactions and conventions to identify high-value, community-recognized utterances that produce changes of perspective. With this data, we widen the scope of the direction of reframing since the changes in perspective do not only occur in neutral or positive directions. We fine tune transformer-based models, make use of a modern LLM to refine our dataset, and explore challenges in the dataset creation and evaluation around this type of reframing.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 道路抽出のための立体的構造を考慮したグラフニューラルネットワーク

Holistically-Nested Structure-Aware Graph Neural Network for Road Extraction ( http://arxiv.org/abs/2407.02639v1 )

ライセンス: Link先を確認
Tinghuai Wang, Guangming Wang, Kuan Eeik Tan, (参考訳) 畳み込みニューラルネットワーク(CNN)は、衛星画像からの道路検出に大きく進歩した。 しかし、既存のCNNアプローチは一般的にセマンティックセグメンテーションアーキテクチャを再利用し、長い領域と湾曲した領域のデライン化に悩まされている。 道路トポロジと構造情報の欠如は、より困難なリモートセンシング画像の性能を悪化させる。 本稿では,道路領域と道路境界の両方を同時に検出する新しいマルチタスクグラフニューラルネットワーク(GNN)を提案する。この2つのタスク間の相互作用は,(1)階層的に検出された道路境界により,ネットワークが全体的道路構造を捕捉し,エンコードし,道路接続性を高めること,(2)意味的土地被覆領域の本質的相関を同定することにより,類似した外観で散在する道路の認識の困難さを緩和する。 挑戦的データセットの実験により,提案手法は既存手法と比較して,道路境界線と道路抽出精度を向上させることができることを示した。

Convolutional neural networks (CNN) have made significant advances in detecting roads from satellite images. However, existing CNN approaches are generally repurposed semantic segmentation architectures and suffer from the poor delineation of long and curved regions. Lack of overall road topology and structure information further deteriorates their performance on challenging remote sensing images. This paper presents a novel multi-task graph neural network (GNN) which simultaneously detects both road regions and road borders; the inter-play between these two tasks unlocks superior performance from two perspectives: (1) the hierarchically detected road borders enable the network to capture and encode holistic road structure to enhance road connectivity (2) identifying the intrinsic correlation of semantic landcover regions mitigates the difficulty in recognizing roads cluttered by regions with similar appearance. Experiments on challenging dataset demonstrate that the proposed architecture can improve the road border delineation and road extraction accuracy compared with the existing methods.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 正確な時系列予測のためのグラフ構造と不確かさの学習

Learning Graph Structures and Uncertainty for Accurate and Calibrated Time-series Forecasting ( http://arxiv.org/abs/2407.02641v1 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodriguez, Chao Zhang, B Aditya Prakash, (参考訳) 多変量時系列予測は幅広い応用において重要な問題である。 近年の研究では,時系列間の関係をグラフとしてモデル化し,関係グラフ上の情報伝達が時系列予測を改善することを示した。 しかし、多くの場合、関係情報は入手できないか、うるさいか、信頼性が高い。 さらに、ほとんどの研究は、構造学習と予測の導出の両方において時系列の不確かさの根底にある不確実性を無視しており、その結果、不確実性が低い予測分布が得られない構造となっている。 この課題に取り組み、時系列間の確率的相関を利用して時系列間の構造を学習し、よく校正され正確な予測を提供するSTOICを導入する。 幅広いベンチマークデータセットを通じて、STOICは、約16%の精度と14%のより良いキャリブレーション予測を提供する。 STOICはまた、推論中のデータのノイズへの適応性を向上し、様々なベンチマークで重要で有用な関係情報をキャプチャする。

Multi-variate time series forecasting is an important problem with a wide range of applications. Recent works model the relations between time-series as graphs and have shown that propagating information over the relation graph can improve time series forecasting. However, in many cases, relational information is not available or is noisy and reliable. Moreover, most works ignore the underlying uncertainty of time-series both for structure learning and deriving the forecasts resulting in the structure not capturing the uncertainty resulting in forecast distributions with poor uncertainty estimates. We tackle this challenge and introduce STOIC, that leverages stochastic correlations between time-series to learn underlying structure between time-series and to provide well-calibrated and accurate forecasts. Over a wide-range of benchmark datasets STOIC provides around 16% more accurate and 14% better-calibrated forecasts. STOIC also shows better adaptation to noise in data during inference and captures important and useful relational information in various benchmarks.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# ResearchBot: 学術研究と実践的なプログラミングコミュニティのギャップを埋める

ResearchBot: Bridging the Gap between Academic Research and Practical Programming Communities ( http://arxiv.org/abs/2407.02643v1 )

ライセンス: Link先を確認
Sahar Farzanehpour, Swetha Rajeev, Huayu Liang, Ritvik Prabhu, Chris Brown, (参考訳) ソフトウェア開発者は一般的に、問題解決と学習のためにStack Overflowのようなプラットフォームに依存します。 しかし、学術研究は未完成の資源であり、産業従事者にとって大きな利益をもたらす可能性がある。 この課題は、学界からの革新的な洞察と、開発者が直面している現実世界の問題を結びつけることである。 このプロジェクトでは、このアカデミックと産業のギャップを埋めるためのツールであるResearchBotを導入している。 ResearchBotはモジュール型のアプローチを採用し、理解された質問を包含し、クエリをキュレートしてCrossRefリポジトリ内の関連論文を取得し、紙の内容を要約し、最後に紙要約に基づいてユーザー質問に回答する。 ResearchBotの中核的な目的は、業界の専門家のための学術知識へのアクセスを民主化することだ。 SE関連の質問に応えて、最先端の研究の簡潔な要約を提供することで、ResearchBotは実践的な文脈への学術的洞察の適用を促進する。 究極的には、学術と産業のギャップを埋めることを目的としており、ソフトウェア開発における学習と意思決定を支援するために研究のエビデンスを使用している。

Software developers commonly rely on platforms like Stack Overflow for problem-solving and learning. However, academic research is an untapped resource that could greatly benefit industry practitioners. The challenge lies in connecting the innovative insights from academia to real-world problems faced by developers. This project introduces ResearchBot, a tool designed to bridge this academia-industry gap. ResearchBot employs a modular approach, encompassing understanding questions, curating queries to obtain relevant papers in the CrossRef repository, summarizing paper content and finally answering user questions based on paper summaries. The core objective of ResearchBot is to democratize access to academic knowledge for industry professionals. By providing concise summaries of cutting-edge research directly in response to SE-related questions, ResearchBot facilitates the application of academic insights to practical contexts. Ultimately, it aims to bridge the gap between academia and industry, using research evidence to support learning and decision-making in software development.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 実例に基づく継続的統合システムの自動移行

Example-Based Automatic Migration of Continuous Integration Systems ( http://arxiv.org/abs/2407.02644v1 )

ライセンス: Link先を確認
Dhia Elhaq Rzig, Alaa Houerbi, Chungha Sung, Foyzul Hassan, (参考訳) 継続的インテグレーション(CI)は、コード変更の統合とテストの高速化に広く採用されているプラクティスです。 開発者はしばしば、マトリックスの構築やロギングの改善といった機能を追求して、CIシステム間で移行する。 しかし、この移行は、新しいCIシステムとその構文に関する知識が限られているため、集中的でエラーを起こしやすい。 さらに、これらの移行には、新しいCIシステムの安定性を達成するために、複数のイテレーションと大幅な時間が必要で、CI設定の自動マイグレーションに対するサポートが不十分である。 これを軽減するために、CIシステムの自動マイグレーションのための新しいアプローチCIMigを提案する。 提案手法では,既存のマイグレーション例から翻訳ルールや構成パターンを抽出し,新たなコンテキストでこのマイグレーションを再現する。 このアプローチを実証的に検証し、評価するために、Travis CIとGitHub Actionsの移行に適用する。 1001プロジェクトから学びを集めて、251プロジェクトの評価セットを移行しました。 これはCIMigの質的かつ定量的な評価に役立ち、手動ルールベースのGitHub Actions Importerと比較することで、結果のコンテキスト化に役立ちました。 さらに、当社のツールは開発者によって好意的に評価されたファイルを生成し、これらの同じプロジェクトの手動移行で平均42.4分節約しました。 私たちの学習ベースのアプローチは、GitHub ActionsファイルをTravisに移行するためにGitHub Actions Importerではできないように、より柔軟であることも証明されています。 CIMigはCIシステムを移行する最初のアプローチであり、他のソフトウェア構成システム移行にも適用できると考えています。 私たちの複製パッケージは[5]で利用可能です。

Continuous Integration (CI) is a widely adopted practice for faster code change integration and testing. Developers often migrate between CI systems in pursuit of features like matrix building or better logging. However, this migration is effort intensive and error-prone owing to limited knowledge of the new CI system and its syntax. Moreover, these migrations require multiple iterations and significant time to achieve stability in the new CI system, and there is insufficient support for the automatic migration of CI configurations. To mitigate this, we propose a novel approach for CI system's automatic migration: CIMig. Our approach utilizes Example-Based mining, where it extracts translation rules and configuration patterns from existing migration examples, and employs them to reproduce this migration in new contexts. To empirically validate and evaluate our approach, we apply it to the migration between Travis CI and GitHub Actions. We gathered learnings from 1001 projects, and then applied them to migrate an evaluation set of 251 projects. This helped us perform a qualitative and quantitative evaluation of CIMig, and we contextualize our results by comparing them with those of the manual-rule-based GitHub Actions Importer. Furthermore, our tool generated files that were rated favorably by developers and saved them an average of 42.4 minutes over the manual migration of these same projects. Our learning-based approach is also more flexible, as proven by our ability to apply it to migrate GitHub Actions files to Travis, which GitHub Actions Importer can not do. We believe CIMig is the first approach of its kin to migrate CI systems and can be applied to other software configuration system migrations. Our replication package is available at [5].
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 変圧器に基づく言語モデルにおける機械論的解釈可能性の実践的検討

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models ( http://arxiv.org/abs/2407.02646v1 )

ライセンス: Link先を確認
Daking Rai, Yilun Zhou, Shi Feng, Abulhair Saparov, Ziyu Yao, (参考訳) 機械的解釈可能性(MI)は、その内部計算をリバースエンジニアリングすることでニューラルネットワークモデルを理解しようとする、新たな解釈可能性のサブフィールドである。 近年、MIはトランスフォーマーベース言語モデル(LM)の解釈において大きな注目を集めており、多くの新しい知見がもたらされ、新たな課題がもたらされた。 しかし、これらの洞察と課題を包括的にレビューする作業は、特に新参者のこの分野へのガイドとして行われていない。 このギャップを埋めるために,本研究では,MIの基本的な研究対象,その調査に使用されてきた技術,MIの結果を評価するためのアプローチ,およびMIを用いてLMを理解することに起因する重要な発見と応用について概説する。 特に、初心者がフィールドをナビゲートし、MIを活用するためのロードマップを提示する。 最後に、この分野における現在のギャップを特定し、将来的な方向性について議論する。

Mechanistic interpretability (MI) is an emerging sub-field of interpretability that seeks to understand a neural network model by reverse-engineering its internal computations. Recently, MI has garnered significant attention for interpreting transformer-based language models (LMs), resulting in many novel insights yet introducing new challenges. However, there has not been work that comprehensively reviews these insights and challenges, particularly as a guide for newcomers to this field. To fill this gap, we present a comprehensive survey outlining fundamental objects of study in MI, techniques that have been used for its investigation, approaches for evaluating MI results, and significant findings and applications stemming from the use of MI to understand LMs. In particular, we present a roadmap for beginners to navigate the field and leverage MI for their benefit. Finally, we also identify current gaps in the field and discuss potential future directions.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# ハイパースペクトル画像分類のためのスペクトルグラフ推論ネットワーク

Spectral Graph Reasoning Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2407.02647v1 )

ライセンス: Link先を確認
Huiling Wang, (参考訳) 畳み込みニューラルネットワーク(CNN)は,近年,高スペクトル画像(HSI)分類において顕著な性能を発揮している。 進歩にもかかわらず、HSIのリッチで情報的なスペクトル情報は、スペクトル領域における受容野の限られた大きさの畳み込みカーネルを用いる既存の方法によってほとんど使われていない。 この問題に対処するために,2つの重要なモジュールからなるスペクトルグラフ推論ネットワーク(SGR)学習フレームワークを提案する。 1)複数のスペクトル埋め込みをノードが埋め込み空間内の個々のスペクトル特徴チャネルに対応する統一グラフに開梱してキャストするスペクトル分離モジュールであって、このグラフは、スペクトル情報を集約して整合させ、複数の文脈レベルでスペクトル固有のグラフ埋め込みを学習するための解釈可能な推論を行う。 2) スペクトルアンサンブルモジュールは, グラフ埋め込み階層間の相互作用と相互依存性を, 新たなグラフ伝播機構を通じて探索する。 2つのHSIデータセットに対する実験により、提案アーキテクチャは、既存のマージンを持つ手法と比較して、分類精度を大幅に向上できることを示した。

Convolutional neural networks (CNNs) have achieved remarkable performance in hyperspectral image (HSI) classification over the last few years. Despite the progress that has been made, rich and informative spectral information of HSI has been largely underutilized by existing methods which employ convolutional kernels with limited size of receptive field in the spectral domain. To address this issue, we propose a spectral graph reasoning network (SGR) learning framework comprising two crucial modules: 1) a spectral decoupling module which unpacks and casts multiple spectral embeddings into a unified graph whose node corresponds to an individual spectral feature channel in the embedding space; the graph performs interpretable reasoning to aggregate and align spectral information to guide learning spectral-specific graph embeddings at multiple contextual levels 2) a spectral ensembling module explores the interactions and interdependencies across graph embedding hierarchy via a novel recurrent graph propagation mechanism. Experiments on two HSI datasets demonstrate that the proposed architecture can significantly improve the classification accuracy compared with the existing methods with a sizable margin.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 対話型タスク分解を用いたAI支援データ解析におけるステアリングと検証の改善

Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition ( http://arxiv.org/abs/2407.02651v1 )

ライセンス: Link先を確認
Majeed Kazemitabaar, Jack Williams, Ian Drosos, Tovi Grossman, Austin Henley, Carina Negreanu, Advait Sarkar, (参考訳) LLMを利用するChatGPT Data Analysisのようなツールは、ユーザがデータ処理、プログラミング、統計学の専門知識を必要とするデータ分析プログラミングの難しいタスクに取り組むのを助ける可能性がある。 しかし、我々のフォーマティブな研究(n=15)は、AI生成結果の検証とAI(AIシステムに望ましい出力を導くこと)のステアリングにおける深刻な課題を明らかにしました。 これらの課題に対処する2つの対照的なアプローチを開発した。 第1(ステップワイズ)は、タスク完了まで編集可能な仮定とコードのペアでステップバイステップのサブゴールに分解し、第2(ステップワイズ)は、全問題を3つの編集可能な論理的なフェーズ(構造化された入出力仮定、実行計画、コード)に分解する。 制御されたin-subjects実験(n=18)は、これらのシステムを会話ベースラインと比較した。 ユーザは、ステップワイズシステムとフェーズワイズシステムによるコントロールが大幅に向上し、ベースラインに比べて介入、修正、検証が容易になった。 その結果、AI支援データ分析ツールの設計ガイドラインとトレードオフが示唆された。

LLM-powered tools like ChatGPT Data Analysis, have the potential to help users tackle the challenging task of data analysis programming, which requires expertise in data processing, programming, and statistics. However, our formative study (n=15) uncovered serious challenges in verifying AI-generated results and steering the AI (i.e., guiding the AI system to produce the desired output). We developed two contrasting approaches to address these challenges. The first (Stepwise) decomposes the problem into step-by-step subgoals with pairs of editable assumptions and code until task completion, while the second (Phasewise) decomposes the entire problem into three editable, logical phases: structured input/output assumptions, execution plan, and code. A controlled, within-subjects experiment (n=18) compared these systems against a conversational baseline. Users reported significantly greater control with the Stepwise and Phasewise systems, and found intervention, correction, and verification easier, compared to the baseline. The results suggest design guidelines and trade-offs for AI-assisted data analysis tools.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 深層学習を用いた光音響イメージングにおける画像分割と誤差予測による画像再構成

Joint Segmentation and Image Reconstruction with Error Prediction in Photoacoustic Imaging using Deep Learning ( http://arxiv.org/abs/2407.02653v1 )

ライセンス: Link先を確認
Ruibo Shang, Geoffrey P. Luke, Matthew O'Donnell, (参考訳) 深層学習は光音響(PA)画像再構成の改善に用いられている。 1つの大きな課題は、基底真理が不明なときに予測を検証するためにエラーを定量化できないことである。 バリデーションは、特に限られた帯域幅の超音波リニア検出器アレイを用いて、定量化の鍵となる。 本稿では,ハイブリッドベイズ畳み込みニューラルネットワーク(Hybrid-BCNN)を提案する。 各出力画素は、誤差を定量化できる確率分布を表す。 Hybrid-BCNNはシミュレーションPAデータをトレーニングし、シミュレーションと実験の両方に適用した。 PA画像の広さのため、セグメンテーションは、PA信号を持つ領域における損失関数の最小化に重点を置いて、より良い予測を行う。 その結果, 精度の高いPAセグメンテーションと画像が得られ, 誤差予測は実際の誤差と統計的に非常に相関していることがわかった。 エラー予測を活用するために、信頼処理は特定の信頼度以上のPA画像を生成する。

Deep learning has been used to improve photoacoustic (PA) image reconstruction. One major challenge is that errors cannot be quantified to validate predictions when ground truth is unknown. Validation is key to quantitative applications, especially using limited-bandwidth ultrasonic linear detector arrays. Here, we propose a hybrid Bayesian convolutional neural network (Hybrid-BCNN) to jointly predict PA image and segmentation with error (uncertainty) predictions. Each output pixel represents a probability distribution where error can be quantified. The Hybrid-BCNN was trained with simulated PA data and applied to both simulations and experiments. Due to the sparsity of PA images, segmentation focuses Hybrid-BCNN on minimizing the loss function in regions with PA signals for better predictions. The results show that accurate PA segmentations and images are obtained, and error predictions are highly statistically correlated to actual errors. To leverage error predictions, confidence processing created PA images above a specific confidence level.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 空間を考慮した大規模階層型産業需要時系列予測

Large Scale Hierarchical Industrial Demand Time-Series Forecasting incorporating Sparsity ( http://arxiv.org/abs/2407.02657v1 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Aditya B. Sasanur, Xinjie Tong, Xingyu Zhou, James Peters, Joe Czyzyk, B. Aditya Prakash, (参考訳) 階層的時系列予測(Hierarchical Time-Series forecasting、HTSF)は、階層的関係を通じて相互に関連付けられた複数の時系列を同時に予測することを目的としている多くの実世界のビジネスアプリケーションにとって重要な問題である。 しかし、近年の研究は、大企業の需要予測アプリケーションで一般的に見られる2つの重要な課題に対処していない。 第一に、階層の下位レベルにある多くの時系列は、高い空間性、すなわち、かなりの数の零点を持つ。 ほとんどのHTSFメソッドは階層間の様々な間隔に対処しない。 さらに、文献で使用されるベンチマークでは一般的に見られず、現実世界の階層の大きさにうまくスケールしない。 HAILSは階層的制約に従順に整合して、分散的な仮定の異なるスパースと密集した時系列を適応的にモデル化し、階層的制約に従うことによって、階層全体にわたって正確で校正された確率的予測を可能にする新しい確率的階層モデルである。 実世界の需要予測データセットに対して評価することで,提案手法のスケーラビリティと有効性を示す。 我々は,1万製品を超える製品需要予測アプリケーションのために大手化学製造会社にHAILSを配備し,予測精度が8.55%向上し,スパースタイムの23%改善した。 精度とスケーラビリティが向上したことで、HAILSはビジネスプランニングと顧客エクスペリエンスを向上させる貴重なツールになります。

Hierarchical time-series forecasting (HTSF) is an important problem for many real-world business applications where the goal is to simultaneously forecast multiple time-series that are related to each other via a hierarchical relation. Recent works, however, do not address two important challenges that are typically observed in many demand forecasting applications at large companies. First, many time-series at lower levels of the hierarchy have high sparsity i.e., they have a significant number of zeros. Most HTSF methods do not address this varying sparsity across the hierarchy. Further, they do not scale well to the large size of the real-world hierarchy typically unseen in benchmarks used in literature. We resolve both these challenges by proposing HAILS, a novel probabilistic hierarchical model that enables accurate and calibrated probabilistic forecasts across the hierarchy by adaptively modeling sparse and dense time-series with different distributional assumptions and reconciling them to adhere to hierarchical constraints. We show the scalability and effectiveness of our methods by evaluating them against real-world demand forecasting datasets. We deploy HAILS at a large chemical manufacturing company for a product demand forecasting application with over ten thousand products and observe a significant 8.5\% improvement in forecast accuracy and 23% better improvement for sparse time-series. The enhanced accuracy and scalability make HAILS a valuable tool for improved business planning and customer experience.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 知識グラフ比較による大規模言語モデル学習データの応答性保証

Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison ( http://arxiv.org/abs/2407.02659v1 )

ライセンス: Link先を確認
Devam Mondal, Carlo Lipizzi, (参考訳) 近年,出版社,新聞,その他の著作権付きコーパス作成者による大規模言語モデル (LLM) 開発者に対する盗用疑惑が浮上していることから,我々は,大規模言語モデルの訓練や微調整に知識源が用いられているかどうかを評価する新しいシステム,盗用検知システムを提案する。 現在の手法とは異なり、我々はResource Description Framework(RDF)トリプルを使用して、ソースドキュメントとLLM継続の両方から知識グラフを作成するアプローチを利用する。 これらのグラフは、コサイン類似性を用いてコンテンツに関して分析され、また、同型度を示すグラフ編集距離の正規化版を用いて構造に関して分析される。 ソースとターゲットコーパス間のコンテンツマッチングやキーワード識別に重点を置いている従来のシステムとは異なり,本手法では,アイデアと組織との関係に着目して,ソースドキュメントとLCM継続の類似性をより正確に比較することが可能である。 さらに、我々のアプローチでは、閉鎖型大規模言語モデリング「ブラックボックス」システムやトレーニングコーパスでは利用できないパープレキシティのようなLCMメトリクスへのアクセスは不要です。 システムのプロトタイプはハイパーリンクされたGitHubリポジトリで公開されます。

In light of recent plagiarism allegations Brough by publishers, newspapers, and other creators of copyrighted corpora against large language model (LLM) developers, we propose a novel system, a variant of a plagiarism detection system, that assesses whether a knowledge source has been used in the training or fine-tuning of a large language model. Unlike current methods, we utilize an approach that uses Resource Description Framework (RDF) triples to create knowledge graphs from both a source document and a LLM continuation of that document. These graphs are then analyzed with respect to content using cosine similarity and with respect to structure using a normalized version of graph edit distance that shows the degree of isomorphism. Unlike traditional systems that focus on content matching and keyword identification between a source and target corpus, our approach enables a broader evaluation of similarity and thus a more accurate comparison of the similarity between a source document and LLM continuation by focusing on relationships between ideas and their organization with regards to others. Additionally, our approach does not require access to LLM metrics like perplexity that may be unavailable in closed large language modeling "black-box" systems, as well as the training corpus. A prototype of our system will be found on a hyperlinked GitHub repository.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 支援者・懐疑者:ビデオ共有プラットフォームにおけるメンタルヘルス(ミス)情報の内容の分析

Supporters and Skeptics: LLM-based Analysis of Engagement with Mental Health (Mis)Information Content on Video-sharing Platforms ( http://arxiv.org/abs/2407.02662v1 )

ライセンス: Link先を確認
Viet Cuong Nguyen, Mini Jain, Abhijat Chauhan, Heather Jaime Soled, Santiago Alvarez Lesmes, Zihang Li, Michael L. Birnbaum, Sunny X. Tang, Srijan Kumar, Munmun De Choudhury, (参考訳) 米国では5人に1人以上が精神疾患で暮らしている。 メンタルヘルスの専門家やオフラインリソースの不足に直面して、オンラインのショートフォームビデオコンテンツは、メンタルヘルスの助けやリソースを広めるための重要なコンジットとして機能するように成長してきた。 しかし、コンテンツ作成とアクセスの容易さは、誤報の拡散にも寄与し、正確な診断と治療にリスクをもたらす。 このようなコンテンツによるエンゲージメントの検出と理解は、公衆衛生に対する有害な影響を軽減するために不可欠である。 研究現場としてYouTube ShortsとBitchuteを用いて,この現象の定量的研究を行った。 MentalMisinfoは、専門家主導のアノテーションスキーマを用いて、739のビデオ(Youtubeから639、Bitchuteから100)と135372コメントのラベル付きメンタルヘルス誤情報(MHMisinfo)データセットである。 MHMisinfo ビデオの検出には,大規模言語モデル (LLMs) を用いたテキスト内学習が有効であることがわかった。 次に、両方のビデオ共有プラットフォームに関するコメントを通じて、聴衆がMHMisinfoビデオとどのように関わるかという言語パターンを識別し、潜在的に警告する。 2つのプラットフォームをまたいだコメントは、MHMisinfoに対する感受性の高まりとアライメントを示すグループによって、一般的なスティグマを悪化させる可能性がある。 我々は、心的健康の誤報をオンラインで解決するための、技術的および公共衛生主導型の適応的解決策について議論する。

Over one in five adults in the US lives with a mental illness. In the face of a shortage of mental health professionals and offline resources, online short-form video content has grown to serve as a crucial conduit for disseminating mental health help and resources. However, the ease of content creation and access also contributes to the spread of misinformation, posing risks to accurate diagnosis and treatment. Detecting and understanding engagement with such content is crucial to mitigating their harmful effects on public health. We perform the first quantitative study of the phenomenon using YouTube Shorts and Bitchute as the sites of study. We contribute MentalMisinfo, a novel labeled mental health misinformation (MHMisinfo) dataset of 739 videos (639 from Youtube and 100 from Bitchute) and 135372 comments in total, using an expert-driven annotation schema. We first found that few-shot in-context learning with large language models (LLMs) are effective in detecting MHMisinfo videos. Next, we discover distinct and potentially alarming linguistic patterns in how audiences engage with MHMisinfo videos through commentary on both video-sharing platforms. Across the two platforms, comments could exacerbate prevailing stigma with some groups showing heightened susceptibility to and alignment with MHMisinfo. We discuss technical and public health-driven adaptive solutions to tackling the "epidemic" of mental health misinformation online.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# SMILe:ロバストなFew-Shotオブジェクト検出のためのサブモジュール相互情報を活用する

SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection ( http://arxiv.org/abs/2407.02665v1 )

ライセンス: Link先を確認
Anay Majee, Ryan Sharp, Rishabh Iyer, (参考訳) オブジェクトクラスの融合と忘れは、Few-Shot Object Detection (FSOD) の主要な関心事である。 計量学習に基づくFSOD手法におけるこれらの落とし穴を克服するため、FSODにおけるより厳密で差別的な特徴クラスタの作成を強制するために、組合せ的相互情報関数を採用する新しいサブモジュール・ミューチュアル・インフォメーション・ラーニング(SMILe)フレームワークを導入する。 提案手法は,性能向上を示すバックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。 インスタンスベースの目的関数からSMILeの組合せ目的関数へのパラダイムシフトは、オブジェクトクラス内の多様性を自然に保存し、少数のトレーニング例に従えば、忘れることを減らす。 さらに、既に学習されている(ベース)オブジェクトと新たに追加された(ノーベル)オブジェクト間の相互情報の適用により、ベースクラスと新規クラスの十分な分離が保証され、クラス混乱の影響を最小限に抑えることができる。 人気のあるFSODベンチマークを用いて,PASCAL-VOC と MS-COCO を用いて,VOC の 10 ショット設定でそれぞれ5.7% (3.3 mAP 点) と5.4% (2.6 mAP 点) の新規クラス性能向上を図った。 我々の実験はまた、基礎となるアーキテクチャに依存しない既存のアプローチに対して、ベースクラス性能の維持と最大2倍の高速収束を実証した。

Confusion and forgetting of object classes have been challenges of prime interest in Few-Shot Object Detection (FSOD). To overcome these pitfalls in metric learning based FSOD techniques, we introduce a novel Submodular Mutual Information Learning (SMILe) framework which adopts combinatorial mutual information functions to enforce the creation of tighter and discriminative feature clusters in FSOD. Our proposed approach generalizes to several existing approaches in FSOD, agnostic of the backbone architecture demonstrating elevated performance gains. A paradigm shift from instance based objective functions to combinatorial objectives in SMILe naturally preserves the diversity within an object class resulting in reduced forgetting when subjected to few training examples. Furthermore, the application of mutual information between the already learnt (base) and newly added (novel) objects ensures sufficient separation between base and novel classes, minimizing the effect of class confusion. Experiments on popular FSOD benchmarks, PASCAL-VOC and MS-COCO show that our approach generalizes to State-of-the-Art (SoTA) approaches improving their novel class performance by up to 5.7% (3.3 mAP points) and 5.4% (2.6 mAP points) on the 10-shot setting of VOC (split 3) and 30-shot setting of COCO datasets respectively. Our experiments also demonstrate better retention of base class performance and up to 2x faster convergence over existing approaches agnostic of the underlying architecture.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 視覚言語モデルを用いた脚ロボット適応のためのコモンセンス推論

Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models ( http://arxiv.org/abs/2407.02666v1 )

ライセンス: Link先を確認
Annie S. Chen, Alec M. Lessing, Andy Tang, Govind Chada, Laura Smith, Sergey Levine, Chelsea Finn, (参考訳) 脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。 例えば、捜索救助ミッションでは、脚のあるロボットが破片を乗り越えたり、隙間をクロールしたり、死の端から移動したりできる。 しかし、ロボットのコントローラーはこのような様々な障害に対してインテリジェントに応答する必要があるため、予期せぬシナリオと異常なシナリオをうまく処理する必要がある。 これは現在の学習手法に対するオープンな挑戦であり、人間を重く監督することなく、予期せぬ状況の長い尾に一般化に苦慮することが多い。 そこで本研究では、視覚言語モデル(VLM)の世界の構造と常識推論能力に関する幅広い知識を活用して、難易度・不明瞭度に対処するロボットを支援する方法について検討する。 本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。本システムでは,VLMによる適応行動選択の抽出に重要な2つの重要な要素を組み合わす。 我々は,Go1四足歩行ロボット上で,デッドエンドやクライミング,クロールを含む,現実の難易度の高い障害物コース上でのVLM-PCの評価を行った。 我々の実験は、対話の歴史と将来の計画について推論することで、VLMはロボットが自律的に知覚し、ナビゲートし、より複雑なシナリオで行動することを可能にする。

Legged robots are physically capable of navigating a diverse variety of environments and overcoming a wide range of obstructions. For example, in a search and rescue mission, a legged robot could climb over debris, crawl through gaps, and navigate out of dead ends. However, the robot's controller needs to respond intelligently to such varied obstacles, and this requires handling unexpected and unusual scenarios successfully. This presents an open challenge to current learning methods, which often struggle with generalization to the long tail of unexpected situations without heavy human supervision. To address this issue, we investigate how to leverage the broad knowledge about the structure of the world and commonsense reasoning capabilities of vision-language models (VLMs) to aid legged robots in handling difficult, ambiguous situations. We propose a system, VLM-Predictive Control (VLM-PC), combining two key components that we find to be crucial for eliciting on-the-fly, adaptive behavior selection with VLMs: (1) in-context adaptation over previous robot interactions and (2) planning multiple skills into the future and replanning. We evaluate VLM-PC on several challenging real-world obstacle courses, involving dead ends and climbing and crawling, on a Go1 quadruped robot. Our experiments show that by reasoning over the history of interactions and future plans, VLMs enable the robot to autonomously perceive, navigate, and act in a wide range of complex scenarios that would otherwise require environment-specific engineering or human guidance.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# MomentsNeRF:Few-Shot Neural Renderingのための直交モーメントの活用

MomentsNeRF: Leveraging Orthogonal Moments for Few-Shot Neural Rendering ( http://arxiv.org/abs/2407.02668v1 )

ライセンス: Link先を確認
Ahmad AlMughrabi, Ricardo Marques, Petia Radeva, (参考訳) 直交モーメントを用いた3次元シーンのニューラルな表現を予測できる,ワンショットと少数ショットのニューラルレンダリングのための新しいフレームワークであるMomentsNeRFを提案する。 本アーキテクチャは,複数シーンで学習し,テスト時に複数の画像を用いてシーンごとの最適化を行うための新しいトランスファー学習手法を提供する。 我々のアプローチはGabor と Zernike のモーメントから抽出した機能を NeRF アーキテクチャにシームレスに統合した最初のものである。 我々は、MomentsNeRFが複雑なテクスチャや形状の画像を合成し、ノイズ低減、アーチファクト除去を実現し、最近開発された1ショットと数ショットのニューラルレンダリングフレームワークと比較して、欠落した部分を完了したことを示す。 DTUとShapenetデータセットの大規模な実験により、MomentsNeRFは、{3.39\;dB\;PSNR}、11.1%のSSIM、17.9%のLPIPS、8.3%の DisTSメトリクスで最先端を改善することが示された。 さらに、新しいビュー合成とシングルイメージの3Dビュー再構成の両方において、最先端のパフォーマンスを向上する。 ソースコードは、https://amughrabi.github.io/momentsnerf/.comでアクセスできる。

We propose MomentsNeRF, a novel framework for one- and few-shot neural rendering that predicts a neural representation of a 3D scene using Orthogonal Moments. Our architecture offers a new transfer learning method to train on multi-scenes and incorporate a per-scene optimization using one or a few images at test time. Our approach is the first to successfully harness features extracted from Gabor and Zernike moments, seamlessly integrating them into the NeRF architecture. We show that MomentsNeRF performs better in synthesizing images with complex textures and shapes, achieving a significant noise reduction, artifact elimination, and completing the missing parts compared to the recent one- and few-shot neural rendering frameworks. Extensive experiments on the DTU and Shapenet datasets show that MomentsNeRF improves the state-of-the-art by {3.39\;dB\;PSNR}, 11.1% SSIM, 17.9% LPIPS, and 8.3% DISTS metrics. Moreover, it outperforms state-of-the-art performance for both novel view synthesis and single-image 3D view reconstruction. The source code is accessible at: https://amughrabi.github.io/momentsnerf/.
翻訳日:2024-07-04 18:14:18 公開日:2024-07-02
# 超解像によるディープフェイク検出の逆拡大

Adversarial Magnification to Deceive Deepfake Detection through Super Resolution ( http://arxiv.org/abs/2407.02670v1 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Roberto Caldelli, Giuseppe Amato, Fabrizio Falchi, Claudio Gennaro, (参考訳) ディープフェイク技術は急速に進歩しており、操作されたメディアコンテンツを検出する上で大きな課題となっている。 それと並行して、ディープフェイク検出器を騙し、ディープフェイクの検出をさらに困難にするため、いくつかの敵攻撃技術が開発されている。 本稿では, 深度検出における対角攻撃の可能性として, 超解像法の適用について検討する。 実験により、画像の視覚的外観におけるこれらの手法による最小限の変化は、ディープフェイク検出システムの性能に大きな影響を及ぼすことを示した。 そこで我々は,超解像を高速かつブラックボックスとして,偽画像のキャモフラージュやプリスタン画像の偽アラーム生成に有効な手法として,新しい攻撃法を提案する。 以上の結果から,超解像はディープフェイク検出器の精度を著しく損なう可能性が示唆された。 https://github.com/davide-coccomini/Adversarial-Magnification-to-Deceive-Deepfake-Detection-through- Super-Resolution

Deepfake technology is rapidly advancing, posing significant challenges to the detection of manipulated media content. Parallel to that, some adversarial attack techniques have been developed to fool the deepfake detectors and make deepfakes even more difficult to be detected. This paper explores the application of super resolution techniques as a possible adversarial attack in deepfake detection. Through our experiments, we demonstrate that minimal changes made by these methods in the visual appearance of images can have a profound impact on the performance of deepfake detection systems. We propose a novel attack using super resolution as a quick, black-box and effective method to camouflage fake images and/or generate false alarms on pristine images. Our results indicate that the usage of super resolution can significantly impair the accuracy of deepfake detectors, thereby highlighting the vulnerability of such systems to adversarial attacks. The code to reproduce our experiments is available at: https://github.com/davide-coccomini/Adversarial-Magnification-to-Deceive-Deepfake-Detection-through- Super-Resolution
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# ドリーム拡散を用いた脳損傷患者における画像脳波睡眠データによるQOL改善の試み

A Novel Approach to Image EEG Sleep Data for Improving Quality of Life in Patients Suffering From Brain Injuries Using DreamDiffusion ( http://arxiv.org/abs/2407.02673v1 )

ライセンス: Link先を確認
David Fahim, Joshveer Grewal, Ritvik Ellendula, (参考訳) 脳卒中、外傷性脳損傷、薬物の合併症を経験する人は、病院に入院し、コマやロックイン症候群と診断されることがある。 このような精神障害は、仕事の神経学的経路を永久に変化させ、生命の質(QoL)を著しく低下させる。 脳の信号を画像に変換することは、コマトース患者の思考をより深く理解するために重要である。 伝統的に、脳波によって収集された脳信号はテキストにのみ変換されるが、GitHubで利用可能なオープンソースモデルの新たな方法によって、DreamDiffusionは脳波を直接画像に変換するのに利用できる。 DreamDiffusionは、脳波信号から特徴を抽出し、その特徴を使ってStableDiffusionを使って画像を生成する。 これにより、StableDiffusionがメディア翻訳の波の先駆けとなるように、さらに改善しました。 この調査では、既存のDreamDiffusionコードベースを変更して、事前のセットアップを必要としないようにし、GitHubからモデルを走らせるために必要な混乱したステップを避けました。 多くの研究者にとって、不完全なセットアッププロセス、既存のコードのエラー、方向性の欠如は、モデルの性能を考慮してもほとんど実行不可能だった。 私たちはコードをGoogle Colabに持ち込み、ユーザがセルごとの問題を実行して評価できるようにし、特定のファイルやリポジトリの依存関係を排除しました。 また、ユーザが所定のデータセットからモデルをトレーニングするために必要なコンピューティングパワーを購入する必要がないように、トレーニングデータファイルも提供しました。 2つ目の変更はコードの変更性を活用してモデルを最適化することで、スリープデータなどの他の入力から画像を生成することができる。 さらに、EEG技術の可利用性は、グローバルな普及を可能にし、共有ドリーム拡散モデルに取り組みたい人々のための機会を生み出します。

Those experiencing strokes, traumatic brain injuries, and drug complications can often end up hospitalized and diagnosed with coma or locked-in syndrome. Such mental impediments can permanently alter the neurological pathways in work and significantly decrease the quality of life (QoL). It is critical to translate brain signals into images to gain a deeper understanding of the thoughts of a comatose patient. Traditionally, brain signals collected by an EEG could only be translated into text, but with the novel method of an open-source model available on GitHub, DreamDiffusion can be used to convert brain waves into images directly. DreamDiffusion works by extracting features from EEG signals and then using the features to create images through StableDiffusion. Upon this, we made further improvements that could make StableDiffusion the forerunner technology in waves to media translation. In our study, we begin by modifying the existing DreamDiffusion codebase so that it does not require any prior setup, avoiding any confusing steps needed to run the model from GitHub. For many researchers, the incomplete setup process, errors in the existing code, and a lack of directions made it nearly impossible to run, not even considering the model's performance. We brought the code into Google Colab so users could run and evaluate problems cell-by-cell, eliminating the specific file and repository dependencies. We also provided the original training data file so users do not need to purchase the necessary computing power to train the model from the given dataset. The second change is utilizing the mutability of the code and optimizing the model so it can be used to generate images from other given inputs, such as sleep data. Additionally, the affordability of EEG technology allows for global dissemination and creates the opportunity for those who want to work on the shared DreamDiffusion model.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 奥行きを意識した内視鏡的ビデオインペインティング

Depth-Aware Endoscopic Video Inpainting ( http://arxiv.org/abs/2407.02675v1 )

ライセンス: Link先を確認
Francis Xiatian Zhang, Shuang Chen, Xianghua Xie, Hubert P. H. Shum, (参考訳) ビデオのインペイントは、破壊されたビデオコンテンツに、もっともらしい代替品を埋める。 近年の内視鏡的映像の塗布は, 内視鏡的映像の質を高める可能性を示しているが, 臨床参照のために重要な3次元空間的詳細を効果的に保存することなく, 主に2次元視覚情報を修復している。 深度を意識した塗装法は深度情報を取り入れることでこれらの詳細を保存しようとする。 それでも、内視鏡的文脈では、事前に取得した深度マップへの依存、より効果的な融合設計、三次元空間の詳細の忠実さの無視といった課題に直面している。 そこで我々は,DAEVI(Depth-awareendoscopic Video Inpainting)フレームワークを提案する。 視覚的特徴から直接の深度推定を行う空間時間ガイド深度推定モジュールと、視覚的および深度情報の効果的チャネル・バイ・チャンネル融合を行うバイモーダルペアドチャネルフュージョンモジュールと、塗布されたフレームと推定深度画像からなるRGB-Dシーケンスの忠実度を評価する深度識別器とを備える。 確立されたベンチマーク実験により,PSNRの2%向上,MSEの6%削減が達成された。 定性的分析により細部を塗布する能力がさらに向上し、深部情報を内視鏡的塗布に組み込むことの利点が強調された。

Video inpainting fills in corrupted video content with plausible replacements. While recent advances in endoscopic video inpainting have shown potential for enhancing the quality of endoscopic videos, they mainly repair 2D visual information without effectively preserving crucial 3D spatial details for clinical reference. Depth-aware inpainting methods attempt to preserve these details by incorporating depth information. Still, in endoscopic contexts, they face challenges including reliance on pre-acquired depth maps, less effective fusion designs, and ignorance of the fidelity of 3D spatial details. To address them, we introduce a novel Depth-aware Endoscopic Video Inpainting (DAEVI) framework. It features a Spatial-Temporal Guided Depth Estimation module for direct depth estimation from visual features, a Bi-Modal Paired Channel Fusion module for effective channel-by-channel fusion of visual and depth information, and a Depth Enhanced Discriminator to assess the fidelity of the RGB-D sequence comprised of the inpainted frames and estimated depth images. Experimental evaluations on established benchmarks demonstrate our framework's superiority, achieving a 2% improvement in PSNR and a 6% reduction in MSE compared to state-of-the-art methods. Qualitative analyses further validate its enhanced ability to inpaint fine details, highlighting the benefits of integrating depth information into endoscopic inpainting.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 大規模言語モデルにおける推論:幾何学的視点

Reasoning in Large Language Models: A Geometric Perspective ( http://arxiv.org/abs/2407.02678v1 )

ライセンス: Link先を確認
Romain Cosentino, Sarath Shekkizhar, (参考訳) 現実世界のアプリケーションのための大規模言語モデル(LLM)の進歩は、その推論能力の向上に批判的だ。 本研究では,その幾何学的理解を通して,大規模言語モデル(LLM)の推論能力について考察する。 LLMの表現力と自己認識グラフの密度の関連性を確立する。 解析により,これらのグラフの密度は,MLPブロックへの入力の内在次元を定義することを示した。 理論解析と玩具の例を通して、高い内在次元がLLMの表現能力を高めることを実証する。 さらに,LLMの推論能力向上を目的とした手法の最近の進歩と,この幾何学的枠組みを結びつけた実証的証拠を提供する。

The advancement of large language models (LLMs) for real-world applications hinges critically on enhancing their reasoning capabilities. In this work, we explore the reasoning abilities of large language models (LLMs) through their geometrical understanding. We establish a connection between the expressive power of LLMs and the density of their self-attention graphs. Our analysis demonstrates that the density of these graphs defines the intrinsic dimension of the inputs to the MLP blocks. We demonstrate through theoretical analysis and toy examples that a higher intrinsic dimension implies a greater expressive capacity of the LLM. We further provide empirical evidence linking this geometric framework to recent advancements in methods aimed at enhancing the reasoning capabilities of LLMs.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# KGym: Linuxカーネルクラッシュ解決のための大規模言語モデルをベンチマークするためのプラットフォームとデータセット

KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution ( http://arxiv.org/abs/2407.02680v1 )

ライセンス: Link先を確認
Alex Mathai, Chenxi Huang, Petros Maniatis, Aleksandr Nogikh, Franjo Ivancic, Junfeng Yang, Baishakhi Ray, (参考訳) 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。 現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。 アプリケーションレベルのソフトウェアとは異なり、Linuxのようなシステムコードベースはマルチリンガル(低レベルのC/Assembly/Bash/Rust)、巨大(2000万行以上)、クリティカル(世界中の数十億のデバイスを圧倒)、高度に並行(複雑なマルチスレッドを含む)である。 このような大規模システムレベルのソフトウェアを開発する上で,MLモデルが有用かどうかを評価するために,kGym(プラットフォーム)とkBench(データセット)を導入する。 kGymプラットフォームは、Linuxカーネル上で大規模な実験を行うためのSE環境を提供する。複数の仮想マシン間で並列にカーネルをコンパイルし実行し、操作とクラッシュを検出し、ログを検査し、コードベースをクエリし、パッチする。 我々は、kGymを使用して、実世界のLinuxカーネルのバグから引き出されたクラッシュ解決ベンチマークであるkBenchの評価を容易にする。 kBenchの例には、クラッシュするスタックトレース、バグリデューサファイル、開発者による修正、その他の関連データが含まれている。 現在の性能を理解するため,Linuxカーネルのクラッシュの解決をLCMに促すことで,ベースライン実験を行う。 最初の評価では、最高の性能のLCMは、無支援と補助(つまり、モデルに公開されたバグファイル)の設定でそれぞれ0.72%と5.38%を達成することがわかった。 これらの結果は、SEタスクにおけるモデルパフォーマンスを向上させるためのさらなる研究の必要性を浮き彫りにしている。 kBenchのパフォーマンス向上には、クラッシュの原因を理解し、障害を修正すること、メモリセーフでハードウェア対応のコードを書くこと、並行性を理解することなど、新たな学習スキルを習得するモデルが必要だ。 結果として、この研究は機械学習とシステムソフトウェアが交わる様々な研究の道を開くことになる。

Large Language Models (LLMs) are consistently improving at increasingly realistic software engineering (SE) tasks. In real-world software stacks, significant SE effort is spent developing foundational system software like the Linux kernel. Unlike application-level software, a systems codebase like Linux is multilingual (low-level C/Assembly/Bash/Rust); gigantic (>20 million lines); critical (impacting billions of devices worldwide), and highly concurrent (involving complex multi-threading). To evaluate if ML models are useful while developing such large-scale systems-level software, we introduce kGym (a platform) and kBench (a dataset). The kGym platform provides a SE environment for large-scale experiments on the Linux kernel, including compiling and running kernels in parallel across several virtual machines, detecting operations and crashes, inspecting logs, and querying and patching the code base. We use kGym to facilitate evaluation on kBench, a crash resolution benchmark drawn from real-world Linux kernel bugs. An example bug in kBench contains crashing stack traces, a bug-reproducer file, a developer-written fix, and other associated data. To understand current performance, we conduct baseline experiments by prompting LLMs to resolve Linux kernel crashes. Our initial evaluations reveal that the best performing LLM achieves 0.72% and 5.38% in the unassisted and assisted (i.e., buggy files disclosed to the model) settings, respectively. These results highlight the need for further research to enhance model performance in SE tasks. Improving performance on kBench requires models to master new learning skills, including understanding the cause of crashes and repairing faults, writing memory-safe and hardware-aware code, and understanding concurrency. As a result, this work opens up multiple avenues of research at the intersection of machine learning and systems software.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 一様変換:変分オートエンコーダにおける潜在表現の精製

Uniform Transformation: Refining Latent Representation in Variational Autoencoders ( http://arxiv.org/abs/2407.02681v1 )

ライセンス: Link先を確認
Ye Shi, C. S. George Lee, (参考訳) 潜時空間における不規則分布は、変分オートエンコーダ(VAE)における後部崩壊、後部と前部の不整合、不整合問題を引き起こす。 本稿では,非パラメトリックなガウス混合(GM)モデルと確率積分変換(PIT)モデルを用いて,不規則な分布を潜在空間の均一な分布に再構成することにより,従来のVAEモデルの複雑なデータ構造をキャプチャする制限を克服し,不規則な分布を潜在空間の均一な分布に再構成することにより,潜在表現の不整合性と解釈性を大幅に向上させる。 本研究は, このフレームワークをより高度なデータセットや下流タスクに拡張する上で, 将来的な研究をめざして, 表現学習技術の進歩に向けた有望な方向性を示唆する。

Irregular distribution in latent space causes posterior collapse, misalignment between posterior and prior, and ill-sampling problem in Variational Autoencoders (VAEs). In this paper, we introduce a novel adaptable three-stage Uniform Transformation (UT) module -- Gaussian Kernel Density Estimation (G-KDE) clustering, non-parametric Gaussian Mixture (GM) Modeling, and Probability Integral Transform (PIT) -- to address irregular latent distributions. By reconfiguring irregular distributions into a uniform distribution in the latent space, our approach significantly enhances the disentanglement and interpretability of latent representations, overcoming the limitation of traditional VAE models in capturing complex data structures. Empirical evaluations demonstrated the efficacy of our proposed UT module in improving disentanglement metrics across benchmark datasets -- dSprites and MNIST. Our findings suggest a promising direction for advancing representation learning techniques, with implication for future research in extending this framework to more sophisticated datasets and downstream tasks.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 汎用イベントカメラ

Generalized Event Cameras ( http://arxiv.org/abs/2407.02683v1 )

ライセンス: Link先を確認
Varun Sundar, Matthew Dutson, Andrei Ardelean, Claudio Bruschini, Edoardo Charbon, Mohit Gupta, (参考訳) イベントカメラは、高解像度かつ最小の帯域幅で世界をキャプチャする。 しかし、明るさの変化だけをエンコードするイベントストリームには、さまざまなダウンストリームタスクをサポートするのに十分なシーン情報が含まれていない。 本研究では,帯域幅効率のよいシーン強度を本質的に保持する汎用イベントカメラを設計する。 イベントカメラは、イベントがいつ発生し、どの情報が送信されるかという点で一般化する。 我々の設計を実装するために、個々の光子検出にデジタルアクセスを提供する単一光子センサーに目を向ける。 私たちの単一光子イベントカメラは、低再生速度で高速で高忠実なイメージングを可能にします。 その結果、これらのイベントカメラは、新しいイベントデータセットをキャプチャしたり、特別なイベントビジョンモデルを設計することなく、下流でのプラグインとプレイをサポートすることができる。 現実的な意味として、軽量でほぼセンサー互換の計算を含む我々の設計は、帯域幅のコストを犠牲にすることなく、単光子センサーを使用する方法を提供する。

Event cameras capture the world at high time resolution and with minimal bandwidth requirements. However, event streams, which only encode changes in brightness, do not contain sufficient scene information to support a wide variety of downstream tasks. In this work, we design generalized event cameras that inherently preserve scene intensity in a bandwidth-efficient manner. We generalize event cameras in terms of when an event is generated and what information is transmitted. To implement our designs, we turn to single-photon sensors that provide digital access to individual photon detections; this modality gives us the flexibility to realize a rich space of generalized event cameras. Our single-photon event cameras are capable of high-speed, high-fidelity imaging at low readout rates. Consequently, these event cameras can support plug-and-play downstream inference, without capturing new event datasets or designing specialized event-vision models. As a practical implication, our designs, which involve lightweight and near-sensor-compatible computations, provide a way to use single-photon sensors without exorbitant bandwidth costs.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# オープンパノラマセグメンテーション

Open Panoramic Segmentation ( http://arxiv.org/abs/2407.02685v1 )

ライセンス: Link先を確認
Junwei Zheng, Ruiping Liu, Yufan Chen, Kunyu Peng, Chengzhi Wu, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen, (参考訳) パノラマ画像は、360{\deg}視野(FoV)を捉え、シーン理解に不可欠な全方向空間情報を包含する。 しかし、訓練に十分な高密度アノテートパノラマを得るだけでなく、近語彙で訓練する場合にも適用が制限される。 そこで本研究では,対象領域のFoV-オープンなパノラマ画像と評価しながら,ソースドメイン内のFoV制限されたピンホール画像を用いて,対象領域のFoV-オープンなパノラマ画像を用いて学習し,モデルのゼロショットオープンなパノラマセマンティックセマンティックセマンティックセマンティック機能を実現する,Open Panoramic Segmentation (OPS) というタスクを定義した。 さらに,非ショットパノラマセマンティックセマンティックセグメンテーション性能を大幅に向上させる,変形可能なアダプタネットワーク(DAN)を備えたOOOPSモデルを提案する。 ピンホール源領域からの歪み認識モデリング能力をさらに高めるために,物体の変形に先立って対処するRandom Equirectular Projection (RERP) と呼ばれる新しいデータ拡張手法を提案する。 3つのパノラマデータセット(WildPASS、Stanford2D3D、Matterport3D)に対する顕著なパフォーマンス向上である、最先端のオープン語彙セマンティックセマンティックセマンティクスアプローチを超越して、OPSタスクにおけるRERPを用いたOOOPSモデルの有効性、特に屋外のWildPASSでは+2.2%、屋内のStanford2D3Dでは+2.4%のmIoUが証明されている。 コードはhttps://junweizheng93.github.io/publications/OPS/OPS.htmlで入手できる。

Panoramic images, capturing a 360{\deg} field of view (FoV), encompass omnidirectional spatial information crucial for scene understanding. However, it is not only costly to obtain training-sufficient dense-annotated panoramas but also application-restricted when training models in a close-vocabulary setting. To tackle this problem, in this work, we define a new task termed Open Panoramic Segmentation (OPS), where models are trained with FoV-restricted pinhole images in the source domain in an open-vocabulary setting while evaluated with FoV-open panoramic images in the target domain, enabling the zero-shot open panoramic semantic segmentation ability of models. Moreover, we propose a model named OOOPS with a Deformable Adapter Network (DAN), which significantly improves zero-shot panoramic semantic segmentation performance. To further enhance the distortion-aware modeling ability from the pinhole source domain, we propose a novel data augmentation method called Random Equirectangular Projection (RERP) which is specifically designed to address object deformations in advance. Surpassing other state-of-the-art open-vocabulary semantic segmentation approaches, a remarkable performance boost on three panoramic datasets, WildPASS, Stanford2D3D, and Matterport3D, proves the effectiveness of our proposed OOOPS model with RERP on the OPS task, especially +2.2% on outdoor WildPASS and +2.4% mIoU on indoor Stanford2D3D. The code will be available at https://junweizheng93.github.io/publications/OPS/OPS.html.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# トレーニングなし、問題なし:拡散モデルのための分類器フリーガイダンスの再考

No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models ( http://arxiv.org/abs/2407.02687v1 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Manuel Kansy, Otmar Hilliges, Romann M. Weber, (参考訳) 分類器フリーガイダンス(CFG)は,条件付き拡散モデルの品質向上のための標準手法となっている。 しかし、CFGを使用するには、メイン拡散モデルと一緒に無条件モデルをトレーニングするか、またはnull条件を定期的に挿入することでトレーニング手順を変更する必要がある。 CFGの無条件モデルへの明確な拡張も存在しない。 本稿では、CFGの中核となる原則を再考し、特別な訓練手順を必要とせずにCFGの利点を提供する新しい手法、独立条件ガイダンス(ICG)を導入する。 提案手法は条件拡散モデルの学習過程を合理化し,任意の事前学習条件モデル上での推論にも適用可能である。 さらに,すべての拡散ネットワークに符号化された時間ステップ情報を活用することにより,非条件を含む任意の拡散モデルに適用可能な,時間ステップ誘導(TSG)と呼ばれるCFGの拡張を提案する。 我々の指導手法は実装が容易で、CFGと同じサンプリングコストを持つ。 広汎な実験により、ICGは様々な条件拡散モデルにおいて標準CFGの性能と一致することを示した。 さらに,TSGは条件情報に頼ることなく,CFGと似た方法で生成品質を向上させることを示す。

Classifier-free guidance (CFG) has become the standard method for enhancing the quality of conditional diffusion models. However, employing CFG requires either training an unconditional model alongside the main diffusion model or modifying the training procedure by periodically inserting a null condition. There is also no clear extension of CFG to unconditional models. In this paper, we revisit the core principles of CFG and introduce a new method, independent condition guidance (ICG), which provides the benefits of CFG without the need for any special training procedures. Our approach streamlines the training process of conditional diffusion models and can also be applied during inference on any pre-trained conditional model. Additionally, by leveraging the time-step information encoded in all diffusion networks, we propose an extension of CFG, called time-step guidance (TSG), which can be applied to any diffusion model, including unconditional ones. Our guidance techniques are easy to implement and have the same sampling cost as CFG. Through extensive experiments, we demonstrate that ICG matches the performance of standard CFG across various conditional diffusion models. Moreover, we show that TSG improves generation quality in a manner similar to CFG, without relying on any conditional information.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# Funny Valen-Tine: 解分布の定義による視覚的抽象的推論問題の解法

Funny Valen-Tine: Solving visual abstract reasoning problems through defining the solution distribution ( http://arxiv.org/abs/2407.02688v1 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 視覚的抽象的推論問題は、画像処理の分野において非常に重要である。 Bongard-Logo と Raven's Progressive Matrices (RPM) はこの領域に属しており、Bongard-Logo は画像クラスタリング推論と RPM に分類されている。 本稿では,確率的ハイライトモデルに基づく新しいベースラインモデルであるValenを紹介する。 Valen は RPM と Bongard-Logo の問題を解決し、汎用的なソリューションを提供している。 本研究は, 確率高照度解法の基礎的メカニズムを考察し, 一次および補助的なサンプルによる分布の定式化として, 推論問題事例の解法を近似することを実現する。 学習目的は正しい解の分布ではなく,一次サンプルと補助サンプルの両方で定義されるものである。 矛盾を補うために、我々は、不安定なトレーニングのような問題にもかかわらず、Valenが正しい解の分布を推定するのを支援する逆学習に基づくアプローチであるTine法を導入した。 Tine を反映して,ガウス分布の混合として推論問題のサンプル分布をモデル化し,Funny 法を提案する。 これにより、ヴァレンは正しい解分布の真の形を捉えることができる。 さらに、同様にプログレッシブパターン表現の分布をモデル化するSBR法を設計した。 全体として、Funny、Tine、SBRメソッドはヴァレンのパフォーマンスを大幅に改善し、視覚的抽象的推論問題を研究するための新しいアイデアと方法を提供する。

Visual abstract reasoning problems hold immense importance in the field of image processing. Both Bongard-Logo and Raven's Progressive Matrices (RPM) belong to this domain, with Bongard-Logo categorized as image clustering reasoning and RPM involving image progression pattern reasoning. This paper introduces Valen, a novel baseline model under probabilistic highlighting models. Valen exhibits remarkable performance in solving both RPM and Bongard-Logo problems, offering a versatile solution. Our investigation delves into the underlying mechanisms of probability-highlighting solvers, realizing they approximate solutions to reasoning problem instances as distributions delineated by primary and auxiliary samples. We propose that the learning objective is not the distribution of correct solutions but one defined by both primary and auxiliary samples. To bridge discrepancies, we introduced the Tine method, an adversarial learning-based approach to assist Valen in estimating a solution distribution closer to the correct one, albeit with issues like unstable training. Reflecting on Tine, we propose modeling the sample distribution of reasoning problems as a mixture of Gaussian distributions, leading to the Funny method. This effectively enables Valen to capture the true form of the correct solution distribution. Furthermore, we designed the SBR method to model the distribution of progressive patterns representation similarly. Overall, the Funny, Tine, and SBR methods significantly improve Valen's performance, providing new ideas and methods for studying visual abstract reasoning problems.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 分散最適化の高速化: ローカルステップの2次元的パースペクティブ

Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps ( http://arxiv.org/abs/2407.02689v1 )

ライセンス: Link先を確認
Junchi Yang, Murat Yildirim, Qiu Feng, (参考訳) 分散機械学習では、異なるデータ分散を持つ複数のエージェント間の効率的なトレーニングが大きな課題となる。 集中コーディネータでさえ、最適な通信複雑性を達成する現在のアルゴリズムは、通常、大きなミニバッチまたは勾配複雑性の妥協を必要とする。 本研究では,強い凸,凸,非凸の目的にまたがる集中的および分散的設定に取り組む。 まず、分散最適化のラグランジアンに応用された基本原始双対法((Accelerated) Gradient Ascent Multiple Stochastic Gradient Descent (GA-MSGD))が局所的な更新を本質的に含んでいることを実証した。 特に、強凸目的に対して、(加速された)GA-MSGDは、ラグランジアンが双対変数でのみ線型であるにもかかわらず、通信ラウンドにおける線形収束を達成することを示す。 これは、双対変数がカップリング行列のスパンに制限されるユニークな構造的性質のためであり、双対問題は強く凹む。 Catalystフレームワークと統合すると,ミニバッチを必要とせずに,様々な設定でほぼ最適な通信複雑性を実現することができる。 さらに、確率的な分散化問題では、決定論的設定のものと同等の通信複雑さを達成し、既存のアルゴリズムよりも改善する。

In distributed machine learning, efficient training across multiple agents with different data distributions poses significant challenges. Even with a centralized coordinator, current algorithms that achieve optimal communication complexity typically require either large minibatches or compromise on gradient complexity. In this work, we tackle both centralized and decentralized settings across strongly convex, convex, and nonconvex objectives. We first demonstrate that a basic primal-dual method, (Accelerated) Gradient Ascent Multiple Stochastic Gradient Descent (GA-MSGD), applied to the Lagrangian of distributed optimization inherently incorporates local updates, because the inner loops of running Stochastic Gradient Descent on the primal variable require no inter-agent communication. Notably, for strongly convex objectives, we show (Accelerated) GA-MSGD achieves linear convergence in communication rounds despite the Lagrangian being only linear in the dual variables. This is due to a unique structural property where the dual variable is confined to the span of the coupling matrix, rendering the dual problem strongly concave. When integrated with the Catalyst framework, our approach achieves nearly optimal communication complexity across various settings without the need for minibatches. Moreover, in stochastic decentralized problems, it attains communication complexities comparable to those in deterministic settings, improving over existing algorithms.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 農村環境における環境モニタリングのためのUAV支援分散学習

UAV-assisted Distributed Learning for Environmental Monitoring in Rural Environments ( http://arxiv.org/abs/2407.02693v1 )

ライセンス: Link先を確認
Vukan Ninkovic, Dejan Vukobratovic, Dragisa Miskovic, (参考訳) 分散学習と推論アルゴリズムは、ワークロード緩和、データのプライバシ保護、レイテンシの削減といったメリットを提供するIoTシステムにとって欠かせないものになっている。 本稿では,無人航空機(UAV)を地域におけるIoT環境モニタリングのカバレッジ拡張中継として活用する,革新的なアプローチを提案する。 提案手法は,エッジデバイス,UAV,サーバ間のスプリットラーニング(SL)戦略を統合し,推論機構の適応性と性能を向上させる。 UAVをリレーとして使用し、SLを組み込むことで、リモート環境でIoTで学習するアプリケーションの接続性とリソース制約に対処する。 我々のシステムモデルは、最適なシステム動作のための最も適切な送信戦略を決定するために、多様なチャネル条件を考慮に入れている。 シミュレーション解析により、提案手法は、その堅牢性と適応性を示し、悪いチャネル条件下でも優れる。 UAVリレーとSLパラダイムの統合はサーバに対して大きな柔軟性を提供し、全体的な推論品質を最小化する以上のさまざまなトレードオフを考慮する適応的な戦略を可能にする。

Distributed learning and inference algorithms have become indispensable for IoT systems, offering benefits such as workload alleviation, data privacy preservation, and reduced latency. This paper introduces an innovative approach that utilizes unmanned aerial vehicles (UAVs) as a coverage extension relay for IoT environmental monitoring in rural areas. Our method integrates a split learning (SL) strategy between edge devices, a UAV and a server to enhance adaptability and performance of inference mechanisms. By employing UAVs as a relay and by incorporating SL, we address connectivity and resource constraints for applications of learning in IoT in remote settings. Our system model accounts for diverse channel conditions to determine the most suitable transmission strategy for optimal system behaviour. Through simulation analysis, the proposed approach demonstrates its robustness and adaptability, even excelling under adverse channel conditions. Integrating UAV relaying and the SL paradigm offers significant flexibility to the server, enabling adaptive strategies that consider various trade-offs beyond simply minimizing overall inference quality.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# LLM-Select:大規模言語モデルによる特徴選択

LLM-Select: Feature Selection with Large Language Models ( http://arxiv.org/abs/2407.02694v1 )

ライセンス: Link先を確認
Daniel P. Jeong, Zachary C. Lipton, Pradeep Ravikumar, (参考訳) 本稿では,大言語モデル(LLM)の驚くべき機能を示す。入力特徴名と予測タスクの記述のみを与えられた場合,データサイエンスの標準ツールに匹敵する性能で,最も予測可能な特徴を選択することができる。 注目すべきは、これらのモデルは、様々なクエリメカニズムにまたがって、この能力を示すことだ。 例えば、ゼロショットはLCMに対して、追加の文脈なしで興味の結果(例えば「ハート障害」)を予測する際に特徴(例えば「血液圧」)の数値的重要性スコアを出力するように促します。 特に、GPT-4のような最新のモデルでは、クエリメカニズムや様々なプロンプト戦略によらず、常に最も予測可能な特徴を識別できることがわかった。 そこで,LLMに基づく特徴選択は,下流のトレーニングデータを見たことがなくとも,LASSOのようなデータ駆動手法と競合する強力な性能を実現することを示す。 以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。 これは、高品質なデータを収集する医療などの分野の実践者にとって、高いコストがかかる可能性がある。

In this paper, we demonstrate a surprising capability of large language models (LLMs): given only input feature names and a description of a prediction task, they are capable of selecting the most predictive features, with performance rivaling the standard tools of data science. Remarkably, these models exhibit this capacity across various query mechanisms. For example, we zero-shot prompt an LLM to output a numerical importance score for a feature (e.g., "blood pressure") in predicting an outcome of interest (e.g., "heart failure"), with no additional context. In particular, we find that the latest models, such as GPT-4, can consistently identify the most predictive features regardless of the query mechanism and across various prompting strategies. We illustrate these findings through extensive experiments on real-world data, where we show that LLM-based feature selection consistently achieves strong performance competitive with data-driven methods such as the LASSO, despite never having looked at the downstream training data. Our findings suggest that LLMs may be useful not only for selecting the best features for training but also for deciding which features to collect in the first place. This could potentially benefit practitioners in domains like healthcare, where collecting high-quality data comes at a high cost.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 接続された車のサイバーセキュリティをナビゲートする:RANデータによる位置異常検出

Navigating Connected Car Cybersecurity: Location Anomaly Detection with RAN Data ( http://arxiv.org/abs/2407.02698v1 )

ライセンス: Link先を確認
Feng Wang, Yaron Koral, Kenichi Futamura, (参考訳) モノのインターネット(IoT)の世界に不可欠なコネクテッドカーのサイバーセキュリティは、非常に懸念されている。 ハイジャックや偽造を含むサイバー攻撃は、これらの技術進歩に重大な脅威をもたらし、車載ネットワークの不正な制御や偽の身元形成につながる可能性がある。 本稿では,全車両に包括的防御ロジックを配置することの難しさを踏まえ,Radio Access Network (RAN) イベント監視による潜在的な攻撃を識別するための新しいアプローチを提案する。 本論文の主な貢献は,複数箇所に同時に出現する異常なデバイスを識別する位置異常検出モジュールである。 本研究では、RANイベントに基づく位置異常検出が、連結車両を標的とした悪意ある活動とどのように戦うかを示す。 数千万台のコネクテッドカーが生成したRANデータを用いて,潜在的に悪意のあるデバイスやローグデバイスを高速かつ効率的に識別する手法を開発した。 この研究の影響は遥かに大きい。 接続された車のセキュリティを高めることで、ユーザの安全性を高め、自動車産業の堅牢な防御を提供し、IoTデバイスの全体的なサイバーセキュリティプラクティスを改善することができます。

The cybersecurity of connected cars, integral to the broader Internet of Things (IoT) landscape, has become of paramount concern. Cyber-attacks, including hijacking and spoofing, pose significant threats to these technological advancements, potentially leading to unauthorized control over vehicular networks or creating deceptive identities. Given the difficulty of deploying comprehensive defensive logic across all vehicles, this paper presents a novel approach for identifying potential attacks through Radio Access Network (RAN) event monitoring. The major contribution of this paper is a location anomaly detection module that identifies aberrant devices that appear in multiple locations simultaneously - a potential indicator of a hijacking attack. We demonstrate how RAN-event based location anomaly detection is effective in combating malicious activity targeting connected cars. Using RAN data generated by tens of millions of connected cars, we developed a fast and efficient method for identifying potential malicious or rogue devices. The implications of this research are far-reaching. By increasing the security of connected cars, we can enhance the safety of users, provide robust defenses for the automotive industry, and improve overall cybersecurity practices for IoT devices.
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# シミュレーションアニーリングプロセスに基づく深部ニューラルネットワークの出力範囲解析

Output Range Analysis for Deep Neural Networks based on Simulated Annealing Processes ( http://arxiv.org/abs/2407.02700v1 )

ライセンス: Link先を確認
Helder Rojas, Nilton Rojas, Espinoza J. B., Luis Huamanchumo, (参考訳) 本稿では,Deep Neural Networks (DNN) の出力範囲推定の課題に対処し,Simulated Annealing (SA) に基づく新しいアルゴリズムを提案する。 提案手法は,DNNにおける局所的幾何学的情報の欠如と非線形性に対処し,様々なアーキテクチャ,特にResidual Neural Networks(ResNets)を多用する。 本稿では,ネットワークアーキテクチャに関する制約的な仮定を回避する,単純で実装しやすいアルゴリズムを提案する。 Ackley関数の試験を含む理論的解析と実験的評価を通じて、複素凸面をナビゲートし、DNN出力範囲を正確に推定するアルゴリズムの有効性を実証する。 さらに、私たちの結果をサポートするこの実験的な評価のPythonコードは、GitHubリポジトリで利用可能です(https://github.com/Nicerova7/output-range-analysis-for-deep-neural-networks-with-simulated-annealin g)。

This paper tackles the challenging problem of output range estimation for Deep Neural Networks (DNNs), introducing a novel algorithm based on Simulated Annealing (SA). Our approach addresses the lack of local geometric information and high non-linearity in DNNs, making it versatile across various architectures, especially Residual Neural Networks (ResNets). We present a straightforward, implementation-friendly algorithm that avoids restrictive assumptions about network architecture. Through theoretical analysis and experimental evaluations, including tests on the Ackley function, we demonstrate our algorithm's effectiveness in navigating complex, non-convex surfaces and accurately estimating DNN output ranges. Futhermore, the Python codes of this experimental evaluation that support our results are available in our GitHub repository (https://github.com/Nicerova7/output-range-analysis-for-deep-neural-networks-with-simulated-annealin g).
翻訳日:2024-07-04 18:04:33 公開日:2024-07-02
# 因果経路の実践的ガイドとサブグループ格差分析

Practical Guide for Causal Pathways and Sub-group Disparity Analysis ( http://arxiv.org/abs/2407.02702v1 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Shaina Raza, Oluwanifemi Bamgbose, Deval Pandya, Elham Dolatabadi, (参考訳) 本研究では,感性属性と実世界の観測データにおける目標結果との因果関係と因果関係を明らかにするための因果不均質分析の適用について紹介する。 本手法では,因果分解分析を用いて因果関係の定量化と評価を行う。 また、因果不均質分析における異種性評価の統合の重要性を強調し、特定のサブグループにおける感度属性が結果に与える影響について深い洞察を得る。 当社の2段階の調査は、レースがセンシティブな属性として機能するデータセットに焦点を当てています。 2つのデータセットの結果は、因果解析と不均一性評価の利点が、データのバイアスを定量化するだけでなく、結果への影響を解消するためにも有効であることを示している。 本研究は,ML分類誤差が最も大きい部分群が,最も影響を受けやすい部分群であることが実証された。 また、機密属性のみに基づいてデータをグループ化するだけでは不十分であることが示され、これらの分析により、不一致によって直接影響を受けるサブグループを見つけることができる。 我々の発見は、将来の倫理的AIプラクティスやバイアス監査にそのような方法論を採用することを奨励し、より公平で公正な技術的景観を育むことを願っている。

In this study, we introduce the application of causal disparity analysis to unveil intricate relationships and causal pathways between sensitive attributes and the targeted outcomes within real-world observational data. Our methodology involves employing causal decomposition analysis to quantify and examine the causal interplay between sensitive attributes and outcomes. We also emphasize the significance of integrating heterogeneity assessment in causal disparity analysis to gain deeper insights into the impact of sensitive attributes within specific sub-groups on outcomes. Our two-step investigation focuses on datasets where race serves as the sensitive attribute. The results on two datasets indicate the benefit of leveraging causal analysis and heterogeneity assessment not only for quantifying biases in the data but also for disentangling their influences on outcomes. We demonstrate that the sub-groups identified by our approach to be affected the most by disparities are the ones with the largest ML classification errors. We also show that grouping the data only based on a sensitive attribute is not enough, and through these analyses, we can find sub-groups that are directly affected by disparities. We hope that our findings will encourage the adoption of such methodologies in future ethical AI practices and bias audits, fostering a more equitable and fair technological landscape.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-02
# 境界を推し進める - 深く構成されたパフォーマンス学習をめざして

Pushing the Boundary: Specialising Deep Configuration Performance Learning ( http://arxiv.org/abs/2407.02706v1 )

ライセンス: Link先を確認
Jingzhi Gong, (参考訳) ソフトウェアシステムには、さまざまなパフォーマンス要件を満たすように調整可能な、多数の設定オプションがあることが多い。 しかしながら、これらのオプションがパフォーマンスに与える影響を理解することは、特に実世界の限られたデータにおいて、しばしば困難である。 この問題に対処するために、限られたサンプルであっても複雑な関係を捉えることができるため、ディープラーニング技術が人気を集めている。 この論文は、コンフィグレーションパフォーマンスモデリングにおけるディープラーニング技術に関する体系的な文献レビューから始まり、検索された948論文のうち85論文を分析した。 知識ギャップを識別し、論文の目的を3つ設定する。 最初の知識のギャップは、どの符号化方式が良いか、どのような状況で良いかを理解することの欠如である。 この問題に対処するため、論文は3つの一般的な符号化方式を比較した実証的研究を行っている。 より信頼性の高い決定をサポートするために、実行可能な提案が提供されている。 もう1つの知識ギャップは、構成のランドスケープから受け継いだスパーシリティである。 この問題に対処するため、論文では、DALと呼ばれるモデルに依存しない、スポーサリティを損なうフレームワークを提案している。 DaLは、様々な現実世界システムにおける精度改善における最先端のアプローチよりも優れています。 この論文は、SeMPLと呼ばれるシーケンシャルなメタラーニングフレームワークを提案することによって、静的環境下での予測の制限にも対処している。 従来のメタ学習フレームワークとは異なり、SeMPLは特定の順序でメタ環境を訓練し、マルチ環境シナリオにおける予測精度を大幅に改善する。 全体として、論文は、深いパフォーマンス学習における重要な知識ギャップを特定し、対処し、パフォーマンス予測の精度を大幅に向上させる。

Software systems often have numerous configuration options that can be adjusted to meet different performance requirements. However, understanding the combined impact of these options on performance is often challenging, especially with limited real-world data. To tackle this issue, deep learning techniques have gained popularity due to their ability to capture complex relationships even with limited samples. This thesis begins with a systematic literature review of deep learning techniques in configuration performance modeling, analyzing 85 primary papers out of 948 searched papers. It identifies knowledge gaps and sets three objectives for the thesis. The first knowledge gap is the lack of understanding about which encoding scheme is better and in what circumstances. To address this, the thesis conducts an empirical study comparing three popular encoding schemes. Actionable suggestions are provided to support more reliable decisions. Another knowledge gap is the sparsity inherited from the configuration landscape. To handle this, the thesis proposes a model-agnostic and sparsity-robust framework called DaL, which uses a "divide-and-learn" approach. DaL outperforms state-of-the-art approaches in accuracy improvement across various real-world systems. The thesis also addresses the limitation of predicting under static environments by proposing a sequential meta-learning framework called SeMPL. Unlike traditional meta-learning frameworks, SeMPL trains meta-environments in a specialized order, resulting in significantly improved prediction accuracy in multi-environment scenarios. Overall, the thesis identifies and addresses critical knowledge gaps in deep performance learning, significantly advancing the accuracy of performance prediction.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-02
# AI in Action: 持続可能な開発目標に向けての進歩を加速する

AI in Action: Accelerating Progress Towards the Sustainable Development Goals ( http://arxiv.org/abs/2407.02711v1 )

ライセンス: Link先を確認
Brigitte Hoyer Gosselink, Kate Brandt, Marian Croak, Karen DeSalvo, Ben Gomes, Lila Ibrahim, Maggie Johnson, Yossi Matias, Ruth Porat, Kent Walker, James Manyika, (参考訳) 人工知能(AI)の進歩は、国連(UN)の持続可能な開発目標(SDG)など、複雑な問題に対処する技術の増加を実証する、社会的な課題の増大に寄与している。 世界的努力にもかかわらず、SDG目標の80%は逸脱、停滞、または後退しており、2023年時点ではわずか15%しか軌道に進まない。 私たちは、AIがSDGに対する行動を加速し、人類の最も圧力のかかる課題に対処するための実質的な進歩を示すために、Googleの内部的かつ協力的な研究、技術的作業、社会的影響イニシアチブを引き合いに出している。 この論文では、AI能力(コンピュータビジョン、生成AI、自然言語処理、マルチモーダルAIなど)を強調し、AIが、ユースケースを通じて17のSDGすべてにまたがる問題解決にどのようにアプローチするかを、AIによる健康、教育、気候のイノベーションに焦点を当てている。 そして私たちは、大胆で責任あるイノベーションを推進し、インパクトを高め、アクセシビリティのギャップを埋め、すべての人がAIから恩恵を受けられるように、AI開発とデプロイメントに関する洞察を提供します。

Advances in Artificial Intelligence (AI) are helping tackle a growing number of societal challenges, demonstrating technology's increasing capability to address complex issues, including those outlined in the United Nations (UN) Sustainable Development Goals (SDGs). Despite global efforts, 80 percent of SDG targets have deviated, stalled, or regressed, and only 15 percent are on track as of 2023, illustrating the urgency of accelerating efforts to meet the goals by 2030. We draw on Google's internal and collaborative research, technical work, and social impact initiatives to show AI's potential to accelerate action on the SDGs and make substantive progress to help address humanity's most pressing challenges. The paper highlights AI capabilities (including computer vision, generative AI, natural language processing, and multimodal AI) and showcases how AI is altering how we approach problem-solving across all 17 SDGs through use cases, with a spotlight on AI-powered innovation in health, education, and climate. We then offer insights on AI development and deployment to drive bold and responsible innovation, enhance impact, close the accessibility gap, and ensure that everyone, everywhere, can benefit from AI.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-02
# プログレッシブ・ナレッジ蒸留による圧縮映像行動認識の促進

Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation ( http://arxiv.org/abs/2407.02713v1 )

ライセンス: Link先を確認
Efstathia Soufleri, Deepak Ravikumar, Kaushik Roy, (参考訳) 圧縮ビデオアクション認識は、圧縮されたビデオ、すなわちモーションベクトル、残差、フレーム内の様々なモードを活用することで、ビデオサンプルを分類する。 この目的のために、3つのニューラルネットワークがデプロイされ、それぞれが1つのモダリティを処理する。 本研究は, フレーム内ネットワーク処理がネットワーク処理残差よりも平らな最小値に収束する傾向にあり, 移動ベクトルネットワークよりも平らな最小値に収束することを示した。 この収束の階層構造は、一般的により一般化に結びついているフラットなミニマを達成するために、モダリティ間の知識伝達の戦略を動機付けている。 そこで本研究では,段階的に知識をモダリティ間で伝達する手法であるプログレッシブ・ナレッジ蒸留(PKD)を提案する。 この方法は3つのネットワークに早期出口(内部分類器 - IC)をアタッチすることを含む。 PKDは、動きベクトルネットワークから始まる知識を蒸留し、次に残留し、最後にフレーム内ネットワークを蒸留し、IC精度を逐次改善する。 さらに、ICからの出力を学習重みで組み合わせ、推論の精度を高めるWeighted Inference with Scaled Ensemble (WISE)を提案する。 実験では,PKDを用いたICのトレーニングの有効性を実証し,UCF-101データセットとHMDB-51データセットのIC精度を最大5.87%,11.42%向上させた。 さらに、WISEはUCF-101とHMDB-51で最大4.28%、9.30%の精度向上を実現している。

Compressed video action recognition classifies video samples by leveraging the different modalities in compressed videos, namely motion vectors, residuals, and intra-frames. For this purpose, three neural networks are deployed, each dedicated to processing one modality. Our observations indicate that the network processing intra-frames tend to converge to a flatter minimum than the network processing residuals, which in turn converges to a flatter minimum than the motion vector network. This hierarchy in convergence motivates our strategy for knowledge transfer among modalities to achieve flatter minima, which are generally associated with better generalization. With this insight, we propose Progressive Knowledge Distillation (PKD), a technique that incrementally transfers knowledge across the modalities. This method involves attaching early exits (Internal Classifiers - ICs) to the three networks. PKD distills knowledge starting from the motion vector network, followed by the residual, and finally, the intra-frame network, sequentially improving IC accuracy. Further, we propose the Weighted Inference with Scaled Ensemble (WISE), which combines outputs from the ICs using learned weights, boosting accuracy during inference. Our experiments demonstrate the effectiveness of training the ICs with PKD compared to standard cross-entropy-based training, showing IC accuracy improvements of up to 5.87% and 11.42% on the UCF-101 and HMDB-51 datasets, respectively. Additionally, WISE improves accuracy by up to 4.28% and 9.30% on UCF-101 and HMDB-51, respectively.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-02
# 事前訓練型医用ビジョンランゲージモデルにおける逆方向雑音の抑制のための軽量微調整法

Light-weight Fine-tuning Method for Defending Adversarial Noise in Pre-trained Medical Vision-Language Models ( http://arxiv.org/abs/2407.02716v1 )

ライセンス: Link先を確認
Xu Han, Linghao Jin, Xuezhe Ma, Xiaofeng Liu, (参考訳) 微調整事前学習型視覚言語モデル(VLM)は、医用画像とテキスト描写相乗効果において顕著な能力を示した。 それでも、多くの事前トレーニングデータセットは患者のプライバシの懸念によって制限されており、下流のパフォーマンスに悪影響を及ぼす可能性のあるノイズを含んでいる可能性がある。 さらに、マルチモーダル・ジェネレーションへの依存度が高まると、敵攻撃への感受性が増すため、この問題が悪化する。 下流の医療タスクにおいて,VLMが逆方向のノイズデータを学習する方法について検討するため,マルチモーダルな逆方向攻撃を用いて,まず上流のノイズを発生させる。 包括的分析により、中程度の雑音はモデルの堅牢性と伝達性を高めるが、ノイズレベルの増加は下流タスク性能に悪影響を及ぼすことが示された。 この問題を軽減するため、我々は、敵の攻撃を効果的に防御し、微調整中に上流の騒音の影響を是正するレシピである、敵の騒音(RAN)フレームワークの修正を提案する。

Fine-tuning pre-trained Vision-Language Models (VLMs) has shown remarkable capabilities in medical image and textual depiction synergy. Nevertheless, many pre-training datasets are restricted by patient privacy concerns, potentially containing noise that can adversely affect downstream performance. Moreover, the growing reliance on multi-modal generation exacerbates this issue because of its susceptibility to adversarial attacks. To investigate how VLMs trained on adversarial noisy data perform on downstream medical tasks, we first craft noisy upstream datasets using multi-modal adversarial attacks. Through our comprehensive analysis, we unveil that moderate noise enhances model robustness and transferability, but increasing noise levels negatively impact downstream task performance. To mitigate this issue, we propose rectify adversarial noise (RAN) framework, a recipe designed to effectively defend adversarial attacks and rectify the influence of upstream noise during fine-tuning.
翻訳日:2024-07-04 17:54:48 公開日:2024-07-02
# 性能予測のための縦系モニタリングデータの解析

Analytics of Longitudinal System Monitoring Data for Performance Prediction ( http://arxiv.org/abs/2007.03451v2 )

ライセンス: Link先を確認
Ian J. Costello, Abhinav Bhatele, (参考訳) 近年、いくつかのHPC施設が、パフォーマンスと運用効率を理解するためにパフォーマンス関連データを収集するために、システムとジョブの継続的な監視を開始している。 このようなデータは、スケジューラキューで待機しているジョブのパフォーマンスを予測するデータ駆動モデルを作成することで、個々のジョブとシステム全体のパフォーマンスを最適化するために使用できる。 本稿では,縦型システムワイドモニタリングデータと機械学習を用いて代表制御ジョブの性能をモデル化し,性能変動の原因について検討する。 我々はこれらの予測モデルを詳細に分析し、主要な性能予測因子である特徴を特定する。 このようなモデルがアプリケーションに依存しないことを実証し、トレーニングに含まれていないアプリケーションのパフォーマンスを予測するために使用できることを示す。

In recent years, several HPC facilities have started continuous monitoring of their systems and jobs to collect performance-related data for understanding performance and operational efficiency. Such data can be used to optimize the performance of individual jobs and the overall system by creating data-driven models that can predict the performance of jobs waiting in the scheduler queue. In this paper, we model the performance of representative control jobs using longitudinal system-wide monitoring data and machine learning to explore the causes of performance variability. We analyze these prediction models in great detail to identify the features that are dominant predictors of performance. We demonstrate that such models can be application-agnostic and can be used for predicting performance of applications that are not included in training.
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# プログラムの自動修復が回帰テストに遭遇する時 - 200万件のパッチに関する広範な調査

When Automated Program Repair Meets Regression Testing -- An Extensive Study on 2 Million Patches ( http://arxiv.org/abs/2105.07311v2 )

ライセンス: Link先を確認
Yiling Lou, Jun Yang, Samuel Benton, Dan Hao, Lin Tan, Zhenpeng Chen, Lu Zhang, Lingming Zhang, (参考訳) 近年、APR(Automated Program repair)は学術分野で広く研究され、産業から広く注目を集めている。 しかしながら,(1) バグに対して多数のパッチを生成することができ,(2) それぞれのパッチを元のテストで実行して,その正確性を保証する必要があるため,APR のテクニックは極めて時間がかかります。 文献では、パッチ数を減らすために様々な手法(例えば、学習、マイニング、制約解決)が提案・検討されている。 直感的には、すべてのパッチは回帰テスト中にソフトウェアリビジョンとして扱うことができるため、従来の回帰テスト選択(RTS)技術は、各パッチに影響されたテスト(他のテストでは同じ結果を保持する)だけを実行することで、パッチの実行時間を短縮することができる。 しかし、実際にRTSを採用するAPRシステムはほとんどなく、RTSの利点と異なるRTS戦略がAPRに与える影響を示す体系的な研究はいまだに存在しない。 そこで本研究では,2M以上のパッチ上での12種類の最先端APRシステムに対して,異なるレベル(クラス/メソッド/ステートメントレベル)で広く利用されているRTS技術について,初めて広範な研究を行った。 本研究では,APRと回帰テストのギャップを埋めるための様々な実践的ガイドラインを明らかにする。

In recent years, Automated Program Repair (APR) has been extensively studied in academia and even drawn wide attention from industry. However, APR techniques can be extremely time consuming since (1) a large number of patches can be generated for a given bug, and (2) each patch needs to be executed on the original tests to ensure its correctness. In the literature, various techniques (e.g., based on learning, mining, and constraint solving) have been proposed/studied to reduce the number of patches. Intuitively, every patch can be treated as a software revision during regression testing; thus, traditional Regression Test Selection (RTS) techniques can be leveraged to only execute the tests affected by each patch (as the other tests would keep the same outcomes) to further reduce patch execution time. However, few APR systems actually adopt RTS and there is still a lack of systematic studies demonstrating the benefits of RTS and the impact of different RTS strategies on APR. To this end, this paper presents the first extensive study of widely-used RTS techniques at different levels (i.e., class/method/statement levels) for 12 state-of-the-art APR systems on over 2M patches. Our study reveals various practical guidelines for bridging the gap between APR and regression testing.
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# クープマンスペクトル非線形レギュレータと効率的なオンライン学習

Koopman Spectrum Nonlinear Regulators and Efficient Online Learning ( http://arxiv.org/abs/2106.15775v2 )

ライセンス: Link先を確認
Motoya Ohnishi, Isao Ishikawa, Kendall Lowrey, Masahiro Ikeda, Sham Kakade, Yoshinobu Kawahara, (参考訳) 現代の強化学習アルゴリズムの多くは、軌道に沿って累積的な単段階コストを最適化している。 最適化された運動はしばしば「不自然な」もので、例えば、エネルギーを浪費し、予測可能性に欠ける急激な加速を伴う行動を表す。 本研究では、制御力学のクープマン作用素に対するコストであるクープマンスペクトルコストの最小化を通じて非線形系を制御する新しいパラダイムを提案する。 このことは、非線形発振器、閉ループ、滑らかな運動のような安定多様体上で進化するより広範な力学挙動のクラスを誘導する。 我々は,古典的固有構造と極配置を非線形決定に一般化するパラダイムにおいて,累積コストで不可能ないくつかの力学特性が実現可能であることを実証した。 さらに,いくつかの構造的前提の下でのサブ線形後悔を楽しむ問題に対して,効率的なオンライン学習アルゴリズムを提案する。

Most modern reinforcement learning algorithms optimize a cumulative single-step cost along a trajectory. The optimized motions are often 'unnatural', representing, for example, behaviors with sudden accelerations that waste energy and lack predictability. In this work, we present a novel paradigm of controlling nonlinear systems via the minimization of the Koopman spectrum cost: a cost over the Koopman operator of the controlled dynamics. This induces a broader class of dynamical behaviors that evolve over stable manifolds such as nonlinear oscillators, closed loops, and smooth movements. We demonstrate that some dynamics characterizations that are not possible with a cumulative cost are feasible in this paradigm, which generalizes the classical eigenstructure and pole assignments to nonlinear decision making. Moreover, we present a sample efficient online learning algorithm for our problem that enjoys a sub-linear regret bound under some structural assumptions.
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# 画像セグメンテーション評価のためのWIoUの重み付き切断

Weighted Intersection over Union (wIoU) for Evaluating Image Segmentation ( http://arxiv.org/abs/2107.09858v5 )

ライセンス: Link先を確認
Yeong-Jun Cho, (参考訳) 近年,シーン内のピクセルのラベルを予測するためのセマンティックセグメンテーション法が数多く提案されている。 一般に,面積予測誤差や境界予測誤差を比較手法として測定する。 しかし、両方の側面を評価する直感的な評価基準は存在しない。 本研究では,意味的セグメンテーションのための重み付き節間(wIoU)と呼ばれる新しい評価尺度を提案する。 まず、境界距離マップから生成される重みマップを構築し、境界重み係数に基づいて各画素の重み付け評価を可能にする。 提案したwIoUは,境界重要度を設定することにより,輪郭と領域の両方を評価することができる。 我々は,33シーンのデータセット上でwIoUの有効性を検証し,その柔軟性を実証した。 提案手法を用いることで,セマンティックセグメンテーション分野におけるより柔軟で直感的な評価が可能となることを期待する。

In recent years, many semantic segmentation methods have been proposed to predict label of pixels in the scene. In general, we measure area prediction errors or boundary prediction errors for comparing methods. However, there is no intuitive evaluation metric that evaluates both aspects. In this work, we propose a new evaluation measure called weighted Intersection over Union (wIoU) for semantic segmentation. First, it builds a weight map generated from a boundary distance map, allowing weighted evaluation for each pixel based on a boundary importance factor. The proposed wIoU can evaluate both contour and region by setting a boundary importance factor. We validated the effectiveness of wIoU on a dataset of 33 scenes and demonstrated its flexibility. Using the proposed metric, we expect more flexible and intuitive evaluation in semantic segmentation field are possible.
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# 量子コンピュータにおけるロデオアルゴリズムの実証

Demonstration of the Rodeo Algorithm on a Quantum Computer ( http://arxiv.org/abs/2110.07747v2 )

ライセンス: Link先を確認
Zhengrong Qian, Jacob Watkins, Gabriel Given, Joey Bonitati, Kenneth Choi, Dean Lee, (参考訳) ロデオアルゴリズムは、量子コンピュータ上で観測可能な任意の固有状態の準備と固有値推定のための効率的なアルゴリズムである。 これにより、原子核のスペクトルと構造、および量子多体物理学の他の分野を研究するための有望なツールとなる。 唯一の要件は、初期状態が所望の固有状態と十分に重複する確率を持つことである。 固有状態生成のための位相推定や断熱進化のようなよく知られたアルゴリズムよりも指数関数的に高速であるが、実際の量子デバイス上ではまだ実装されていない。 そこで本研究では,IBM Q デバイス Casablanca の中間回路測定値を用いて,ランダムな 1 ビットハミルトニアンのエネルギー準位を決定するために,ロデオアルゴリズムを適用した。 これは、同じ量子デバイスを用いて直接準備された固有ベクトル期待値の精度を超える。 我々は、高精度なエネルギー決定を生かし、ヘルマン=ファインマンの定理を用いて、異なるランダムな1量子ビット観測可能な固有ベクトル期待値を計算する。 ヘルマン・ファインマンの計算では、相対誤差は0.7 %$である。 我々は、マルチキュービットハミルトニアンに対するロデオアルゴリズムの将来的な応用について論じる。

The rodeo algorithm is an efficient algorithm for eigenstate preparation and eigenvalue estimation for any observable on a quantum computer. This makes it a promising tool for studying the spectrum and structure of atomic nuclei as well as other fields of quantum many-body physics. The only requirement is that the initial state has sufficient overlap probability with the desired eigenstate. While it is exponentially faster than well-known algorithms such as phase estimation and adiabatic evolution for eigenstate preparation, it has yet to be implemented on an actual quantum device. In this work, we apply the rodeo algorithm to determine the energy levels of a random one-qubit Hamiltonian, resulting in a relative error of $0.08\%$ using mid-circuit measurements on the IBM Q device Casablanca. This surpasses the accuracy of directly-prepared eigenvector expectation values using the same quantum device. We take advantage of the high-accuracy energy determination and use the Hellmann-Feynman theorem to compute eigenvector expectation values for a different random one-qubit observable. For the Hellmann-Feynman calculations, we find a relative error of $0.7\%$. We conclude by discussing possible future applications of the rodeo algorithm for multi-qubit Hamiltonians.
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# 性能維持中にメモリ限界を超えてDNNモデルの大規模バッチサイズトレーニングを実現する

Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance ( http://arxiv.org/abs/2110.12484v3 )

ライセンス: Link先を確認
XinYu Piao, DoangJoo Synn, JooYoung Park, Jong-Kook Kim, (参考訳) 最近のディープラーニングモデルは、モデルと大規模なデータバッチサイズの両方に対応するのに十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。 バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、モデルがアップロードされた後のみ、バッチサイズが残りのメモリに収まるため、ターゲットマシンのメモリ容量に依存し、制限される。 さらに、各データ項目のサイズが大きくなると、残りのメモリに収まるバッチサイズが小さくなるため、データ項目のサイズも重要な要素である。 本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。 この方法は、バッチを残りのメモリに適合し、順次処理可能なサイズに分割するバッチ処理方法を提供することで、ディープラーニングモデルのトレーニングを支援する。 小バッチを個別に処理した後、勾配蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。 本手法の目的は,メモリ容量を増大させることなく,あるいは複数のデバイス(GPU)を使用することなく,より大規模なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。

Recent deep learning models are difficult to train using a large batch size, because commodity machines may not have enough memory to accommodate both the model and a large data batch size. The batch size is one of the hyper-parameters used in the training model, and it is dependent on and is limited by the target machine memory capacity because the batch size can only fit into the remaining memory after the model is uploaded. Moreover, the data item size is also an important factor because if each data item size is larger then the batch size that can fit into the remaining memory becomes smaller. This paper proposes a method called Micro-Batch Processing (MBP) to address this problem. This method helps deep learning models to train by providing a batch processing method that splits a batch into a size that can fit in the remaining memory and processes them sequentially. After processing the small batches individually, a loss normalization algorithm based on the gradient accumulation is used to maintain the performance. The purpose of our method is to allow deep learning models to train using larger batch sizes that exceed the memory capacity of a system without increasing the memory size or using multiple devices (GPUs).
翻訳日:2024-07-04 10:45:46 公開日:2024-07-02
# 安定なピラミッド変換によりロバスト左室定量化が可能となる

Steerable Pyramid Transform Enables Robust Left Ventricle Quantification ( http://arxiv.org/abs/2201.08388v2 )

ライセンス: Link先を確認
Xiangyang Zhu, Kede Ma, Wufeng Xue, (参考訳) 心臓の指標の予測は、長い間、医療画像のコミュニティの焦点であった。 様々なディープラーニングモデルが心臓の指標の定量化に成功しているが、それらは軽度の入力摂動、例えば空間変換、画像の歪み、敵の攻撃に影響を受けやすいままである。 この脆弱性は、心血管疾患の診断に学習ベースの自動システムを使用することの信頼性を損なう。 本研究では,左心室定量化(LV)のためのロバストモデル(空洞および心筋領域,方向寸法,局所壁厚)を簡易かつ効果的に学習する手法について述べる。 我々の成功は、生物学的にインスパイアされたステアブル・ピラミッド・トランスフォーメーション(SPT)を固定フロントエンド処理に活用することにある。 まず,SPTの基本機能は,LVの解剖学的構造と測定指標の幾何学的特徴と整合する。 第二に、SPTはパラメータ正規化の一形態として異なる方向の重量共有を促進し、LVのスケール変動を自然に捉えている。 第三に、残高パスサブバンドを便利に破棄することができ、堅牢な特徴学習を促進する。 Cardiac-Digベンチマークの大規模な実験により、我々のSPT拡張モデルは、最先端の手法に比べて合理的な予測精度を達成するだけでなく、入力摂動に対するロバスト性も著しく向上していることが示された。

Predicting cardiac indices has long been a focal point in the medical imaging community. While various deep learning models have demonstrated success in quantifying cardiac indices, they remain susceptible to mild input perturbations, e.g., spatial transformations, image distortions, and adversarial attacks. This vulnerability undermines confidence in using learning-based automated systems for diagnosing cardiovascular diseases. In this work, we describe a simple yet effective method to learn robust models for left ventricle (LV) quantification, encompassing cavity and myocardium areas, directional dimensions, and regional wall thicknesses. Our success hinges on employing the biologically inspired steerable pyramid transform (SPT) for fixed front-end processing, which offers three main benefits. First, the basis functions of SPT align with the anatomical structure of LV and the geometric features of the measured indices. Second, SPT facilitates weight sharing across different orientations as a form of parameter regularization and naturally captures the scale variations of LV. Third, the residual highpass subband can be conveniently discarded, promoting robust feature learning. Extensive experiments on the Cardiac-Dig benchmark show that our SPT-augmented model not only achieves reasonable prediction accuracy compared to state-of-the-art methods, but also exhibits significantly improved robustness against input perturbations.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# ADD 2022:初のオーディオ深層合成検出チャレンジ

ADD 2022: the First Audio Deep Synthesis Detection Challenge ( http://arxiv.org/abs/2202.08433v3 )

ライセンス: Link先を確認
Jiangyan Yi, Ruibo Fu, Jianhua Tao, Shuai Nie, Haoxin Ma, Chenglong Wang, Tao Wang, Zhengkun Tian, Xiaohui Zhang, Ye Bai, Cunhang Fan, Shan Liang, Shiming Wang, Shuai Zhang, Xinrui Yan, Le Xu, Zhengqi Wen, Haizhou Li, Zheng Lian, Bin Liu, (参考訳) オーディオディープフェイク検出は、ASVspoof 2021に含まれる新たなトピックである。 しかし、最近の共有タスクは多くの実生活と挑戦的なシナリオをカバーしていない。 最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。 ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。 LFトラックは、さまざまな現実世界のノイズで、ボナ・フェイドと完全に偽の発話を扱うことに焦点を当てている。 PFトラックは、部分的に偽のオーディオと本物を区別することを目的としている。 FGトラックは、オーディオ生成タスクとオーディオ偽検出タスクの2つのタスクを含むライバルゲームである。 本稿では,データセット,評価指標,プロトコルについて述べる。 また,近年のオーディオディープフェイク検出タスクの進歩を反映した大きな発見も報告した。

Audio deepfake detection is an emerging topic, which was included in the ASVspoof 2021. However, the recent shared tasks have not covered many real-life and challenging scenarios. The first Audio Deep synthesis Detection challenge (ADD) was motivated to fill in the gap. The ADD 2022 includes three tracks: low-quality fake audio detection (LF), partially fake audio detection (PF) and audio fake game (FG). The LF track focuses on dealing with bona fide and fully fake utterances with various real-world noises etc. The PF track aims to distinguish the partially fake audio from the real. The FG track is a rivalry game, which includes two tasks: an audio generation task and an audio fake detection task. In this paper, we describe the datasets, evaluation metrics, and protocols. We also report major findings that reflect the recent advances in audio deepfake detection tasks.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# グッドハートの法則に例外はあるか? 公正な機械学習のモラル的正当性について

Are There Exceptions to Goodhart's Law? On the Moral Justification of Fairness-Aware Machine Learning ( http://arxiv.org/abs/2202.08536v3 )

ライセンス: Link先を確認
Hilde Weerts, Lambèr Royakkers, Mykola Pechenizkiy, (参考訳) フェアネス対応機械学習(Fair-ml)技術は、機械学習モデルの予測によって影響を受ける個人が公平に扱われるように設計されたアルゴリズムによる介入である。 問題はしばしば最適化問題として提起され、その目的は量的公正性制約の下で高い予測性能を達成することである。 しかし、fair-mlアルゴリズムを設計しようとする試みは、グッドハートの法則が例外を持つ世界を仮定しなければならない。 本稿では、公正度尺度はグッドハートの法則に特に敏感であると主張する。 主な貢献は以下の通りである。 まず,公正度尺度の正当性に関する道徳的推論の枠組みを提案する。 既存の研究とは対照的に,我々の枠組みは,結果の分布が公平であるか否かは,不平等の原因だけでなく,モラルクレーム決定対象が特定の利益を得たり,負担を回避しなければならないかにも依存する,という信念を取り入れている。 我々は、特定の公正度が結果の公平な分布に対応するという道徳的および経験的な仮定を排除するために、この枠組みを使用する。 第2に,Hardt et al (2016) が導入したfair-mlアルゴリズムによって,fair-mlアルゴリズムの制約としてfairnessメトリックが道徳的に正当である範囲について検討する。 フェアネスメトリックをフェアmlアルゴリズムで強制することは、しばしばその使用を動機づける結果の公平な分布をもたらしず、介入が保護することを意図した個人にも害を与える可能性があることを説明します。

Fairness-aware machine learning (fair-ml) techniques are algorithmic interventions designed to ensure that individuals who are affected by the predictions of a machine learning model are treated fairly. The problem is often posed as an optimization problem, where the objective is to achieve high predictive performance under a quantitative fairness constraint. However, any attempt to design a fair-ml algorithm must assume a world where Goodhart's law has an exception: when a fairness measure becomes an optimization constraint, it does not cease to be a good measure. In this paper, we argue that fairness measures are particularly sensitive to Goodhart's law. Our main contributions are as follows. First, we present a framework for moral reasoning about the justification of fairness metrics. In contrast to existing work, our framework incorporates the belief that whether a distribution of outcomes is fair, depends not only on the cause of inequalities but also on what moral claims decision subjects have to receive a particular benefit or avoid a burden. We use the framework to distil moral and empirical assumptions under which particular fairness metrics correspond to a fair distribution of outcomes. Second, we explore the extent to which employing fairness metrics as a constraint in a fair-ml algorithm is morally justifiable, exemplified by the fair-ml algorithm introduced by Hardt et al. (2016). We illustrate that enforcing a fairness metric through a fair-ml algorithm often does not result in the fair distribution of outcomes that motivated its use and can even harm the individuals the intervention was intended to protect.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# タスク同期リカレントニューラルネットワーク

Task-Synchronized Recurrent Neural Networks ( http://arxiv.org/abs/2204.05192v2 )

ライセンス: Link先を確認
Mantas Lukoševičius, Arnas Uselis, (参考訳) データは時間内に不規則にサンプリングされることが多い。 これに対処するためには、リカレントニューラルネットワーク(RNN)を使用して、従来は事実を無視し、時間差を追加入力として供給したり、データを再サンプリングする必要があった。 これらの手法には欠点がある。 我々は、データやタスクの時間と一致するように、RNNを効果的に再サンプリングするエレガントな代替手法を提案する。 ソリューションの基盤として,Echo State Network (ESN) と Gated Recurrent Unit (GRU) を使用しています。 このようなRNNは連続時間力学系の離散化と見なすことができ、これは我々のアプローチに確かな理論的根拠を与える。 タスク同期 ESN (TSESN) と GRU (TSGRU) のモデルでは,通常のモデルに比べてトレーニングやパラメータチューニング,あるいは計算(微分方程式や補間データの解法)を必要とせず,本来の効率を維持することができる。 我々は、我々のモデルがデータの時間的非均一性を効果的に補償できることを実証的に確認し、データ再サンプリング、古典的RNN法、およびいくつかの実世界の非一様時間データセットの時間的不均一性を扱うために提案された代替RNNモデルと比較することを実証した。 私たちはhttps://github.com/oshapio/task-synchronized-RNNsでコードをオープンソース化しました。

Data are often sampled irregularly in time. Dealing with this using Recurrent Neural Networks (RNNs) traditionally involved ignoring the fact, feeding the time differences as additional inputs, or resampling the data. All these methods have their shortcomings. We propose an elegant straightforward alternative approach where instead the RNN is in effect resampled in time to match the time of the data or the task at hand. We use Echo State Network (ESN) and Gated Recurrent Unit (GRU) as the basis for our solution. Such RNNs can be seen as discretizations of continuous-time dynamical systems, which gives a solid theoretical ground to our approach. Our Task-Synchronized ESN (TSESN) and GRU (TSGRU) models allow for a direct model time setting and require no additional training, parameter tuning, or computation (solving differential equations or interpolating data) compared to their regular counterparts, thus retaining their original efficiency. We confirm empirically that our models can effectively compensate for the time-non-uniformity of the data and demonstrate that they compare favorably to data resampling, classical RNN methods, and alternative RNN models proposed to deal with time irregularities on several real-world nonuniform-time datasets. We open-source the code at https://github.com/oshapio/task-synchronized-RNNs .
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界

Logarithmic regret bounds for continuous-time average-reward Markov decision processes ( http://arxiv.org/abs/2205.11168v4 )

ライセンス: Link先を確認
Xuefeng Gao, Xun Yu Zhou, (参考訳) 本研究では,連続時間マルコフ決定過程(MDP)の無限水平平均回帰設定における強化学習について検討する。 離散時間 MDP とは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持された時間にそこに留まる。 未知の遷移確率と指数的保持時間率により、時間地平線における対数的な、インスタンス依存の後悔の低い境界を導出する。 さらに、学習アルゴリズムを設計し、対数的成長率を達成する有限時間後悔境界を確立する。 本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。

We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# Slim-neck by GSConv:リアルタイム検出器アーキテクチャのための軽量設計

Slim-neck by GSConv: A lightweight-design for real-time detector architectures ( http://arxiv.org/abs/2206.02424v3 )

ライセンス: Link先を確認
Hulin Li, Jun Li, Hanbing Wei, Zheng Liu, Zhenfei Zhan, Qiliang Ren, (参考訳) リアルタイム物体検出は、産業や研究分野において重要である。 エッジデバイスでは、巨大モデルはリアルタイム検出要求を達成することは困難であり、多くの深さ分離可能な畳み込みモデルから構築された軽量モデルでは十分な精度が得られなかった。 本稿では,新しい軽量畳み込み手法であるGSConvを導入し,モデルの軽量化と精度の向上を図る。 GSConvは精度と速度のトレードオフに優れています。 さらに,GSConv, Slim-Neck (SNs) に基づく設計提案を行い, リアルタイム検出器の計算コスト効率の向上を図る。 SNsの有効性は20セット以上の実験で実証された。 特に、SNによって改善されたリアルタイム検出器は、ベースラインと比較して、SODA10Mの最先端(Tesla T4で約100FPSの速度で70.9%のAP50)を得る。 コードはhttps://github.com/alanli1997/slim-neck-by-gsconvで公開されている。

Real-time object detection is significant for industrial and research fields. On edge devices, a giant model is difficult to achieve the real-time detecting requirement and a lightweight model built from a large number of the depth-wise separable convolutional could not achieve the sufficient accuracy. We introduce a new lightweight convolutional technique, GSConv, to lighten the model but maintain the accuracy. The GSConv accomplishes an excellent trade-off between the accuracy and speed. Furthermore, we provide a design suggestion based on the GSConv, Slim-Neck (SNs), to achieve a higher computational cost-effectiveness of the real-time detectors. The effectiveness of the SNs was robustly demonstrated in over twenty sets comparative experiments. In particular, the real-time detectors of ameliorated by the SNs obtain the state-of-the-art (70.9% AP50 for the SODA10M at a speed of ~ 100FPS on a Tesla T4) compared with the baselines. Code is available at https://github.com/alanli1997/slim-neck-by-gsconv
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# 準同型オートエンコーダ-観測された遷移からの群構造表現の学習

Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions ( http://arxiv.org/abs/2207.12067v3 )

ライセンス: Link先を確認
Hamza Keurti, Hsiao-Ru Pan, Michel Besserve, Benjamin F. Grewe, Bernhard Schölkopf, (参考訳) エージェントが現実世界との相互作用を検証的に表現する内部モデルをどのように学習するかは、ほとんどオープンな問題である。 機械学習は観察的だけでなく介入的知識も含む表現へと向かっているため、表現学習やグループ理論のツールを用いてこの問題を研究する。 本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。 我々は、その潜在空間に作用する群表現を備えたオートエンコーダを用い、同分散損失を用いて訓練し、群表現に適切な準同型性を強制する。 既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。 提案手法は理論的に動機付け,行動の群表現を学習できることを実証的に示し,環境に適応した変換の集合の構造を捉える。 さらに,これによってエージェントは,将来的な行動のシーケンスの効果を精度良く予測できることを示す。

How can agents learn internal models that veridically represent interactions with the real world is a largely open question. As machine learning is moving towards representations containing not just observational but also interventional knowledge, we study this problem using tools from representation learning and group theory. We propose methods enabling an agent acting upon the world to learn internal representations of sensory information that are consistent with actions that modify it. We use an autoencoder equipped with a group representation acting on its latent space, trained using an equivariance-derived loss in order to enforce a suitable homomorphism property on the group representation. In contrast to existing work, our approach does not require prior knowledge of the group and does not restrict the set of actions the agent can perform. We motivate our method theoretically, and show empirically that it can learn a group representation of the actions, thereby capturing the structure of the set of transformations applied to the environment. We further show that this allows agents to predict the effect of sequences of future actions with improved accuracy.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# Uformer-ICS:画像圧縮センシングサービス用U字型トランス

Uformer-ICS: A U-Shaped Transformer for Image Compressive Sensing Service ( http://arxiv.org/abs/2209.01763v2 )

ライセンス: Link先を確認
Kuiyuan Zhang, Zhongyun Hua, Yuanman Li, Yushu Zhang, Yicong Zhou, (参考訳) 多くのサービスコンピューティングアプリケーションは、複数のデバイスからのリアルタイムデータセット収集を必要とし、帯域幅とストレージの圧力を減らすために効率的なサンプリング技術を必要とする。 圧縮センシング(CS)は画像の取得と再構成に広く応用されている。 近年,CSタスクに多くのディープラーニング手法が導入されている。 しかし、特にサンプリングレートの低い場合には、計測による画像の正確な再構成は重要な課題である。 本稿では,CSの内部特性をトランスアーキテクチャに導入することにより,画像CSタスクのための新しいU字型変換器としてUformer-ICSを提案する。 画像ブロックの不均一な間隔分布を利用するために,推定ブロック間隔に基づいて測定資源を割り当てる適応サンプリングアーキテクチャを設計し,圧縮された結果が元の画像から最大情報を保持できるようにする。 さらに,従来のCS最適化手法にインスパイアされたマルチチャネルプロジェクション(MCP)モジュールを導入する。 MCPモジュールをトランスブロックに統合することにより、プロジェクションベースのトランスフォーマーブロックを構築し、これらのブロックと残差畳み込みブロックを用いて対称再構成モデルを構築する。 したがって,画像の局所的特徴と長距離依存性と,CS理論の事前予測知識を同時に利用することができる。 実験により, 最先端の深層学習に基づくCS法に比べて, 再構成性能が有意に向上した。

Many service computing applications require real-time dataset collection from multiple devices, necessitating efficient sampling techniques to reduce bandwidth and storage pressure. Compressive sensing (CS) has found wide-ranging applications in image acquisition and reconstruction. Recently, numerous deep-learning methods have been introduced for CS tasks. However, the accurate reconstruction of images from measurements remains a significant challenge, especially at low sampling rates. In this paper, we propose Uformer-ICS as a novel U-shaped transformer for image CS tasks by introducing inner characteristics of CS into transformer architecture. To utilize the uneven sparsity distribution of image blocks, we design an adaptive sampling architecture that allocates measurement resources based on the estimated block sparsity, allowing the compressed results to retain maximum information from the original image. Additionally, we introduce a multi-channel projection (MCP) module inspired by traditional CS optimization methods. By integrating the MCP module into the transformer blocks, we construct projection-based transformer blocks, and then form a symmetrical reconstruction model using these blocks and residual convolutional blocks. Therefore, our reconstruction model can simultaneously utilize the local features and long-range dependencies of image, and the prior projection knowledge of CS theory. Experimental results demonstrate its significantly better reconstruction performance than state-of-the-art deep learning-based CS methods.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# 回転測定による格子型量子アドバンテージ

Lattice-Based Quantum Advantage from Rotated Measurements ( http://arxiv.org/abs/2210.10143v3 )

ライセンス: Link先を確認
Yusuf Alnawakhtha, Atul Mantri, Carl A. Miller, Daochen Wang, (参考訳) Trapdoor Claw-free Function (TCF) は、古典的なクライアントと量子サーバーの間の暗号化相互作用において非常に有用である。 通常、プロトコルは、量子サーバーに爪の2ビット文字列の重ね合わせを作成し、それをPauli-$X$または$Z$で測定する。 本稿では,XY$-planeの量子ビット測定範囲全体を用いた新しい手法について紹介する。 このアプローチの利点を2つのアプリケーションで示します。 まず、(Brakerski et al 2018, Kalai et al 2022)に基づいて、LWE問題(エラーを伴う学習)の難しさの観点から、セキュリティを直接表現できる量子性の最適化された2ラウンドの証明を示す。 第2に、任意の状態の視覚的遠隔準備のための1ラウンドのプロトコルを、Pauli-Z$修正まで$XY$平面上に構築する。

Trapdoor claw-free functions (TCFs) are immensely valuable in cryptographic interactions between a classical client and a quantum server. Typically, a protocol has the quantum server prepare a superposition of two-bit strings of a claw and then measure it using Pauli-$X$ or $Z$ measurements. In this paper, we demonstrate a new technique that uses the entire range of qubit measurements from the $XY$-plane. We show the advantage of this approach in two applications. First, building on (Brakerski et al. 2018, Kalai et al. 2022), we show an optimized two-round proof of quantumness whose security can be expressed directly in terms of the hardness of the LWE (learning with errors) problem. Second, we construct a one-round protocol for blind remote preparation of an arbitrary state on the $XY$-plane up to a Pauli-$Z$ correction.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# マヨラナ表面符号の新しいツイスト:フォールトトレラント量子計算におけるボソニックおよびフェルミオン欠陥

A new twist on the Majorana surface code: Bosonic and fermionic defects for fault-tolerant quantum computation ( http://arxiv.org/abs/2211.11777v4 )

ライセンス: Link先を確認
Campbell McLauchlan, Benjamin Béri, (参考訳) マヨラナゼロモード(MZM)は、トポロジカルに保護された量子コンピューティングハードウェアの候補として期待されているが、大規模な使用は量子エラーの修正を必要とする可能性が高い。 マヨラナ表面符号(MSC)は、これを実現するために提案されている。 しかし、多くのMSC特性は未解明のままである。 我々は,MSC の "twist defects" $\unicode{x2013}$ anyon-like objects に対する統一的なフレームワークを提案する。 我々は,MSCのツイスト欠陥が,量子ビットベースの符号や他のMSC符号化方式のように,位相的に保護された情報の2倍の量を符号化できることを示した。 これは、論理量子ビットと「論理的MZM」の両方をコードするツイストが原因であり、後者は保護顕微鏡のMZMが提供できるように拡張する。 論理量子ビットと論理的MZMを用いて普遍計算を行う方法を説明する。 すべてのクリフォードゲートは、ツイスト欠陥をブレイディングすることによって論理キュービットに実装することができる。 我々は,論理的MZMと論理的量子ビットを用いた格子サージェリーに基づく計算手法を導入し,時間オーバーヘッドゼロのクリフォードゲートの効果を実現する。 また,MZMsの空間的オーバーヘッドが改善し,準粒子中毒の発生率が十分に低下することが示唆された。 最後に、マイクロMZMをブレイディングすることで、小さな符号でクリフォードゲートを符号化するトランスバーサルゲートのMSCアナログを導入する。 これにより、MSCツイスト欠陥は、フォールトトレラント量子計算への新たな道を開く。

Majorana zero modes (MZMs) are promising candidates for topologically-protected quantum computing hardware, however their large-scale use will likely require quantum error correction. Majorana surface codes (MSCs) have been proposed to achieve this. However, many MSC properties remain unexplored. We present a unified framework for MSC "twist defects" $\unicode{x2013}$ anyon-like objects encoding quantum information. We show that twist defects in MSCs can encode twice the amount of topologically protected information as in qubit-based codes or other MSC encoding schemes. This is due to twists encoding both logical qubits and "logical MZMs," with the latter enhancing the protection microscopic MZMs can offer. We explain how to perform universal computation with logical qubits and logical MZMs while potentially using far fewer resources than in other MSC schemes. All Clifford gates can be implemented on logical qubits by braiding twist defects. We introduce lattice-surgery-based techniques for computing with logical MZMs and logical qubits, achieving the effect of Clifford gates with zero time overhead. We also show that logical MZMs may result in improved spatial overheads for sufficiently low rates of quasi-particle poisoning. Finally, we introduce a novel MSC analogue of transversal gates that achieves encoded Clifford gates in small codes by braiding microscopic MZMs. MSC twist defects thus open new paths towards fault-tolerant quantum computation.
翻訳日:2024-07-04 10:36:26 公開日:2024-07-02
# Min-Max-Jump 距離とその応用

Min-Max-Jump distance and its applications ( http://arxiv.org/abs/2301.05994v6 )

ライセンス: Link先を確認
Gangli Liu, (参考訳) 我々は,Min-Max-Jump distance (MMJ distance) の3つの応用について検討する。 MMJベースのK平均は、K平均をMMJ距離で修正する。 MMJに基づくシルエット係数は、Silhouette係数をMMJ距離で補正する。 また,MMJに基づくシルエット係数を用いたClustering with Neural Network and Index (CNNI)モデルについても検討した。 前回のアプリケーションでは、データのクラスタリング分析の後、Min-Max-Jump 距離を用いて新しい点のラベルを予測した。 結果から,Min-Max-Jump 距離は提案した3つのアプリケーションすべてにおいて良好な性能を示した。 さらに,距離の計算や推定を行うアルゴリズムを考案した。

We explore three applications of Min-Max-Jump distance (MMJ distance). MMJ-based K-means revises K-means with MMJ distance. MMJ-based Silhouette coefficient revises Silhouette coefficient with MMJ distance. We also tested the Clustering with Neural Network and Index (CNNI) model with MMJ-based Silhouette coefficient. In the last application, we tested using Min-Max-Jump distance for predicting labels of new points, after a clustering analysis of data. Result shows Min-Max-Jump distance achieves good performances in all the three proposed applications. In addition, we devise several algorithms for calculating or estimating the distance.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# Motion-Guided Deformable Alignment と Multi-Resolution Fusion を用いた心血管MRIの再建

Reconstruction of Cardiac Cine MRI Using Motion-Guided Deformable Alignment and Multi-Resolution Fusion ( http://arxiv.org/abs/2303.04968v4 )

ライセンス: Link先を確認
Xiaoxiang Han, Yang Chen, Qiaohong Liu, Yiman Liu, Keyan Chen, Yuanjie Lin, Weikun Zhang, (参考訳) 心臓血管MRIは心機能と血管の異常を評価する重要な手段の1つである。 高品質な画像を得るために, 画像再構成と心血管MRI取得の促進にともなう工芸品の移動が重要である。 心血管MRIの再構成を改善するために,新しいエンド・ツー・エンド深層学習ネットワークを開発した。 まず、初期再構成画像をk空間で取得するためにU-Netを採用する。 さらに、運動アーティファクトを除去するために、運動誘導変形性アライメント(MGDA)モジュールを2階の双方向伝搬で導入し、空間的時間的情報を最大化し、運動アーティファクトを緩和することにより、隣接するシネMRIフレームをアライメントする。 最後に、多分解能核融合(MRF)モジュールは、アライメント操作から発生するぼかしやアーティファクトを補正し、最後の高品質な心画像を得るように設計されている。 8$\times$Accelerration rateでは、ACDCデータセットの数値は78.40%$\pm$.57%の構造類似度指数(SSIM)、ピーク信号対雑音比(PSNR)30.46$\pm$1.22dB、正規化平均二乗誤差(NMSE)0.00468$\pm$0.0075である。 ACMRIデータセットでは、SSIMは87.65%$\pm$4.20%、PSNRは30.04$\pm$1.18dB、NMSEは0.0473$\pm$0.0072である。 提案手法は, よりリッチな細部と, 異なる加速度による心血管MRI再建のためのアーティファクトの少ない高品質な結果を示す。

Cardiac cine magnetic resonance imaging (MRI) is one of the important means to assess cardiac functions and vascular abnormalities. Mitigating artifacts arising during image reconstruction and accelerating cardiac cine MRI acquisition to obtain high-quality images is important. A novel end-to-end deep learning network is developed to improve cardiac cine MRI reconstruction. First, a U-Net is adopted to obtain the initial reconstructed images in k-space. Further to remove the motion artifacts, the motion-guided deformable alignment (MGDA) module with second-order bidirectional propagation is introduced to align the adjacent cine MRI frames by maximizing spatial-temporal information to alleviate motion artifacts. Finally, the multi-resolution fusion (MRF) module is designed to correct the blur and artifacts generated from alignment operation and obtain the last high-quality reconstructed cardiac images. At an 8$\times$ acceleration rate, the numerical measurements on the ACDC dataset are structural similarity index (SSIM) of 78.40%$\pm$.57%, peak signal-to-noise ratio (PSNR) of 30.46$\pm$1.22dB, and normalized mean squared error (NMSE) of 0.0468$\pm$0.0075. On the ACMRI dataset, the results are SSIM of 87.65%$\pm$4.20%, PSNR of 30.04$\pm$1.18dB, and NMSE of 0.0473$\pm$0.0072. The proposed method exhibits high-quality results with richer details and fewer artifacts for cardiac cine MRI reconstruction on different accelerations.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# II型サドルと確率勾配の確率安定性

Type-II Saddles and Probabilistic Stability of Stochastic Gradient Descent ( http://arxiv.org/abs/2303.13093v4 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda, (参考訳) サドル点周辺の確率勾配降下(SGD)の力学を特徴づけ、理解することは、未解決の問題である。 まず、ニューラルネットワークのサドル点を2つのタイプに分けることができ、その中でタイプIIサドルは、勾配ノイズがサドルで消えてしまうため、特に脱出が困難であることを示す。 これらのサドル周りのSGDのダイナミクスは、ランダムな行列積過程によって記述される主次数であり、確率安定性の概念と関連するリャプノフ指数を用いて、これらのサドル周辺のSGDのダイナミクスを研究することは自然である。 理論的には、SGDのダイナミクスの研究とエルゴード理論のよく知られた概念を結びつけ、サドル点がSGDに対して魅力的か反発的であるかを示し、そのダイナミクスはサドルに近い勾配の信号-雑音比に応じて4つの異なる位相に分類できる。

Characterizing and understanding the dynamics of stochastic gradient descent (SGD) around saddle points remains an open problem. We first show that saddle points in neural networks can be divided into two types, among which the Type-II saddles are especially difficult to escape from because the gradient noise vanishes at the saddle. The dynamics of SGD around these saddles are thus to leading order described by a random matrix product process, and it is thus natural to study the dynamics of SGD around these saddles using the notion of probabilistic stability and the related Lyapunov exponent. Theoretically, we link the study of SGD dynamics to well-known concepts in ergodic theory, which we leverage to show that saddle points can be either attractive or repulsive for SGD, and its dynamics can be classified into four different phases, depending on the signal-to-noise ratio in the gradient close to the saddle.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# インスタント光現実性ニューラルラジアンス場スチル化

Instant Photorealistic Neural Radiance Fields Stylization ( http://arxiv.org/abs/2303.16884v2 )

ライセンス: Link先を確認
Shaoxu Li, Ye Pan, (参考訳) Instant Neural Radiance Fields Stylizationは3Dシーンのマルチビュー画像スタイリングのための新しいアプローチである。 我々のアプローチは、位置埋め込みにハッシュテーブルベースの位置エンコーダを使用するニューラルネットワークプリミティブに基づく神経放射場をモデル化する。 位置エンコーダをコンテンツとスタイルのサブブランチの2つの部分に分割し、コンテンツとスタイルのターゲットで通常の新しいビュー画像合成のためにネットワークをトレーニングした。 推論段階では、位置エンコーダの出力特徴に対してAdaINを実行し、コンテンツとスタイルのボクセルグリッドを参照として表示する。 調整された特徴により、新しいビューイメージのスタイリゼーションが得られる。 本手法は,スタイルイメージからシーンのイメージセットまでスタイルターゲットを拡張し,スタイル化のための追加のネットワークトレーニングを必要としない。 3Dシーンのセットとスタイルターゲット(スタイルイメージまたは他の3Dシーンのセット)が与えられた場合、最新のGPUハードウェア上で10分以内で、様々な角度で一貫した外観でスタイリングされた斬新なビューを生成できる。 その結果,本手法の有効性と優位性を示した。

We present Instant Neural Radiance Fields Stylization, a novel approach for multi-view image stylization for the 3D scene. Our approach models a neural radiance field based on neural graphics primitives, which use a hash table-based position encoder for position embedding. We split the position encoder into two parts, the content and style sub-branches, and train the network for normal novel view image synthesis with the content and style targets. In the inference stage, we execute AdaIN to the output features of the position encoder, with content and style voxel grid features as reference. With the adjusted features, the stylization of novel view images could be obtained. Our method extends the style target from style images to image sets of scenes and does not require additional network training for stylization. Given a set of images of 3D scenes and a style target(a style image or another set of 3D scenes), our method can generate stylized novel views with a consistent appearance at various view angles in less than 10 minutes on modern GPU hardware. Extensive experimental results demonstrate the validity and superiority of our method.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# 医用画像分類のためのユニバーサル半教師付き学習

Universal Semi-Supervised Learning for Medical Image Classification ( http://arxiv.org/abs/2304.04059v2 )

ライセンス: Link先を確認
Lie Ju, Yicheng Wu, Wei Feng, Zhen Yu, Lin Wang, Zhuoting Zhu, Zongyuan Ge, (参考訳) 半教師付き学習(SSL)は、特にディープラーニング手法において、適切なラベル付きトレーニングデータを収集するコストを削減できるため、多くの注目を集めている。 しかし、従来のSSLは、ラベル付きデータとラベルなしデータは、同じ分布 \textit{e g ,} クラスとドメインのものであるべきだという仮定に基づいて構築されている。 しかし、実際のシナリオでは、ラベルなしデータは未確認のクラスや未確認のドメインからのものであり、既存のSSLメソッドでそれらを活用することは依然として困難である。 そこで本稿では,この未表示データを利用した半教師付き医療画像分類のための統一的な枠組みを提案する。 まず,両経路外乱推定と呼ばれる新しいスコアリング機構を設計し,未知のクラスからサンプルを同定する。 一方、未確認領域のサンプルを抽出するために、有効な変分オートエンコーダ(VAE)プリトレーニングを適用する。 その後、検出された未確認領域のサンプルの価値を完全に活用し、半教師付きトレーニングを促進するためにドメイン適応を行う。 提案する皮膚科・眼科領域の枠組みについて検討した。 広範囲な実験により、医療用SSLシナリオにおいて、より優れた分類性能が得られることが実証された。 コードの実装は、https://github.com/PyJulie/USSL4MICでアクセスできます。

Semi-supervised learning (SSL) has attracted much attention since it reduces the expensive costs of collecting adequate well-labeled training data, especially for deep learning methods. However, traditional SSL is built upon an assumption that labeled and unlabeled data should be from the same distribution \textit{e.g.,} classes and domains. However, in practical scenarios, unlabeled data would be from unseen classes or unseen domains, and it is still challenging to exploit them by existing SSL methods. Therefore, in this paper, we proposed a unified framework to leverage these unseen unlabeled data for open-scenario semi-supervised medical image classification. We first design a novel scoring mechanism, called dual-path outliers estimation, to identify samples from unseen classes. Meanwhile, to extract unseen-domain samples, we then apply an effective variational autoencoder (VAE) pre-training. After that, we conduct domain adaptation to fully exploit the value of the detected unseen-domain samples to boost semi-supervised training. We evaluated our proposed framework on dermatology and ophthalmology tasks. Extensive experiments demonstrate our model can achieve superior classification performance in various medical SSL scenarios. The code implementations are accessible at: https://github.com/PyJulie/USSL4MIC.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# 漢文LM:日本語の言語モデルによる古典中国語の読解・翻訳

Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models ( http://arxiv.org/abs/2305.12759v2 )

ライセンス: Link先を確認
Hao Wang, Hirofumi Shimizu, Daisuke Kawahara, (参考訳) 自然言語処理(NLP)の最近の研究は、現代の言語に焦点を合わせ、多くのタスクにおいて最先端の結果を得た。 一方、古文書や関連業務にはほとんど注意が払われていない。 古典中国語は、約2000年前に日本に初めて来日した。 日本語の読解法や翻訳法において、次第に漢文訓読(かんぶんくんどく、かんぶん)と呼ばれる日本語形式に適応し、日本文学に大きな影響を与えた。 しかし、中国本土の古文書の豊富な資料に比べ、日本の漢文資料は乏しい。 そこで本研究では,この問題を解決するために,世界初となる古典漢文データセットを構築した。 さらに、漢字の並べ替えと機械翻訳という2つのタスクを導入し、どちらも漢文理解において重要な役割を担っている。 また、これらの課題に対して現在の言語モデルをテストするとともに、結果と人間のスコアを比較して、最良の評価方法について議論する。 コードとデータセットはGitHubでリリースしています。

Recent studies in natural language processing (NLP) have focused on modern languages and achieved state-of-the-art results in many tasks. Meanwhile, little attention has been paid to ancient texts and related tasks. Classical Chinese first came to Japan approximately 2,000 years ago. It was gradually adapted to a Japanese form called Kanbun-Kundoku (Kanbun) in Japanese reading and translating methods, which has significantly impacted Japanese literature. However, compared to the rich resources for ancient texts in mainland China, Kanbun resources remain scarce in Japan. To solve this problem, we construct the first Classical-Chinese-to-Kanbun dataset in the world. Furthermore, we introduce two tasks, character reordering and machine translation, both of which play a significant role in Kanbun comprehension. We also test the current language models on these tasks and discuss the best evaluation method by comparing the results with human scores. We release our code and dataset on GitHub.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# VDD: セマンティックセグメンテーションのための空のドローンデータセット

VDD: Varied Drone Dataset for Semantic Segmentation ( http://arxiv.org/abs/2305.13608v3 )

ライセンス: Link先を確認
Wenxiao Cai, Ke Jin, Jinyan Hou, Cong Guo, Letian Wu, Wankou Yang, (参考訳) ドローン画像のセマンティックセグメンテーションは、地上のシーンを理解するための重要なセマンティックな詳細を提供するため、様々な空中視覚タスクに不可欠である。 ドローンのセマンティックセグメンテーションモデルの高精度を保証するには、多種多様で大規模で高解像度なデータセットへのアクセスが必要である。 既存のデータセットは通常都市部のシーンに焦点を当て、比較的小さいが、Varied Drone Dataset(VDD)は7つのクラスにまたがる400の高解像度画像の大規模かつ密にラベル付けされたコレクションを提供することによって、これらの制限に対処する。 このデータセットは、様々なカメラアングルから撮影され、様々な照明条件の下で都市、工業、農村、自然のエリアで様々なシーンを特徴としている。 また、UDDおよびUAVidに対する新たなアノテーションを作成し、VDDアノテーション標準の下で統合し、IDD(Integrated Drone Dataset)を作成する。 私たちは、ドローンデータセットをベースラインとして7つの最先端モデルをトレーニングします。 私たちのデータセットは、ドローンイメージのセグメンテーションにかなりの関心を惹き、他のドローンビジョンタスクの基盤として機能することが期待されています。 データセットは \href{our website}{https://github.com/RussRobin/VDD} で公開されている。

Semantic segmentation of drone images is critical for various aerial vision tasks as it provides essential semantic details to understand scenes on the ground. Ensuring high accuracy of semantic segmentation models for drones requires access to diverse, large-scale, and high-resolution datasets, which are often scarce in the field of aerial image processing. While existing datasets typically focus on urban scenes and are relatively small, our Varied Drone Dataset (VDD) addresses these limitations by offering a large-scale, densely labeled collection of 400 high-resolution images spanning 7 classes. This dataset features various scenes in urban, industrial, rural, and natural areas, captured from different camera angles and under diverse lighting conditions. We also make new annotations to UDD and UAVid, integrating them under VDD annotation standards, to create the Integrated Drone Dataset (IDD). We train seven state-of-the-art models on drone datasets as baselines. It's expected that our dataset will generate considerable interest in drone image segmentation and serve as a foundation for other drone vision tasks. Datasets are publicly available at \href{our website}{https://github.com/RussRobin/VDD}.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# 知識の知識: 未知の未知を探索する 大規模言語モデルによる不確実性

Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models ( http://arxiv.org/abs/2305.13712v3 )

ライセンス: Link先を確認
Alfonso Amayuelas, Kyle Wong, Liangming Pan, Wenhu Chen, William Wang, (参考訳) 本稿では,Large Language Models (LLMs) の知識の理解と質問に対する不確実性について考察する。 具体的には,不確定な回答がないことによる不確実性の高さを特徴とする,未知の疑問に対処することに焦点を当てる。 そこで我々は,KUQ(Known-Unknown Questions)を用いた新しいデータセットを収集し,クエリの不確実性の起源を明らかにするための分類フレームワークを構築した。 その後、このデータセットを用いて微調整したオープンソースのLCMの性能について検討し、オープンエンド質問応答シナリオにおける未知クエリと未知クエリを区別する。 微調整されたモデルは大幅に改善され、F1スコアは前微調整状態と比較して大幅に向上した。 包括的分析を通じて,モデルの改良された不確実性明瞭化とその結果としての有効性に関する洞察を,マルチエージェント討論において明らかにする。 これらの知見は、LCMが不確実性を識別し、表現するためにどのように訓練されるかを理解するのに役立ち、それらが複雑な情報や不確実な情報をどう理解し、どのように表現するかについての知識を改善するのに役立ちます。

This paper investigates the capabilities of Large Language Models (LLMs) in the context of understanding their knowledge and uncertainty over questions. Specifically, we focus on addressing known-unknown questions, characterized by high uncertainty due to the absence of definitive answers. To facilitate our study, we collect a new dataset with Known-Unknown Questions (KUQ) and establish a categorization framework to clarify the origins of uncertainty in such queries. Subsequently, we examine the performance of open-source LLMs, fine-tuned using this dataset, in distinguishing between known and unknown queries within open-ended question-answering scenarios. The fine-tuned models demonstrated a significant improvement, achieving a considerable increase in F1-score relative to their pre-fine-tuning state. Through a comprehensive analysis, we reveal insights into the models' improved uncertainty articulation and their consequent efficacy in multi-agent debates. These findings help us understand how LLMs can be trained to identify and express uncertainty, improving our knowledge of how they understand and express complex or unclear information.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# プライベートファインチューニングのための選択的事前学習

Selective Pre-training for Private Fine-tuning ( http://arxiv.org/abs/2305.13865v3 )

ライセンス: Link先を確認
Da Yu, Sivakanth Gopi, Janardhan Kulkarni, Zinan Lin, Saurabh Naik, Tomasz Lukasz Religa, Jian Yin, Huishuai Zhang, (参考訳) テキスト予測モデルは、電子メールクライアントやワードプロセッサなどのアプリケーションで使用される場合、ユーザのデータのプライバシ保護とモデルサイズ制約の遵守が必要です。 これらの制約は、メモリと推論時間要件を満たすとともに、推論コストを削減するために不可欠である。 小さく、速く、プライベートなドメイン固有言語モデルを構築することは、活発な研究分野である。 本研究では、プライベートデータセットによってガイドされる公開データセットのemph{subset}に対する注意深い事前トレーニングが、差分プライバシで小さな言語モデルをトレーニングするために重要であることを示す。 標準ベンチマークでは、我々の新しいフレームワークで訓練された小さなモデルは最先端のパフォーマンスを達成する。 性能改善に加えて,本研究の結果は,より小さなモデルにおいて,注意深い事前学習とプライベート微調整を行うことで,プライベートデータにアクセスできないより大規模なモデルの性能に匹敵することを示した。 このことは、モデル圧縮と効率の向上のためのプライベートラーニングの可能性を強調している。

Text prediction models, when used in applications like email clients or word processors, must protect user data privacy and adhere to model size constraints. These constraints are crucial to meet memory and inference time requirements, as well as to reduce inference costs. Building small, fast, and private domain-specific language models is a thriving area of research. In this work, we show that a careful pre-training on a \emph{subset} of the public dataset that is guided by the private dataset is crucial to train small language models with differential privacy. On standard benchmarks, small models trained with our new framework achieve state-of-the-art performance. In addition to performance improvements, our results demonstrate that smaller models, through careful pre-training and private fine-tuning, can match the performance of much larger models that do not have access to private data. This underscores the potential of private learning for model compression and enhanced efficiency.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# 量子力学における時間アローの起源

Origin of the Arrow of Time in Quantum Mechanics ( http://arxiv.org/abs/2305.15468v3 )

ライセンス: Link先を確認
Nemanja Kaloper, (参考訳) 時間矢印は、非常に多くの非退化状態と、下から有界なハミルトニアンを持つとき、量子力学的進化によって自然に引き起こされる。 もし${\cal N}$ が有限であれば、矢印は不完全であり、進化は過去の状態を復活させることができる。 極限${\cal N} \rightarrow \infty$ では、矢印は「歯の時間」によって固定される: 自発放出によって引き起こされる励起状態の基底状態への崩壊は、相互作用と無限大へのエネルギーと情報を運ぶ多数の崩壊生成物によって仲介される。 これは個々の孤立した原子に適用され、別個の大きなヒース浴とのカップリングを必要としない。

We point out that time's arrow is naturally induced by quantum mechanical evolution, whenever the systems have a very large number ${\cal N}$ of non-degenerate states and a Hamiltonian bounded from below. When ${\cal N}$ is finite, the arrow is imperfect, since evolution can resurrect past states. In the limit ${\cal N} \rightarrow \infty$ the arrow is fixed by the "tooth of time": the decay of excited states induced by {\it spontaneous emission} to the ground state, mediated by interactions and a large number of decay products which carry energy and information to infinity. This applies to individual isolated atoms, and does not require a coupling to a separate large heath bath.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# ECG分析のためのディープラーニングの解説 - 監査と知識発見のためのブロックの構築

Explaining Deep Learning for ECG Analysis: Building Blocks for Auditing and Knowledge Discovery ( http://arxiv.org/abs/2305.17043v2 )

ライセンス: Link先を確認
Patrick Wagner, Temesgen Mehari, Wilhelm Haverkamp, Nils Strodthoff, (参考訳) 深層ニューラルネットワークは、心臓の状態と隠れた臨床因子を正確に識別する能力から、心電図データの解析に人気が高まっている。 しかしながら、これらのモデルのブラックボックスの性質による透明性の欠如は、一般的な懸念である。 この問題に対処するためには、説明可能なAI(XAI)メソッドを用いることができる。 本研究では,局所的な(サンプル毎の貢献)とグローバルな(ドメインエキスパートの概念に基づく)視点を考察し,ポストホックなXAI手法の包括的分析を行う。 我々は,有能な帰属方法を特定するための一連の正当性チェックを確立し,専門家のルールに従って定量的な証拠を提供する。 このデータセット全体の分析は、患者のサブグループ間でデータを集約することで、逸話的な証拠を超える。 さらに、これらのXAI技術が、心筋梗塞のサブタイプを同定するなど、知識発見にどのように活用できるかを実証する。 本提案手法は,ECG解析の分野における知識発見だけでなく,認証プロセス中の内部妥当性を補完的に評価するためのビルディングブロックとして機能すると考えられる。

Deep neural networks have become increasingly popular for analyzing ECG data because of their ability to accurately identify cardiac conditions and hidden clinical factors. However, the lack of transparency due to the black box nature of these models is a common concern. To address this issue, explainable AI (XAI) methods can be employed. In this study, we present a comprehensive analysis of post-hoc XAI methods, investigating the local (attributions per sample) and global (based on domain expert concepts) perspectives. We have established a set of sanity checks to identify sensible attribution methods, and we provide quantitative evidence in accordance with expert rules. This dataset-wide analysis goes beyond anecdotal evidence by aggregating data across patient subgroups. Furthermore, we demonstrate how these XAI techniques can be utilized for knowledge discovery, such as identifying subtypes of myocardial infarction. We believe that these proposed methods can serve as building blocks for a complementary assessment of the internal validity during a certification process, as well as for knowledge discovery in the field of ECG analysis.
翻訳日:2024-07-04 08:40:09 公開日:2024-07-02
# 量子埋め込み型確率行列

Quantum-embeddable stochastic matrices ( http://arxiv.org/abs/2305.17163v2 )

ライセンス: Link先を確認
Fereshte Shahbeigi, Christopher T. Chubb, Ryszard Kukulski, Łukasz Pawela, Kamil Korzekwa, (参考訳) 古典的な埋め込み可能性問題は、与えられた確率行列$T$が、$d$レベルのシステムの遷移確率を記述することは、基礎となる同次連続時間マルコフ過程から生じるかどうかを問うものである。 ここでは、与えられた$T$で記述された状態遷移を生成するマルコフ量子チャネルの存在を問う、この問題の量子バージョンについて検討する。 より正確には、メモリレス連続時間量子進化から生じる量子埋め込み可能な確率行列の集合を特徴づけることを目指している。 この目的のために、この集合上の上界と下界の両方を導出し、量子埋め込み可能でないが古典埋め込み不可能な確率行列の新しい族と、量子埋め込み不可能な確率行列の族を提供する。 その結果、量子力学が許容される場合、大きな遷移行列はメモリレスモデルで説明できるが、古典的または量子的メモリレス力学では説明できないランダムプロセスのゼロではない測度も特定できることを示した。 最後に、量子埋め込み可能な極端確率行列(0と1のみの成分を含む)を完全に特徴づける。

The classical embeddability problem asks whether a given stochastic matrix $T$, describing transition probabilities of a $d$-level system, can arise from the underlying homogeneous continuous-time Markov process. Here, we investigate the quantum version of this problem, asking of the existence of a Markovian quantum channel generating state transitions described by a given $T$. More precisely, we aim at characterising the set of quantum-embeddable stochastic matrices that arise from memoryless continuous-time quantum evolution. To this end, we derive both upper and lower bounds on that set, providing new families of stochastic matrices that are quantum-embeddable but not classically-embeddable, as well as families of stochastic matrices that are not quantum-embeddable. As a result, we demonstrate that a larger set of transition matrices can be explained by memoryless models if the dynamics is allowed to be quantum, but we also identify a non-zero measure set of random processes that cannot be explained by either classical or quantum memoryless dynamics. Finally, we fully characterise extreme stochastic matrices (with entries given only by zeros and ones) that are quantum-embeddable.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 半デバイス非独立に量子時間相関を特徴づける

Semi-device-independently characterizing quantum temporal correlations ( http://arxiv.org/abs/2305.19548v3 )

ライセンス: Link先を確認
Shin-Liang Chen, Jens Eisert, (参考訳) 本研究では,初期量子状態が測定され,量子チャネルを介して送信され,最終的に測定される一般時間シナリオにおいて,量子時間相関を特徴づける枠組みを開発する。 このフレームワークは、システムや測定について、つまりデバイスに依存しない仮定を一切行いません。 しかし、半デバイス非依存の設定にさらなる制約を加えることができるほど、汎用性は十分である。 我々のフレームワークは、関連する量子デバイスが非文字化または部分的に特徴づけられた場合の時間的シナリオにおける量子認証の自然なツールとして機能する。 したがって、時間内に非シグナリングのさらなる制約を仮定すると、量子時間相関を特徴づけるのにも使えるし、関連する系の次元やランクの制約に上限があり、そこでは、局所的な隠れ変数モデルよりも真の量子分離を証明できる。 本稿では,時間的ベルの不等式の最大値違反の有界化,時間的ステアビリティの定量化,量子ランダム性アクセス符号の最大成功確率の有界化など,多くの応用について述べる。

We develop a framework for characterizing quantum temporal correlations in a general temporal scenario, in which an initial quantum state is measured, sent through a quantum channel, and finally measured again. This framework does not make any assumptions on the system nor on the measurements, namely, it is device-independent. It is versatile enough, however, to allow for the addition of further constraints in a semi-device-independent setting. Our framework serves as a natural tool for quantum certification in a temporal scenario when the quantum devices involved are uncharacterized or partially characterized. It can hence also be used for characterizing quantum temporal correlations when one assumes an additional constraint of no-signalling in time, there are upper bounds on the involved systems' dimensions, rank constraints -- for which we prove genuine quantum separations over local hidden variable models -- or further linear constraints. We present a number of applications, including bounding the maximal violation of temporal Bell inequalities, quantifying temporal steerability, bounding the maximum successful probability in quantum randomness access codes.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# ピアソン相関係数による量子系の全相関の定量化

Quantifying total correlations in quantum systems through the Pearson correlation coefficient ( http://arxiv.org/abs/2306.14458v3 )

ライセンス: Link先を確認
Spyros Tserkis, Syed M. Assad, Ping Koy Lam, Prineha Narang, (参考訳) 伝統的に、量子系内の総相関は、相対エントロピーや平方ノルムのような距離に基づく式によって定量化される。 これらの式は、量子状態が古典的相関と量子的相関の両方を含むことを示唆している。 本研究では,ピアソン相関係数を用いて相関関係を定量化する手法を提案する。 この方法を用いて、量子状態は古典的あるいは量子的な方法で相関できる、すなわち、この2つのケースは互いに排他的である、と論じる。 また、少なくとも2量子ビット系の場合、局所的に互換性のない観測可能なペア間の相関の分布は、システムが古典的あるいは量子的相関を含むかどうかについての洞察を与える。 最後に、量子系の相関が一般的なエントロピーの不確実性原理とどのように結びついているかを示す。

Conventionally, the total correlations within a quantum system are quantified through distance-based expressions such as the relative entropy or the square-norm. Those expressions imply that a quantum state can contain both classical and quantum correlations. In this work, we provide an alternative method to quantify the total correlations through the Pearson correlation coefficient. Using this method, we argue that a quantum state can be correlated in either a classical or a quantum way, i.e., the two cases are mutually exclusive. We also illustrate that, at least for the case of two-qubit systems, the distribution of the correlations among certain locally incompatible pairs of observables provides insight in regards to whether a system contains classical or quantum correlations. Finally, we show how correlations in quantum systems are connected to the general entropic uncertainty principle.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 原子ジョセフソン接合におけるシャピロステップ

Shapiro steps in driven atomic Josephson junctions ( http://arxiv.org/abs/2307.08743v2 )

ライセンス: Link先を確認
Vijay Pal Singh, Juan Polo, Ludwig Mathey, Luigi Amico, (参考訳) 2次元の原子雲とトンネル障壁を結合させることにより実現した原子ジョセフソン接合について検討した。 障壁を一定の速度で移動させることで、dcとacのジョセフソン配位は、それぞれジャンクションを横断するゼロ原子密度差と非ゼロ原子密度差によって特徴づけられる。 ここでは,上述の定数速度プロトコルに加えて,バリアの位置を周期的に駆動する場合に,システムに生じるダイナミクスを監視する。 我々は, 駆動超伝導ジョセフソン接合部で観測されたシャピロステップの類似したステップ状挙動を, 時間平均粒子不均衡が特徴とすることを示した。 基礎となる力学は渦とフォノンの励起の興味深い相互作用を示し、シャピロは渦成長の抑制によって誘導される。 古典場力学法を用いてシステムについて検討し, 駆動回路力学を用いて実験結果のベンチマークを行った。

We study driven atomic Josephson junctions realized by coupling two two-dimensional atomic clouds with a tunneling barrier. By moving the barrier at a constant velocity, dc and ac Josephson regimes are characterized by a zero and nonzero atomic density difference across the junction, respectively. Here, we monitor the dynamics resulting in the system when, in addition to the above constant velocity protocol, the position of the barrier is periodically driven. We demonstrate that the time-averaged particle imbalance features a step-like behavior that is the analog of Shapiro steps observed in driven superconducting Josephson junctions. The underlying dynamics reveals an intriguing interplay of the vortex and phonon excitations, where Shapiro steps are induced via suppression of vortex growth. We study the system with a classical-field dynamics method, and benchmark our findings with a driven circuit dynamics.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# レコメンデーションシステムにおける人気バイアスに関する調査

A Survey on Popularity Bias in Recommender Systems ( http://arxiv.org/abs/2308.01118v3 )

ライセンス: Link先を確認
Anastasiia Klimashevskaia, Dietmar Jannach, Mehdi Elahi, Christoph Trattner, (参考訳) レコメンダシステムは、パーソナライズされた方法で関連コンテンツを見つけるのに役立つ。 このようなシステムの主な期待の一つは、長い尾にあるアイテムの視認性、すなわちカタログ内のあまり知られていないアイテムの視認性を高めることができることである。 しかし、既存の研究は、今日のレコメンデーションアルゴリズムが人気バイアスを示すことが多いことを示唆している。 このようなバイアスは、短期的には消費者や提供者にとっての推奨事項の限られた価値に繋がるだけでなく、時間の経過とともに望ましくない強化効果を引き起こす可能性がある。 本稿では、人気バイアスの潜在的な原因について論じ、リコメンデータシステムにおける人気バイアスの検出、定量化、緩和のための既存のアプローチをレビューする。 そこで本調査では,文献で使用される計算指標の概要と,バイアス低減のための主要な技術的アプローチについて概説した。 さらに,本研究は,ほぼ完全に計算実験に基づいており,推奨項目に長期的項目を含めることの実践的効果について,特定の仮定に基づいている,という現状の文献を批判的に議論する。

Recommender systems help people find relevant content in a personalized way. One main promise of such systems is that they are able to increase the visibility of items in the long tail, i.e., the lesser-known items in a catalogue. Existing research, however, suggests that in many situations todays recommendation algorithms instead exhibit a popularity bias, meaning that they often focus on rather popular items in their recommendations. Such a bias may not only lead to the limited value of the recommendations for consumers and providers in the short run, but it may also cause undesired reinforcement effects over time. In this paper, we discuss the potential reasons for popularity bias and review existing approaches to detect, quantify and mitigate popularity bias in recommender systems. Our survey, therefore, includes both an overview of the computational metrics used in the literature as well as a review of the main technical approaches to reduce the bias. Furthermore, we critically discuss todays literature, where we observe that the research is almost entirely based on computational experiments and on certain assumptions regarding the practical effects of including long-tail items in the recommendations.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 量子状態トモグラフィーのためのユーザフレンドリーな信頼領域

User-friendly confidence regions for quantum state tomography ( http://arxiv.org/abs/2308.01851v3 )

ライセンス: Link先を確認
Carlos de Gois, Matthias Kleinmann, (参考訳) 量子状態トモグラフィーは実験データから量子状態を再構成する標準的な手法である。 有限統計学の体制では、実験データは量子状態に関する完全な情報を与えることはできない。 この限られた知識を表現する一般的な方法は、状態空間に信頼領域を提供することである。 従来、他の信頼領域が提案されていたが、実際的な関心を持つには不便すぎるか、一般的な測定方法に簡単に適用できないか、報告が難しいかのどちらかである。 ここでは、これらの問題を解決する信頼領域を構築し、それらが漸近的に最適なサンプルコストと現実的なパラメータに対する優れた性能を持つので、任意の測定スキームに適用でき、エルミート作用素の空間における楕円体によって記述することができる。 我々の構成はベクトルベルンシュタインの不等式に依存し、線形写像によって変換された多項サンプルの和のヒルベルト・シュミットノルム誤差を高い確率で有界とする。

Quantum state tomography is the standard technique for reconstructing a quantum state from experimental data. In the regime of finite statistics, experimental data cannot give perfect information about the quantum state. A common way to express this limited knowledge is by providing confidence regions in the state space. Though other confidence regions were previously proposed, they are either too wasteful to be of practical interest, cannot easily be applied to general measurement schemes, or are too difficult to report. Here we construct confidence regions that solve these issues, as they have an asymptotically optimal sample cost and good performance for realistic parameters, are applicable to any measurement scheme, and can be described by an ellipsoid in the space of Hermitian operators. Our construction relies on a vector Bernstein inequality and bounds with high probability the Hilbert-Schmidt norm error of sums of multinomial samples transformed by linear maps.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# LLMに基づく説明可能なフォールトローカライゼーションの定量的定性評価

A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization ( http://arxiv.org/abs/2308.05487v3 )

ライセンス: Link先を確認
Sungmin Kang, Gabin An, Shin Yoo, (参考訳) フォールトローカライゼーション(FL)は、開発者がコードのどの部分が機能しておらず、修正する必要があるかを識別しようとするもので、デバッグにおいて繰り返し発生する課題である。 開発者の負担を軽減するため、多くの自動FL技術が提案されている。 しかしながら、以前の研究では、既存のテクニックは提案された場所に対して合理的に提供できないため、開発者がこれらのテクニックを採用するのを妨げている、と指摘している。 そこで本研究では,大規模言語モデル(LLM)に基づくFL手法であるAutoFLを提案する。 AutoFLは、LLMに関数呼び出しを使用してリポジトリをナビゲートするよう促すため、大規模なソフトウェアリポジトリ上の障害を効果的にローカライズし、LLMコンテキスト長の制限を克服できる。 JavaとPythonの798の現実世界のバグに対する大規模な実験により、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。 さらに、開発者はAutoFLの生成した説明に対する印象についてインタビューを受け、開発者はAutoFLの自然言語の説明を概して好んでおり、多くのものではなく、いくつかの高品質な説明を読むことを好むことを示した。

Fault Localization (FL), in which a developer seeks to identify which part of the code is malfunctioning and needs to be fixed, is a recurring challenge in debugging. To reduce developer burden, many automated FL techniques have been proposed. However, prior work has noted that existing techniques fail to provide rationales for the suggested locations, hindering developer adoption of these techniques. With this in mind, we propose AutoFL, a Large Language Model (LLM)-based FL technique that generates an explanation of the bug along with a suggested fault location. AutoFL prompts an LLM to use function calls to navigate a repository, so that it can effectively localize faults over a large software repository and overcome the limit of the LLM context length. Extensive experiments on 798 real-world bugs in Java and Python reveal AutoFL improves method-level acc@1 by up to 233.3% over baselines. Furthermore, developers were interviewed on their impression of AutoFL-generated explanations, showing that developers generally liked the natural language explanations of AutoFL, and that they preferred reading a few, high-quality explanations instead of many.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 大型スキュー・ット・コプラモデルと日内等価リターンの非対称依存性

Large Skew-t Copula Models and Asymmetric Dependence in Intraday Equity Returns ( http://arxiv.org/abs/2308.05564v4 )

ライセンス: Link先を確認
Lin Deng, Michael Stanley Smith, Worapree Maneesoonthorn, (参考訳) スクリュー・トゥ・コプラモデル(英語版)は、非対称かつ極端なテール依存を可能にするため、財務データのモデリングに魅力的なものである。 Azzalini と Capitanio (2003) の skew-t 分布に暗黙的に表されるコプラは、2つの一般的な代替スキュー-t コプラよりも高レベルな対非対称依存を可能にすることを示す。 高次元でのこのコプラの推定は困難であり、高速かつ正確なベイズ変分推論(VI)手法を提案する。 この方法は、スキューt分布の生成表現を用いて、正確に近似できる拡張後部を定義する。 確率勾配上昇アルゴリズムは変分最適化の解法として用いられる。 この手法は、2017年から2021年までの米国93株の日内リターンに最大15因子のスキュー・ト・ファクター・コプラモデルを推定するために用いられる。 コプラは、対相関のばらつきに加えて、株式対に対する非対称依存のかなりの不均一性を捉えている。 移動ウィンドウスタディでは、非対称な依存関係も時間とともに変化し、スキュートコプラの日内予測密度がベンチマークコプラのモデルよりも精度が高いことが示されている。 推定対非対称依存関係に基づくポートフォリオ選択戦略は、インデックスに対する性能を向上させる。

Skew-t copula models are attractive for the modeling of financial data because they allow for asymmetric and extreme tail dependence. We show that the copula implicit in the skew-t distribution of Azzalini and Capitanio (2003) allows for a higher level of pairwise asymmetric dependence than two popular alternative skew-t copulas. Estimation of this copula in high dimensions is challenging, and we propose a fast and accurate Bayesian variational inference (VI) approach to do so. The method uses a generative representation of the skew-t distribution to define an augmented posterior that can be approximated accurately. A stochastic gradient ascent algorithm is used to solve the variational optimization. The methodology is used to estimate skew-t factor copula models with up to 15 factors for intraday returns from 2017 to 2021 on 93 U.S. equities. The copula captures substantial heterogeneity in asymmetric dependence over equity pairs, in addition to the variability in pairwise correlations. In a moving window study we show that the asymmetric dependencies also vary over time, and that intraday predictive densities from the skew-t copula are more accurate than those from benchmark copula models. Portfolio selection strategies based on the estimated pairwise asymmetric dependencies improve performance relative to the index.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 第2回アダプティブサイバー防衛国際ワークショップの開催報告

Proceedings of the 2nd International Workshop on Adaptive Cyber Defense ( http://arxiv.org/abs/2308.09520v5 )

ライセンス: Link先を確認
Marco Carvalho, Damian Marriott, Mark Bilinski, Ahmad Ridley, (参考訳) 第2回アダプティブ・サイバー・ディフェンスに関する国際ワークショップがフロリダ州のフロリダ工科大学で開催された。 このワークショップは、AI(AI)と機械学習(ML)のユニークな応用を、適応型サイバー防御の追求のための基礎的な能力として探求する研究を共有するために組織された。 現在、サイバードメインは、人間の専門家に大きく依存することなく、確実かつ効果的に保護することはできない。 熟練したサイバーディフェンダーは供給不足であり、サイバー脅威に十分早く対応できないことが多い。 AIとMLの最近の進歩に基づいて、サイバー防衛研究コミュニティは、サイバー設定へのAIとML技術の導入を通じて、新しい動的で持続可能な防衛を開発する動機付けを受けている。 AIとサイバー研究者と実践者の致命的なギャップを埋めることによって、サイバー攻撃を認識し、反応し、他のサイバー操作システムや人間の専門家と協力して弱点を発見し、緩和することができる半自律的なサイバー防御を開発する努力を加速することができる。 さらに、これらの防御は適応的で、時間とともに進化し、攻撃者の行動の変化、システムの健全性や準備性の変化、時間の経過とともにユーザー行動の自然な変化を防ぐことが期待されている。 ワークショップは、招待された基調講演、テクニカルプレゼンテーション、AI/MLが現在のサイバー攻撃と将来のサイバー攻撃の自律的緩和を可能にする方法についてのパネルディスカッションで構成された。 ワークショップの提出は、国家と世界の安全保障にとって重要な問題に取り組む6つの技術論文からなる手続きで、ドメイン専門家のパネルによって査読された。 このワークショップへの参加は、適応型および自律型サイバー防衛の新興領域における研究とイノベーションを刺激する新たな機会を提供した。

The 2nd International Workshop on Adaptive Cyber Defense was held at the Florida Institute of Technology, Florida. This workshop was organized to share research that explores unique applications of Artificial Intelligence (AI) and Machine Learning (ML) as foundational capabilities for the pursuit of adaptive cyber defense. The cyber domain cannot currently be reliably and effectively defended without extensive reliance on human experts. Skilled cyber defenders are in short supply and often cannot respond fast enough to cyber threats. Building on recent advances in AI and ML the Cyber defense research community has been motivated to develop new dynamic and sustainable defenses through the adoption of AI and ML techniques to cyber settings. Bridging critical gaps between AI and Cyber researchers and practitioners can accelerate efforts to create semi-autonomous cyber defenses that can learn to recognize and respond to cyber attacks or discover and mitigate weaknesses in cooperation with other cyber operation systems and human experts. Furthermore, these defenses are expected to be adaptive and able to evolve over time to thwart changes in attacker behavior, changes in the system health and readiness, and natural shifts in user behavior over time. The workshop was comprised of invited keynote talks, technical presentations and a panel discussion about how AI/ML can enable autonomous mitigation of current and future cyber attacks. Workshop submissions were peer reviewed by a panel of domain experts with a proceedings consisting of six technical articles exploring challenging problems of critical importance to national and global security. Participation in this workshop offered new opportunities to stimulate research and innovation in the emerging domain of adaptive and autonomous cyber defense.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# ロジスティックスハブ配置最適化:道路ネットワーク距離を用いたK平均とP媒介モデルハイブリッドアプローチ

Logistics Hub Location Optimization: A K-Means and P-Median Model Hybrid Approach Using Road Network Distances ( http://arxiv.org/abs/2308.11038v2 )

ライセンス: Link先を確認
Muhammad Abdul Rahman, Muhammad Aamir Basheer, Zubair Khalid, Muhammad Tahir, Momin Uppal, (参考訳) ロジスティックハブは、最終マイルの配送距離において重要な役割を担っている。少し距離を増すだけでも、Eコマース業界のビジネスに悪影響を及ぼし、カーボンフットプリントも増加する。 コビッド19以降のこの産業の成長は、都市環境における資源配分の最適化の必要性をさらに高めている。 本研究では,ロジスティックハブの配置を最適化するためにハイブリッドアプローチを用いる。 アプローチにはさまざまなテクニックが順次採用されている。 最初は、配送ポイントは空間的位置に関連してK-Meansを使ってクラスタ化される。 クラスタリング手法はユークリッド距離とは対照的に道路網距離を利用する。 非道路ネットワークベースのアプローチは、誤った、誤解を招く結果をもたらすため、避けられている。 最後に、ハブはP-Medianメソッドを使って配置される。 P-Median法はまた、配達数と人口を重みとして含んでいる。 Muller と Phipps (M&P) の実際の配信データは、このアプローチの有効性を示すために使用される。 最適なハブ場所からの配達は、1回の配送で815メートル (10%) 節約される。

Logistic hubs play a pivotal role in the last-mile delivery distance; even a slight increment in distance negatively impacts the business of the e-commerce industry while also increasing its carbon footprint. The growth of this industry, particularly after Covid-19, has further intensified the need for optimized allocation of resources in an urban environment. In this study, we use a hybrid approach to optimize the placement of logistic hubs. The approach sequentially employs different techniques. Initially, delivery points are clustered using K-Means in relation to their spatial locations. The clustering method utilizes road network distances as opposed to Euclidean distances. Non-road network-based approaches have been avoided since they lead to erroneous and misleading results. Finally, hubs are located using the P-Median method. The P-Median method also incorporates the number of deliveries and population as weights. Real-world delivery data from Muller and Phipps (M&P) is used to demonstrate the effectiveness of the approach. Serving deliveries from the optimal hub locations results in the saving of 815 (10%) meters per delivery.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 量子状態のマヨラナ表現について

A note on Majorana representation of quantum states ( http://arxiv.org/abs/2308.14765v4 )

ライセンス: Link先を確認
Chi-Kwong Li, Mikio Nakahara, (参考訳) マヨラナ表現により、任意の$d > 1$に対して、ブロッホ球面の$d-1$点として表される次元$d$と$d-1$ qubitsの量子状態の間の1対1対応が存在する。 テンソルの対称性クラスの理論を用いて、ブロッホ球面上の$d-1$点と対応する$d-1$ qubitsを$d$次元量子状態を表す単純なスキームを示す。 さらに、2つの$d$次元量子状態の内部積が、それらの$(d-1)$-qubit状態表現に関連する行列の永久的に表現できることを示す。 結果の混合状態への拡張も検討されている。

By the Majorana representation, for any $d > 1$ there is a one-one correspondence between a quantum state of dimension $d$ and $d-1$ qubits represented as $d-1$ points in the Bloch sphere. Using the theory of symmetry class of tensors, we present a simple scheme for constructing $d-1$ points on the Bloch sphere and the corresponding $d-1$ qubits representing a $d$-dimensional quantum state. Additionally, we demonstrate how the inner product of two $d$-dimensional quantum states can be expressed as a permanent of a matrix related to their $(d-1)$-qubit state representations. Extension of the result to mixed states is also considered.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 半導体単一光子源を用いた高速都市間量子鍵分布

High-rate intercity quantum key distribution with a semiconductor single-photon source ( http://arxiv.org/abs/2308.15922v2 )

ライセンス: Link先を確認
Jingzhong Yang, Zenghui Jiang, Frederik Benthin, Joscha Hanel, Tom Fandrich, Raphael Joos, Stephanie Bauer, Sascha Kolatschek, Ali Hreibi, Eddy Patrick Rugeramigabo, Michael Jetter, Simone Luca Portalupi, Michael Zopf, Peter Michler, Stefan Kück, Fei Ding, (参考訳) 量子鍵分布(QKD)は、盗聴者による一般的な攻撃に対して安全である情報の伝達を可能にする。 QKDプロトコルにおけるオンデマンド量子光源の使用は、セキュリティの向上と耐久損失の最大化に役立つと期待されている。 量子量子ドット(QD)は、高輝度で多光子寄与の低い単一光子の決定論的放出のため、量子通信アプリケーションにとって有望な構成要素である。 ここでは、明るい決定論的単一光子源を用いた最初の都市間QKD実験について報告する。 円ブラッグ格子構造に埋め込まれた半導体QDから放射される通信Cバンド内の高レート単一光子を用いて偏光符号化に基づくBB84プロトコルを実現する。 79kmの長いリンクと25.49dBの損失(直接接続された光ファイバーの130kmに相当する)をハノーファーとブラウンシュヴァイクの間で利用し、平均量子ビット誤差比が約0.65%である4.8 * 10^{-5}の1パルスあたりの最高機密鍵ビットを実証した。 症状の最大許容損失は28.11dBで、標準通信ファイバーの144kmの長さに対応する。 したがって、決定論的半導体源は最先端のQKDプロトコルに挑戦し、測定装置の独立なプロトコルや量子リピータの応用に優れる可能性がある。

Quantum key distribution (QKD) enables the transmission of information that is secure against general attacks by eavesdroppers. The use of on-demand quantum light sources in QKD protocols is expected to help improve security and maximum tolerable loss. Semiconductor quantum dots (QDs) are a promising building block for quantum communication applications because of the deterministic emission of single photons with high brightness and low multiphoton contribution. Here we report on the first intercity QKD experiment using a bright deterministic single photon source. A BB84 protocol based on polarisation encoding is realised using the high-rate single photons in the telecommunication C-band emitted from a semiconductor QD embedded in a circular Bragg grating structure. Utilising the 79 km long link with 25.49 dB loss (equivalent to 130 km for the direct-connected optical fibre) between the German cities of Hannover and Braunschweig, a record-high secret key bits per pulse of 4.8 * 10^{-5} with an average quantum bit error ratio of ~ 0.65 % are demonstrated. An asymptotic maximum tolerable loss of 28.11 dB is found, corresponding to a length of 144 km of standard telecommunication fibre. Deterministic semiconductor sources therefore challenge state-of-the-art QKD protocols and have the potential to excel in measurement device independent protocols and quantum repeater applications.
翻訳日:2024-07-04 08:30:22 公開日:2024-07-02
# 遠方政党間のベル状態の非破壊的識別

Nondestructive discrimination of Bell states between distant parties ( http://arxiv.org/abs/2309.00869v2 )

ライセンス: Link先を確認
Bohdan Bilash, Youngrong Lim, Hyukjoon Kwon, Yosep Kim, Hyang-Tag Lim, Wooyeong Song, Yong-Su Kim, (参考訳) ベル状態を破壊せずに特定することは、量子通信や量子コンピューティングといった現代の量子技術でしばしば扱われる。 実際には、量子絡み合った状態は、しばしば遠くのパーティに分散しており、パーティ間のインライン通信をすることなく、それぞれの場所でそれぞれを個別に決定する必要があるかもしれない。 本稿では, 2つの距離に分散した任意のベル状態を, 破壊することなく識別する手法を提案する。 このスキームは、両者の間に事前共有された2つの絡み合った状態を必要とし、これらの補助資源がなければ、ベル状態が非破壊的に識別される確率は、1/4で制限され、これはランダムな推測と同じであることを示す。 さらに,IonQ量子コンピュータによる原理実証実験を行い,実用量子プロセッサに適用した場合に古典的境界を超えることができることを示した。

Identifying Bell states without destroying it is frequently dealt with in nowadays quantum technologies such as quantum communication and quantum computing. In practice, quantum entangled states are often distributed among distant parties, and it might be required to determine them separately at each location, without inline communication between parties. We present a scheme for discriminating an arbitrary Bell state distributed to two distant parties without destroying it. The scheme requires two entangled states that are pre-shared between the parties, and we show that without these ancillary resources, the probability of non-destructively discriminating the Bell state is bounded by 1/4, which is the same as random guessing. Furthermore, we demonstrate a proof-of-principle experiment through an IonQ quantum computer that our scheme can surpass classical bounds when applied to practical quantum processor.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# SINCERE: 情報ノイズコントラスト推定の再検討

SINCERE: Supervised Information Noise-Contrastive Estimation REvisited ( http://arxiv.org/abs/2309.14277v3 )

ライセンス: Link先を確認
Patrick Feeney, Michael C. Hughes, (参考訳) The information noise-contrastive Estimation (InfoNCE) loss function is a basis of many self-supervised deep learning method because its strong empirical results and theoretic motivation。 これまでの研究では、InfoNCEを拡張して利用可能なクラスラベルから学ぶために、教師付きコントラスト(SupCon)損失が示唆されていた。 このSupConの損失は、優れた経験的性能の報告のために広く利用されている。 しかし、この研究で、SupConの損失の定式化が疑問視されているのは、同じクラスのイメージが学習された埋め込み空間において互いに反発するように促すことができるからである。 1つのクラスラベルを共有する画像の数が増加するにつれて、この問題によるクラス内の反発は悪化する。 我々は、クラス内反発を排除したInfoNCEの理論的に調整された拡張として、Supervised InfoNCE Revisited (SINCERE)損失を提案する。 実験により、SINCEREは、異なるクラスから埋め込みを分離し、転送学習の分類精度を向上させることが示されている。 さらに、確率論的モデリングを用いて、SINCERE損失と、ターゲットクラスおよび他のクラスに対するデータ生成分布間の対称性付きKL分散とを関連付ける情報理論境界を導出する。

The information noise-contrastive estimation (InfoNCE) loss function provides the basis of many self-supervised deep learning methods due to its strong empirical results and theoretic motivation. Previous work suggests a supervised contrastive (SupCon) loss to extend InfoNCE to learn from available class labels. This SupCon loss has been widely-used due to reports of good empirical performance. However, in this work we find that the prior SupCon loss formulation has questionable justification because it can encourage some images from the same class to repel one another in the learned embedding space. This problematic intra-class repulsion gets worse as the number of images sharing one class label increases. We propose the Supervised InfoNCE REvisited (SINCERE) loss as a theoretically-justified supervised extension of InfoNCE that eliminates intra-class repulsion. Experiments show that SINCERE leads to better separation of embeddings from different classes and improves transfer learning classification accuracy. We additionally utilize probabilistic modeling to derive an information-theoretic bound that relates SINCERE loss to the symmeterized KL divergence between data-generating distributions for a target class and all other classes.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# やるべきでない:UML PSSMステートマシンにおけるDoアクティビティのセマンティックスとパターン

To Do or Not to Do: Semantics and Patterns for Do Activities in UML PSSM State Machines ( http://arxiv.org/abs/2309.14884v2 )

ライセンス: Link先を確認
Márton Elekes, Vince Molnár, Zoltán Micskei, (参考訳) ステートマシンは多くの種類のソフトウェア集約システムで使用されている。 UML State Machinesは強力な構造を持つ単純な有限状態マシンを拡張する。 多くの拡張の中で、ステートマシンのリアクティブな計算モデルであるdoActivity振舞いを根本的に変える、一見シンプルで無実な言語構造があります。 DoActivity振舞い(DoActivity behaviors)は、ある状態に入力された状態マシンとは独立して実行される振る舞いを記述し、典型的には複雑な計算や通信をバックグラウンドタスクとしてモデル化する。 しかし、UML仕様や教科書は、doActivityの振る舞い構造をどのように適切に使うべきかについて曖昧である。 このガイダンスの欠如は深刻な問題であり、doActivityが不適切に使用されると、特に見つけるのが難しく、一見正しいソフトウェア設計を台無しにしてしまうような、同時かつ非決定的なバグを引き起こす可能性がある。 UML State Machines(PSSM)の精密意味論(Precise Semantics of UML State Machines)仕様では、ステートマシンの詳細な操作意味論が導入された。 私たちの知る限りでは、PSSMで規定されているdoActivityのセマンティクスに関する厳密なレビューはまだありません。 そこで本研究では,仕様書のテキスト,意味モデル,実行可能なテストケース,PSSMをサポートするシミュレータの相互チェックから,セマンティックスを解析した。 ツール開発者や高度なモデラーに関連する微妙な詳細と創発的な振る舞いに関する洞察を合成した。 標準化委員会に20以上の問題で不整合と明確化の欠如を報告した。 これらの知見に基づいて,特定の状況下でのdoActivityの使用結果を詳述したdoActivityのパターン11と,その対策や代替設計選択について議論した。 セマンティクスとパターンの分析が、ベンダーが適合したシミュレータや検証ツールを開発し、エンジニアがより良い状態マシンモデルを設計するのに役立つことを願っています。

State machines are used in engineering many types of software-intensive systems. UML State Machines extend simple finite state machines with powerful constructs. Among the many extensions, there is one seemingly simple and innocent language construct that fundamentally changes state machines' reactive model of computation: doActivity behaviors. DoActivity behaviors describe behavior that is executed independently from the state machine once entered in a given state, typically modeling complex computation or communication as background tasks. However, the UML specification or textbooks are vague about how the doActivity behavior construct should be appropriately used. This lack of guidance is a severe issue as, when improperly used, doActivities can cause concurrent, non-deterministic bugs that are especially challenging to find and could ruin a seemingly correct software design. The Precise Semantics of UML State Machines (PSSM) specification introduced detailed operational semantics for state machines. To the best of our knowledge, there is no rigorous review yet of doActivity's semantics as specified in PSSM. We analyzed the semantics by collecting evidence from cross-checking the text of the specification, its semantic model and executable test cases, and the simulators supporting PSSM. We synthesized insights about subtle details and emergent behaviors relevant to tool developers and advanced modelers. We reported inconsistencies and missing clarifications in more than 20 issues to the standardization committee. Based on these insights, we studied 11 patterns for doActivities detailing the consequences of using a doActivity in a given situation and discussing countermeasures or alternative design choices. We hope that our analysis of the semantics and the patterns help vendors develop conformant simulators or verification tools and engineers design better state machine models.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# ベンダー分解を用いたマルチエネルギーシステム最適化のための量子および古典計算の統合

Integrating quantum and classical computing for multi-energy system optimization using Benders decomposition ( http://arxiv.org/abs/2309.16363v2 )

ライセンス: Link先を確認
Ludger Leenders, Martin Sollich, Christiane Reinert, André Bardow, (参考訳) 近年、量子コンピュータは、主に特定の問題に対する計算性能を著しく向上させる能力のために、注目を集めている。 計算性能は量子アニールにより数学的に最適化できる。 この特別なタイプの量子コンピュータは2次非制約のバイナリ最適化問題を解くことができる。 しかし、マルチエネルギーシステムの最適化は一般に整数と連続的な決定変数を含む。 混合整数問題構造のため、マルチエネルギーシステムの最適化に量子アニールを直接使用することはできない。 マルチエネルギーシステムの最適化問題を解決するために,量子コンピュータと古典コンピュータの最適化を組み合わせたハイブリッドベンダー分解手法を提案する。 本手法では,従来のエネルギーシステム最適化問題の整数変数のみを含むマスター問題を量子コンピュータで解く。 サブプロブレムは連続変数を含み、古典的なコンピュータによって解決される。 より良い性能を得るために、Benders分解に改善技術を適用します。 本研究では,コスト最適多エネルギーシステムの設計を事例スタディで実施する。 我々は,Benders分解手法が多エネルギー系の設計に適用可能であるという概念の証明を提供するが,計算時間は古典的コンピュータのみを用いた手法よりも依然として高い。 そこで我々は,大規模かつフォールトトレラントな量子コンピュータに期待されるアプローチの潜在的な改善を推定する。

During recent years, quantum computers have received increasing attention, primarily due to their ability to significantly increase computational performance for specific problems. Computational performance could be improved for mathematical optimization by quantum annealers. This special type of quantum computer can solve quadratic unconstrained binary optimization problems. However, multi-energy systems optimization commonly involves integer and continuous decision variables. Due to their mixed-integer problem structure, quantum annealers cannot be directly used for multi-energy system optimization. To solve multi-energy system optimization problems, we present a hybrid Benders decomposition approach combining optimization on quantum and classical computers. In our approach, the quantum computer solves the master problem, which involves only the integer variables from the original energy system optimization problem. The subproblem includes the continuous variables and is solved by a classical computer. For better performance, we apply improvement techniques to the Benders decomposition. We test the approach on a case study to design a cost-optimal multi-energy system. While we provide a proof of concept that our Benders decomposition approach is applicable for the design of multi-energy systems, the computational time is still higher than for approaches using classical computers only. We therefore estimate the potential improvement of our approach to be expected for larger and fault-tolerant quantum computers.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# 多視点自己整合性による大規模言語モデルの符号化

Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency ( http://arxiv.org/abs/2309.17272v3 )

ライセンス: Link先を確認
Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan, (参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。 しかし、単一の試みで正しいソリューションを生成することは依然として課題である。 それまでの作業では、ソフトウェアエンジニアリングの検証プロパティを使用して、多数決的な方法でソリューションの検証と再ランクが行われていました。 しかし、それらの背後にある仮定は、生成された検証特性が解よりも優れた品質を持つという仮定は、常に成り立つとは限らない。 本稿では,LLMの推論過程の異なる視点として扱う。 複数視点からの出力間の相互整合性を考慮したMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。 具体的には、LCMに3つの観点、すなわちソリューション、仕様、テストケースから多様なアウトプットを生成するように促し、3部グラフを構築します。 整合性の2つの測度関数を用いて、整合性情報と整合性情報の両方をグラフに埋め込む。 解の最適選択は、そのグラフの分析に基づいて決定される。 MPSCは、HumanEval (+15.91%)、MBPP (+6.43%)、CodeContests (+9.37%)など、GPT-4を超える様々なベンチマークで基礎モデル(ChatGPT)の性能を大幅に向上させる。

Large language models (LLMs) have exhibited remarkable ability in code generation. However, generating the correct solution in a single attempt still remains a challenge. Prior works utilize verification properties in software engineering to verify and re-rank solutions in a majority voting manner. But the assumption behind them that generated verification properties have better qualities than solutions may not always hold. In this paper, we treat them equally as different perspectives of LLMs' reasoning processes. We propose the Multi-Perspective Self-Consistency (MPSC) framework incorporating both inter- and intra-consistency across outputs from multiple perspectives. Specifically, we prompt LLMs to generate diverse outputs from three perspectives, Solution, Specification and Test case, constructing a 3-partite graph. With two measure functions of consistency, we embed both inter- and intra-consistency information into the graph. The optimal choice of solutions is then determined based on analysis in the graph. MPSC significantly boosts performance of foundation models (ChatGPT in this paper) on various benchmarks, including HumanEval (+15.91%), MBPP (+6.43%) and CodeContests (+9.37%), even surpassing GPT-4.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# インボリュートリーMDS行列の計数について

On the Counting of Involutory MDS Matrices ( http://arxiv.org/abs/2310.00090v2 )

ライセンス: Link先を確認
Susanta Samanta, (参考訳) MDS行列の最適分岐数は、様々なブロック暗号とハッシュ関数の拡散層を設計することの重要性を確立している。 その結果、アダマール行列や循環行列を含む多くの行列構造がMDS行列の構築のために提案されている。 また、文献では、MDS候補を最適な実装で特定したり、異なる順序で新しい構成を提案するのが一般的である。 しかし, 本論文では, 効率問題を強調したり, 新規な構成を導入するなど, 異なるアプローチを採っている。 その代わりに、その主な目的は、アダマール MDS およびインボリュートリー アダマール MDS 行列を体 $\mathbb{F}_{2^r}$ の中で階数 4$ で列挙することである。 具体的には、アダマール MDS とインボリュートリー アダマール MDS の両方の行列を 4$ over $\mathbb{F}_{2^r}$ で表す明示的な公式を提供する。 さらに、次数 2$ MDS 行列と、$\mathbb{F}_{2^r}$ 上のインボリュートリー MDS 行列を順序数 2$ MDS 行列として提示する。 最後に、これらの階数 2$ の行列を利用すると、上界は階数 4$ over $\mathbb{F}_{2^r}$ のすべての不揮発性MDS行列の数に対して導かれる。

The optimal branch number of MDS matrices has established their importance in designing diffusion layers for various block ciphers and hash functions. As a result, numerous matrix structures, including Hadamard and circulant matrices, have been proposed for constructing MDS matrices. Also, in the literature, significant attention is typically given to identifying MDS candidates with optimal implementations or proposing new constructions across different orders. However, this paper takes a different approach by not emphasizing efficiency issues or introducing novel constructions. Instead, its primary objective is to enumerate Hadamard MDS and involutory Hadamard MDS matrices of order $4$ within the field $\mathbb{F}_{2^r}$. Specifically, it provides an explicit formula for the count of both Hadamard MDS and involutory Hadamard MDS matrices of order $4$ over $\mathbb{F}_{2^r}$. Additionally, the paper presents the counts of order $2$ MDS matrices and order $2$ involutory MDS matrices over $\mathbb{F}_{2^r}$. Finally, leveraging these counts of order $2$ matrices, an upper bound is derived for the number of all involutory MDS matrices of order $4$ over $\mathbb{F}_{2^r}$.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# グラフ畳み込みネットワークを用いたロバスト心分離に向けて

Towards Robust Cardiac Segmentation using Graph Convolutional Networks ( http://arxiv.org/abs/2310.01210v5 )

ライセンス: Link先を確認
Gilles Van De Vyver, Sarina Thomas, Guy Ben-Yosef, Sindre Hellum Olaisen, Håvard Dalen, Lasse Løvstakken, Erik Smistad, (参考訳) 完全自動心筋分画は、心エコー検査から臨床測定を抽出するための、迅速かつ再現可能な方法である。 U-Netアーキテクチャは、現在最先端の医用セグメンテーションのためのディープラーニングアーキテクチャであり、心臓構造をリアルタイムで分割でき、平均エラーはサーバ間変動に匹敵する。 しかし、このアーキテクチャは、しばしば解剖学的に正しくない大きな外れ値を生成する。 この研究はグラフ畳み込みニューラルネットワークの概念を用いて、各ピクセルをラベル付けするのではなく、興味のある構造の輪郭点を予測する。 本稿では,心解剖学に基づく2つの畳み込みリングを用いたグラフアーキテクチャを提案する。 さらに、この研究は、グラフ畳み込みアーキテクチャに関するアブレーション研究と、臨床HUNT4データセットに関する臨床測定の評価に寄与する。 最後に,U-Netとグラフネットワークのモデル間合意を,入力品質とセグメンテーション品質の両方の予測器として用いることを提案する。 この予測器は,分布外および不適な入力画像をリアルタイムに検出できることを示す。 ソースコードはオンラインで入手できる。 https://github.com/gillesvntnu/GCN_multistructure

Fully automatic cardiac segmentation can be a fast and reproducible method to extract clinical measurements from an echocardiography examination. The U-Net architecture is the current state-of-the-art deep learning architecture for medical segmentation and can segment cardiac structures in real-time with average errors comparable to inter-observer variability. However, this architecture still generates large outliers that are often anatomically incorrect. This work uses the concept of graph convolutional neural networks that predict the contour points of the structures of interest instead of labeling each pixel. We propose a graph architecture that uses two convolutional rings based on cardiac anatomy and show that this eliminates anatomical incorrect multi-structure segmentations on the publicly available CAMUS dataset. Additionally, this work contributes with an ablation study on the graph convolutional architecture and an evaluation of clinical measurements on the clinical HUNT4 dataset. Finally, we propose to use the inter-model agreement of the U-Net and the graph network as a predictor of both the input and segmentation quality. We show this predictor can detect out-of-distribution and unsuitable input images in real-time. Source code is available online: https://github.com/gillesvntnu/GCN_multistructure
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# Ctrl-Room:レイアウト制約による制御可能なテキスト間3次元ルームメッシュの生成

Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints ( http://arxiv.org/abs/2310.03602v3 )

ライセンス: Link先を確認
Chuan Fang, Yuan Dong, Kunming Luo, Xiaotao Hu, Rakesh Shrestha, Ping Tan, (参考訳) テキスト駆動の屋内シーン生成は、ゲーム、映画産業、AR/VRアプリケーションに有用である。 しかし、既存の手法では、部屋のレイアウトを忠実に捉えたり、部屋内の個々のオブジェクトを柔軟に編集したりすることはできない。 これらの問題に対処するために、Ctrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成することができる。 さらに、Ctrl-Roomは、個々の家具アイテムのリサイズや移動など、多種多様なインタラクティブな編集操作を可能にする。 私たちの重要な洞察は、レイアウトと外観のモデリングを分離することです。 提案手法は,レイアウト生成段階と出現生成段階の2段階からなる。 レイアウト生成段階は、テキスト条件拡散モデルを用いて、総体的シーンコードパラメータ化を用いてレイアウト分布を学習する。 次に、3Dシーンレイアウトとテキストプロンプトによってガイドされた部屋の鮮明なパノラマ画像を生成するために、外観生成ステージは微調整のコントロールネットを使用する。 そこで我々は,高精細なレイアウトと活発なテクスチャを備えた高品質な3Dルーム生成を実現する。 シーンコードパラメータ化の利点は、高価な編集専用トレーニングを必要とせずに、マスク誘導編集モジュールを通じて生成されたルームモデルを編集することである。 Structured3Dデータセットの大規模な実験により、我々の手法は、自然言語のプロンプトから、より合理的で、ビューに一貫性があり、編集可能な3D室を生成するために、既存の手法よりも優れていることが示された。

Text-driven 3D indoor scene generation is useful for gaming, the film industry, and AR/VR applications. However, existing methods cannot faithfully capture the room layout, nor do they allow flexible editing of individual objects in the room. To address these problems, we present Ctrl-Room, which can generate convincing 3D rooms with designer-style layouts and high-fidelity textures from just a text prompt. Moreover, Ctrl-Room enables versatile interactive editing operations such as resizing or moving individual furniture items. Our key insight is to separate the modeling of layouts and appearance. Our proposed method consists of two stages: a Layout Generation Stage and an Appearance Generation Stage. The Layout Generation Stage trains a text-conditional diffusion model to learn the layout distribution with our holistic scene code parameterization. Next, the Appearance Generation Stage employs a fine-tuned ControlNet to produce a vivid panoramic image of the room guided by the 3D scene layout and text prompt. We thus achieve a high-quality 3D room generation with convincing layouts and lively textures. Benefiting from the scene code parameterization, we can easily edit the generated room model through our mask-guided editing module, without expensive edit-specific training. Extensive experiments on the Structured3D dataset demonstrate that our method outperforms existing methods in producing more reasonable, view-consistent, and editable 3D rooms from natural language prompts.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# 同じ骨格を持つマルコフ等価クラスを数える固定パラメータトラクタブルアルゴリズム

A Fixed-Parameter Tractable Algorithm for Counting Markov Equivalence Classes with the same Skeleton ( http://arxiv.org/abs/2310.04218v4 )

ライセンス: Link先を確認
Vidya Sagar Sharma, (参考訳) 因果DAG(Bayesian Network)は、確率変数間の条件依存を符号化する一般的なツールである。 因果的DAGでは、ランダム変数はDAGの頂点としてモデル化され、全てのランダム変数は両親に条件付けられた祖先から独立していることが規定されている。 しかし、同じ確率変数の集合上の2つの異なる因果DAGに対して、全く同じ条件依存の集合をエンコードすることが可能である。 そのような因果DAGはマルコフ同値であるとされ、マルコフ同値DAGの同値類はマルコフ同値類(Markov Equivalent Classs、MECs)として知られている。 MECの美しい組合せ的特徴はここ数十年で開発され、特に同じMEC内のすべてのDAGは、同じ「スケルトン」と v-構造($a\rightarrow b \leftarrow c$ という形に誘導される部分グラフ)を持つ必要があることが知られている。 これらの組合せ的特徴は、いくつかの自然なアルゴリズム的問題も示唆している。 入力として無向グラフ$G$を与えられたとき、マルコフ同値類がスケルトン$G$を持つものはいくつあるか? ここ数年、多くの研究がこの問題や他の密接に関連する問題に注がれている。 しかし、我々の知る限りでは、この問題に対する多項式時間アルゴリズムはいまだに不明である。 本稿では、上記の問題に対してパラメータを木幅とし、入力グラフの最大度を$G$とすることで、この目標に向かって前進する。 我々の研究の主な技術的要素は、私たちがシャドウと呼ぶ構造であり、MECの組合せ的特徴によって課される長距離制約の「局所的な記述」を作成することができる。

Causal DAGs (also known as Bayesian networks) are a popular tool for encoding conditional dependencies between random variables. In a causal DAG, the random variables are modeled as vertices in the DAG, and it is stipulated that every random variable is independent of its ancestors conditioned on its parents. It is possible, however, for two different causal DAGs on the same set of random variables to encode exactly the same set of conditional dependencies. Such causal DAGs are said to be Markov equivalent, and equivalence classes of Markov equivalent DAGs are known as Markov Equivalent Classes (MECs). Beautiful combinatorial characterizations of MECs have been developed in the past few decades, and it is known, in particular that all DAGs in the same MEC must have the same "skeleton" (underlying undirected graph) and v-structures (induced subgraph of the form $a\rightarrow b \leftarrow c$). These combinatorial characterizations also suggest several natural algorithmic questions. One of these is: given an undirected graph $G$ as input, how many distinct Markov equivalence classes have the skeleton $G$? Much work has been devoted in the last few years to this and other closely related problems. However, to the best of our knowledge, a polynomial time algorithm for the problem remains unknown. In this paper, we make progress towards this goal by giving a fixed parameter tractable algorithm for the above problem, with the parameters being the treewidth and the maximum degree of the input graph $G$. The main technical ingredient in our work is a construction we refer to as shadow, which lets us create a "local description" of long-range constraints imposed by the combinatorial characterizations of MECs.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# 自律運転システムのメタモルフィックランタイムモニタリング

Metamorphic Runtime Monitoring of Autonomous Driving Systems ( http://arxiv.org/abs/2310.07414v2 )

ライセンス: Link先を確認
Jon Ayerdi, Asier Iriarte, Pablo Valle, Ibai Roman, Miren Illarramendi, Aitor Arrieta, (参考訳) 自律運転システム (Autonomous Driving Systems, ADS) は、不確実な状況下でも安全を確保しなければならない複雑なサイバー物理システム (CPS) である。 現代のADSはディープニューラルネットワーク(Deep Neural Networks, DNN)を用いることが多い。 したがって、潜在的に危険な状況を避けるためには、実行時にADSの信頼性を見積もるアプローチが必要である。 本稿では,複数の入力と対応する出力を格納するシステムの特性であるメタモーフィックリレーショナル(MR)に基づくADSのオンラインモニタリング手法であるMarMotを提案する。 ドメイン固有のMRを用いて、MarMotは実行時のADSの不確実性を推定し、道路を運転するなど、ADSの異常な振る舞いを引き起こす可能性のある異常な状況を特定する。 我々は,小型の物理ADSとシミュレーションADSを含む2つの異なる被写体ADSを用いて,5種類のMRを用いたMarMotの実証評価を行った。 本評価では,外的異常 (eg, 霧, 内的異常 (eg, 欠陥 DNNs) ) と内的異常 (eg, 欠陥 DNNs) の両方を, 誤ラベルによるトレーニングデータにより同定する。 以上の結果より,MarMotは体外異常の最大65倍,体外異常の最大100倍,体外異常の最大54倍,体外異常の88%を同定できることがわかった。 これらの結果により、MarMotは、SelfOracle、Ensemble、MC DropoutベースのADSモニタなど、他の最先端のアプローチよりも優れているか、あるいは同等である。

Autonomous Driving Systems (ADSs) are complex Cyber-Physical Systems (CPSs) that must ensure safety even in uncertain conditions. Modern ADSs often employ Deep Neural Networks (DNNs), which may not produce correct results in every possible driving scenario. Thus, an approach to estimate the confidence of an ADS at runtime is necessary to prevent potentially dangerous situations. In this paper we propose MarMot, an online monitoring approach for ADSs based on Metamorphic Relations (MRs), which are properties of a system that hold among multiple inputs and the corresponding outputs. Using domain-specific MRs, MarMot estimates the uncertainty of the ADS at runtime, allowing the identification of anomalous situations that are likely to cause a faulty behavior of the ADS, such as driving off the road. We perform an empirical assessment of MarMot with five different MRs, using two different subject ADSs, including a small-scale physical ADS and a simulated ADS. Our evaluation encompasses the identification of both external anomalies, e.g., fog, as well as internal anomalies, e.g., faulty DNNs due to mislabeled training data. Our results show that MarMot can identify up to 65\% of the external anomalies and 100\% of the internal anomalies in the physical ADS, and up to 54\% of the external anomalies and 88\% of the internal anomalies in the simulated ADS. With these results, MarMot outperforms or is comparable to other state-of-the-art approaches, including SelfOracle, Ensemble, and MC Dropout-based ADS monitors.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# 線形予測によるディープニューラルネットワークトレーニングの効率化と性能向上

Enhancing Deep Neural Network Training Efficiency and Performance through Linear Prediction ( http://arxiv.org/abs/2310.10958v2 )

ライセンス: Link先を確認
Hejie Ying, Mengmeng Song, Yaohong Tang, Shungen Xiao, Zimin Xiao, (参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、さまざまな分野で大きな成功を収めている。 しかし、効果的なDNNモデルのトレーニングには依然として課題がある。 本稿では,DNNの学習効率を最適化する手法を提案する。 まず、DNNパラメータが訓練過程中に特定の法則で変化するという観察に基づいて、モデルの訓練効率と性能を改善するためのパラメータ予測の可能性を見出した。 第二に、DNNモデルパラメータの大きさ、ハードウェアの制限、耐雑音性のための確率勾配Descent(SGD)の特性を考慮すると、パラメータ線形予測(PLP)法を用いてDNNパラメータ予測を行う。 最後に、いくつかの代表的バックボーン上で検証が行われる。 実験結果から,提案手法と同一条件下での訓練方法と比較すると,提案手法の有効性を示すCIFAR-100データセットに基づくVgg16,Resnet18,GoogLeNetにおける平均1%の精度向上と0.01のTop-1/top-5誤差低減が得られた。

Deep neural networks (DNN) have achieved remarkable success in various fields, including computer vision and natural language processing. However, training an effective DNN model still poses challenges. This paper aims to propose a method to optimize the training effectiveness of DNN, with the goal of improving model performance. Firstly, based on the observation that the DNN parameters change in certain laws during training process, the potential of parameter prediction for improving model training efficiency and performance is discovered. Secondly, considering the magnitude of DNN model parameters, hardware limitations and characteristics of Stochastic Gradient Descent (SGD) for noise tolerance, a Parameter Linear Prediction (PLP) method is exploit to perform DNN parameter prediction. Finally, validations are carried out on some representative backbones. Experiment results show that compare to the normal training ways, under the same training conditions and epochs, by employing proposed PLP method, the optimal model is able to obtain average about 1% accuracy improvement and 0.01 top-1/top-5 error reduction for Vgg16, Resnet18 and GoogLeNet based on CIFAR-100 dataset, which shown the effectiveness of the proposed method on different DNN structures, and validated its capacity in enhancing DNN training efficiency and performance.
翻訳日:2024-07-04 08:20:17 公開日:2024-07-02
# アルツハイマー病分類のための二重注意モジュール(3D-DAM)を用いた再現性3D畳み込みニューラルネットワーク

A reproducible 3D convolutional neural network with dual attention module (3D-DAM) for Alzheimer's disease classification ( http://arxiv.org/abs/2310.12574v3 )

ライセンス: Link先を確認
Gia Minh Hoang, Youngjoo Lee, Jae Gwan Kim, (参考訳) アルツハイマー病は最も一般的な神経変性疾患の1つであり、アミロイド・ベタ・プラークとタウ・タングルの蓄積が特徴である。 近年,アルツハイマー病の診断において深層学習のアプローチが期待されている。 本研究では,アルツハイマー病分類のための2つの注意モジュールを備えた3次元畳み込みニューラルネットワークを用いた再現可能なモデルを提案する。 このモデルをADNIデータベースでトレーニングし,2つの独立したデータセット(AIBLとOASIS1)で本手法の一般化性を検証した。 本手法は,MCI進行分類では91.94%,ADNIデータセットでは96.30%,最先端分類では91.94%の精度で達成された。 さらに、モデルは優れた一般化可能性を示し、AIBLデータセットでは86.37%、OASIS1データセットでは83.42%の精度を達成した。 これらの結果から,本提案手法はこの分野における最近の研究と比較して,競争性能と一般化性を有することが示された。

Alzheimer's disease is one of the most common types of neurodegenerative disease, characterized by the accumulation of amyloid-beta plaque and tau tangles. Recently, deep learning approaches have shown promise in Alzheimer's disease diagnosis. In this study, we propose a reproducible model that utilizes a 3D convolutional neural network with a dual attention module for Alzheimer's disease classification. We trained the model in the ADNI database and verified the generalizability of our method in two independent datasets (AIBL and OASIS1). Our method achieved state-of-the-art classification performance, with an accuracy of 91.94% for MCI progression classification and 96.30% for Alzheimer's disease classification on the ADNI dataset. Furthermore, the model demonstrated good generalizability, achieving an accuracy of 86.37% on the AIBL dataset and 83.42% on the OASIS1 dataset. These results indicate that our proposed approach has competitive performance and generalizability when compared to recent studies in the field.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 量子クラメル・ラオ境界を飽和させた高次元ユニタリ変換の推定

Estimation of high-dimensional unitary transformations saturating the Quantum Cramér-Rao bound ( http://arxiv.org/abs/2310.12699v2 )

ライセンス: Link先を確認
J. Escandón-Monardes, D. Uzcátegui, M. Rivera-Tapia, S. P. Walborn, A. Delgado, (参考訳) 本稿では,$d$次元のユニタリ変換を推定する手法を提案する。 $d>2$ の場合、アイデンティティに近いユニタリ変換は、量子クラム・ラオ境界を飽和させると推定される。 $d=2$の場合、すべてのユニタリ変換の推定はいくつかの事前情報に最適である。 従来の情報がない場合でも、標準的な量子プロセストモグラフィーよりも高精度で2次元のユニタリ変換を推定できることを数値シミュレーションで示している。

We propose an estimation procedure for $d$-dimensional unitary transformations. For $d>2$, the unitary transformations close to the identity are estimated saturating the quantum Cram\'er-Rao bound. For $d=2$, the estimation of all unitary transformations is also optimal with some prior information. We show through numerical simulations that, even in the absence of prior information, two-dimensional unitary transformations can be estimated with greater precision than by means of standard quantum process tomography.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 原子アンサンブルにおける弱場励起以外の光散乱特性

Light scattering properties beyond weak-field excitation in atomic ensembles ( http://arxiv.org/abs/2310.17106v3 )

ライセンス: Link先を確認
Chung-Hsien Wang, Nai-Yu Tsai, Yi-Cheng Wang, H. H. Jen, (参考訳) 大型原子系の光学的性質の研究において、線形結合方程式による系のダイナミクスを単純化するために弱いレーザー駆動がしばしば仮定される。 本稿では,原子アンサンブルの光散乱特性について,累積膨張法を用いて検討する。 定常方程式に高次相関を漸進的に組み込むことにより、完全な密度行列を解いた正確な解と比較して精度を向上することができる。 分析の結果, 弱い双極子-双極子相互作用 (DDI) の段階において, 1次展開は光深度に対する良好な予測を導出し, より密度の高い原子配置は高次相関を考慮する必要があることがわかった。 入射光の強度が増加すると、原子飽和効果が顕著になり、光透過性、エネルギーシフト、崩壊速度が著しく変化する。 この飽和現象は、弱い駆動条件下でもサブラジアント原子配列にまで広がり、線形モデルからはかなり逸脱する。 本研究は,線形モデルに対する平均場モデルを精度と計算複雑性の両立を図ったものである。 しかし、このような光物質相互作用系におけるヒルベルト空間の指数関数的増加により理論的に難しいため、大きくて密度の高い原子系における高次累積物の役割は依然として不明である。

In the study of optical properties of large atomic system, a weak laser driving is often assumed to simplify the system dynamics by linearly coupled equations. Here, we investigate the light scattering properties of atomic ensembles beyond weak-field excitation through the cumulant expansion method. By progressively incorporating higher-order correlations into the steady-state equations, an enhanced accuracy can be achieved in comparison to the exact solutions from solving a full density matrix. Our analysis reveals that, in the regime of weak dipole-dipole interaction (DDI), the first-order expansion yields satisfactory predictions for optical depth, while denser atomic configurations necessitate consideration of higher-order correlations. As the intensity of incident light increases, atom saturation effects become noticeable, giving rise to significant changes in light transparency, energy shift, and decay rate. This saturation phenomenon extends to subradiant atom arrays even under weak driving conditions, leading to substantial deviations from the linear model. Our findings demonstrate the mean-field models as good extensions to linear models as it balances both accuracy and computational complexity. However, the crucial role of higher-order cumulants in large and dense atom systems remains unclear, since it is challenging theoretically owing to the exponentially increasing Hilbert space in such light-matter interacting systems.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# SignAvatars: 大規模3D手話のホロスティックモーションデータセットとベンチマーク

SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark ( http://arxiv.org/abs/2310.20436v3 )

ライセンス: Link先を確認
Zhengdi Yu, Shaoli Huang, Yongkang Cheng, Tolga Birdal, (参考訳) 本稿では,難聴者や難聴者のコミュニケーションギャップを埋めるために設計された,最初の大規模マルチプロンプト3D手話(SL)モーションデータセットであるSignAvatarsを紹介する。 デジタルコミュニケーションに関する研究は急速に増えているが、既存のコミュニケーション技術の大部分は、聴覚障害や難聴者コミュニティにとって欠かせないコミュニケーション手法であるSLではなく、主に話し言葉や書き言葉に向いている。 既存のSLデータセット、辞書、手話生成(SLP)メソッドは通常、注釈付けされた3Dモデルとして2Dに制限され、SLのアバターは通常、SLの専門家が完全に手作業で行う労働集約的なプロセスであり、しばしば不自然なアバターをもたらす。 これらの課題に対応するために、我々はSignAvatarsデータセットをコンパイルし、キュレートする。これは153の署名者から7万のビデオで構成され、合計8.34万のフレームで構成され、孤立した記号と連続した協調記号の両方をカバーし、HamNoSys、音声言語、単語を含む複数のプロンプトを含む。 メッシュや人体,手,顔のバイオメカニカルなポーズ,および2Dおよび3Dキーポイントを含む3次元の全体的アノテーションを得るために,当社の大規模なSLビデオコーパスで動作する自動アノテーションパイプラインを導入する。 SignAvatarsは3D手話認識(SLR)や,テキストスクリプトや個々の単語,HamNoSys表記など,さまざまな入力から3D SL生成(SLP)を実現する。 したがって、SignAvatarsの可能性を評価するために、さらに3次元SL総体運動生成の統一的なベンチマークを提案する。 この取り組みは、デジタルの世界を難聴者や難聴者コミュニティ、そして彼らと対話する人々に持ち込むための大きな一歩だと私たちは信じています。

We present SignAvatars, the first large-scale, multi-prompt 3D sign language (SL) motion dataset designed to bridge the communication gap for Deaf and hard-of-hearing individuals. While there has been an exponentially growing number of research regarding digital communication, the majority of existing communication technologies primarily cater to spoken or written languages, instead of SL, the essential communication method for Deaf and hard-of-hearing communities. Existing SL datasets, dictionaries, and sign language production (SLP) methods are typically limited to 2D as annotating 3D models and avatars for SL is usually an entirely manual and labor-intensive process conducted by SL experts, often resulting in unnatural avatars. In response to these challenges, we compile and curate the SignAvatars dataset, which comprises 70,000 videos from 153 signers, totaling 8.34 million frames, covering both isolated signs and continuous, co-articulated signs, with multiple prompts including HamNoSys, spoken language, and words. To yield 3D holistic annotations, including meshes and biomechanically-valid poses of body, hands, and face, as well as 2D and 3D keypoints, we introduce an automated annotation pipeline operating on our large corpus of SL videos. SignAvatars facilitates various tasks such as 3D sign language recognition (SLR) and the novel 3D SL production (SLP) from diverse inputs like text scripts, individual words, and HamNoSys notation. Hence, to evaluate the potential of SignAvatars, we further propose a unified benchmark of 3D SL holistic motion production. We believe that this work is a significant step forward towards bringing the digital world to the Deaf and hard-of-hearing communities as well as people interacting with them.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 時間依存非可換背景における量子調和振動子

Quantum harmonic oscillator in a time dependent noncommutative background ( http://arxiv.org/abs/2311.01482v2 )

ライセンス: Link先を確認
Manjari Dutta, Shreemoyee Ganguly, Sunandan Gangopadhyay, (参考訳) この研究は、前述した[1]における非可換高調波発振器の時間依存性の背景における挙動を探索する。 具体的には、最近 [2] で導入された標準ボップシフト関係の一般化形式を利用して、可換変数の項で表されるときのシステムについて検討する。 我々は時間依存系を解き、非線型微分方程式 Ermakov-Pinney 方程式に付随するルイス不変量の方法を用いて固有関数の解析形式を得た。 すると、Ermakov-Pinney方程式の正確な解析解を得る。 これらの解が成立すると、エネルギー期待値のダイナミクスを解析的に計算し、エルマコフ・ペニー方程式の様々な解集合に対するグラフィカルな表現を探索し、量子数の特定の選択と関連付ける。 最後に、可換ケースと非可換ケースの両方に対して、作用素間の不確実性等式関係の一般化形式を決定した。 期待されたことに、我々の研究は[1]の発見と一致しており、特に座標写像関係が標準のボップシフト関係に還元される特定の極限においてである。

This work explores the behaviour of a noncommutative harmonic oscillator in a time-dependent background, as previously investigated in [1]. Specifically, we examine the system when expressed in terms of commutative variables, utilizing a generalized form of the standard Bopp-shift relations recently introduced in [2]. We solved the time dependent system and obtained the analytical form of the eigenfunction using the method of Lewis invariants, which is associated with the Ermakov-Pinney equation, a non-linear differential equation. We then obtain exact analytical solution set for the Ermakov-Pinney equation. With these solutions in place, we move on to compute the dynamics of the energy expectation value analytically and explore their graphical representations for various solution sets of the Ermakov-Pinney equation, associated with a particular choice of quantum number. Finally, we determined the generalized form of the uncertainty equality relations among the operators for both commutative and noncommutative cases. Expectedly, our study is consistent with the findings in [1], specifically in a particular limit where the coordinate mapping relations reduce to the standard Bopp-shift relations.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# DynaSemble: 知識グラフ補完のためのテキストモデルと構造ベースモデルの動的組立

DynaSemble: Dynamic Ensembling of Textual and Structure-Based Models for Knowledge Graph Completion ( http://arxiv.org/abs/2311.03780v2 )

ライセンス: Link先を確認
Ananjan Nandi, Navdeep Kaur, Parag Singla, Mausam, (参考訳) 本稿では,KGC(Knowledge Graph Completion)に対する2つの一般的なアプローチについて考察する。テキストエンティティ記述に依存するテキストモデルと,KG(Knowledge Graph)の接続構造を利用する構造モデルである。 構造に基づくモデルは、KGのクエリーヘッドから金の解答が容易に到達でき、テキストモデルは、金の解答が容易に到達できない場合でも、説明を利用して良い性能を与える。 そこで本研究では,すべての候補エンティティに対して,モデルによって割り当てられたスコアの分布を用いて,クエリ依存のアンサンブル重みを学習する新しい手法DynaSembleを提案する。 DynaSembleは、3つの標準KGCデータセットの最先端結果を達成する。最大6.8 pt MRRと8.3 pt Hits@1は、WN18RRデータセットの最高のベースラインモデルよりも優れている。

We consider two popular approaches to Knowledge Graph Completion (KGC): textual models that rely on textual entity descriptions, and structure-based models that exploit the connectivity structure of the Knowledge Graph (KG). Preliminary experiments show that these approaches have complementary strengths: structure-based models perform exceptionally well when the gold answer is easily reachable from the query head in the KG, while textual models exploit descriptions to give good performance even when the gold answer is not easily reachable. In response, we propose DynaSemble, a novel method for learning query-dependent ensemble weights to combine these approaches by using the distributions of scores assigned by the models in the ensemble to all candidate entities. DynaSemble achieves state-of-the-art results on three standard KGC datasets, with up to 6.8 pt MRR and 8.3 pt Hits@1 gains over the best baseline model for the WN18RR dataset.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 静的リーク検出のためのLCMを用いた資源指向インテンション推定

Inferring Resource-Oriented Intentions using LLMs for Static Resource Leak Detection ( http://arxiv.org/abs/2311.04448v3 )

ライセンス: Link先を確認
Chong Wang, Jianan Liu, Xin Peng, Yang Liu, Yiling Lou, (参考訳) リソースリークは、買収後にリリースされていないリソースによって引き起こされるもので、しばしばパフォーマンスの問題とシステムのクラッシュを引き起こす。 既存の静的検出技術は,(1) 未定義のリソース取得/リリースAPIの不完全性に起因する偽陰性と(2) リソース到達性検証の不完全性に起因する偽陽性の両方に悩まされ,未公開のリソースを見つけるために,事前定義されたリソース取得/リリースAPIとヌルチェック条件の機械的マッチングに頼っている。 これらの課題を克服するために,大規模言語モデル(LLM)の例外的なコード理解能力を活用して,リソース指向の意図(取得,リリース,到達可能性検証)を直接推論する,新しいアプローチであるInferROIを提案する。 InferROIはまず、LLMに与えられたコードスニペットに関する意図を推測するよう促し、次に2段階の静的解析アプローチを導入して、推論された意図に基づいてリソースリーク検出のための制御フローパスをチェックする。 我々は、リソース指向の意図推論とリソースリーク検出の両方において、InferROIの有効性を評価する。 DroidLeaksとJLeaksのデータセットの実験結果は、InferROIが有望なバグ検出率(59.3%と64.8%)と誤警報率(18.6%と24.0%)を達成したことを示している。 3つの産業用静的検出器と比較して、InferROIは、それぞれDroidLeaksとJLeaksの14〜45と167〜503のバグを検出する。 実際のオープンソースプロジェクトに適用すると、InferROIは26の未知のリソースリークバグを特定し、7つのバグが開発者によって確認されている。 最後に、マニュアルアノテーションは、InferROIが74.6%の精度で、意図的推論で81.8%のリコールを達成し、データセットに関連する60%以上のリソースタイプをカバーしたことを示している。 アブレーション研究の結果は,LSMに基づく推論と静的解析を組み合わせることの重要性を裏付けるものである。

Resource leaks, caused by resources not being released after acquisition, often lead to performance issues and system crashes. Existing static detection techniques rely on mechanical matching of predefined resource acquisition/release APIs and null-checking conditions to find unreleased resources, suffering from both (1) false negatives caused by the incompleteness of predefined resource acquisition/release APIs and (2) false positives caused by the incompleteness of resource reachability validation identification. To overcome these challenges, we propose InferROI, a novel approach that leverages the exceptional code comprehension capability of large language models (LLMs) to directly infer resource-oriented intentions (acquisition, release, and reachability validation) in code. InferROI first prompts the LLM to infer involved intentions for a given code snippet, and then incorporates a two-stage static analysis approach to check control-flow paths for resource leak detection based on the inferred intentions. We evaluate the effectiveness of InferROI in both resource-oriented intention inference and resource leak detection. Experimental results on the DroidLeaks and JLeaks datasets demonstrate InferROI achieves promising bug detection rate (59.3% and 64.8%) and false alarm rate (18.6% and 24.0%). Compared to three industrial static detectors, InferROI detects 14~45 and 167~503 more bugs in DroidLeaks and JLeaks, respectively. When applied to real-world open-source projects, InferROI identifies 26 unknown resource leak bugs, with 7 of them being confirmed by developers. Finally, manual annotation indicated that InferROI achieved a precision of 74.6% and a recall of 81.8% in intention inference, covering more than 60% resource types involved in the datasets. The results of an ablation study underscores the importance of combining LLM-based inference with static analysis.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 固体環境における集団光子放射--非マルコフ力学とマルコフ力学の結合

Collective photon emission in solid state environments: Concatenating non-markovian and markovian dynamics ( http://arxiv.org/abs/2311.04741v2 )

ライセンス: Link先を確認
Devashish Pandey, Martijn Wubs, (参考訳) 固体量子エミッタの集合発光とマルチキュービットダイナミクスは、光場への結合と格子振動の両方によって影響を受ける。 ポーラロンの形成は超高速な非マルコフ力学によって記述され、遅い劣化は指数的崩壊によってよく説明される。 2つの温度依存過程のうち、前者の影響が集合放出とエミッターの絡み合い崩壊をモデル化せず、後者も無視されることがある。 ここでは、複数のエミッタに対しても効率的な2つの手法を提案し、比較する。第1の手法は、高速で遅いフォノン力学を連結し、第2の手法はポーラロン法である。 単一量子エミッタの場合、動的方程式はどちらの方法でも同一であり、2つ以上のエミッタの予測も非常によく一致する。 どちらの手法も、光子放射の温度感受性を示すフォノンによる非マルコフ力学を取り入れている。 単純化されたマルコフモデルを用いることは、量子情報応用において特に正確ではないかもしれない:例えば、非常に低温のときを除いて、マルコフモデルが2エミッターの共起をかなり過大評価していることを示す。 我々の結合法とポーラロン法は、任意の数と種類の量子エミッタに適用でき、ここで考慮するバルクGaAs環境を超えることができる。 特に結合法は、エミッタ-光子相互作用のみをモデル化するのと同じ計算コストでフォノン効果を考慮に入れることができる。 最後に、1次元鎖上の$N$エミッタに対する集合放出スペクトルの近似解析式を示す。

Collective light emission and multi-qubit dynamics of solid-state quantum emitters are affected both by their coupling to the light field and to lattice vibrations. The effect of phonons on quantum emitters is twofold: polaron formation is described by ultrafast non-markovian dynamics, while slower dephasing is well described by exponential decay. Of the two temperature-dependent processes, the effect of the former on the collective emission and the entanglement decay of emitters is usually not modeled, and also the latter is sometimes neglected. Here we propose and compare two methods that are efficient also for several emitters: the first method concatenates the fast and slow phonon dynamics, and the second is the polaron method. For a single quantum emitter, we show that the dynamical equations are identical in both methods, while predictions for two or more emitters also agree very well. Both of our methods incorporate non-markovian dynamics due to phonons demonstrating the temperature sensitivity of the collective photon emission. Utilizing a simplified markovian model instead may not be accurate enough especially for quantum information applications: for example, we show how the markovian model may considerably overestimate the two-emitter concurrence, except at very low temperatures. Our concatenation and polaron methods can be applied to an arbitrary number and type of quantum emitters, and beyond the bulk GaAs environment that we consider here. Especially the concatenation method can take phonon effects into account at the same computational cost as modelling the emitter-photon interaction alone. Finally, we present approximate analytical expressions for the collective emission spectrum for $N$ emitters on a one-dimensional chain.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# トラップイオン鎖における自然界様絡み合い資源の同定

Identification of a natural fieldlike entanglement resource in trapped-ion chains ( http://arxiv.org/abs/2311.08842v2 )

ライセンス: Link先を確認
Natalie Klco, D. H. Beck, (参考訳) イオン鎖の電磁トラップは、局所軸運動モードのヒルベルト空間内での非自明な量子状態準備の過程と見なすことができる。 従来のイオントラップ量子情報処理の副産物として生成されたこの絡み合い資源の特性を明らかにするために、量子連続可変形式は、二次トラップ電位の存在下で局所的な運動モードの前方の絡み合い状態に焦点を合わせるために用いられる。 局所モードの解離部分集合間の絡み合いの減衰は、絡み合い構造の特徴と、自由質量のスカラー場真空を連想させる部分的な測定に対する応答を示す。 両者の間には大きな忠実さがあり、大きなシステムサイズであっても、少数体の絡み合う作用素の深い回路を通して相関関係を構築するのではなく、自然からの「イメージング」拡張絡み合った状態を通じて量子場シミュレーションを初期化する枠組みが確立されている。 局所運動モードの離散フォック部分空間における確率を計算することにより、これらの分散した絡み合い資源をイオン内部エネルギー準位のクォーディットに局所的に移動させることが検討され、この手順が期待される実験可能性が改善される。

The electromagnetic trapping of ion chains can be regarded as a process of non-trivial entangled quantum state preparation within Hilbert spaces of the local axial motional modes. To begin uncovering properties of this entanglement resource produced as a byproduct of conventional ion-trap quantum information processing, the quantum continuous-variable formalism is herein utilized to focus on the leading-order entangled ground state of local motional modes in the presence of a quadratic trapping potential. The decay of entanglement between disjoint subsets of local modes is found to exhibit features of entanglement structure and responses to partial measurement reminiscent of the free massless scalar field vacuum. With significant fidelities between the two, even for large system sizes, a framework is established for initializing quantum field simulations via "imaging" extended entangled states from natural sources, rather than building correlations through deep circuits of few-body entangling operators. By calculating probabilities in discrete Fock subspaces of the local motional modes, considerations are presented for locally transferring these pre-distributed entanglement resources to the qudits of ion internal energy levels, improving this procedure's anticipated experimental viability.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 半効率的な半高速抽出要約のためのプロンプトに基づく擬似ラベル方式

Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization ( http://arxiv.org/abs/2311.09559v3 )

ライセンス: Link先を確認
Gaurav Sahu, Olga Vechtomova, Issam H. Laradji, (参考訳) 半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。 SSLは画像とテキストの分類に人気があるが、抽出テキスト要約のタスクでは比較的過小評価されている。 標準SSL法は、まず分類モデルを訓練し、次に分類器の信頼値を使用してその後の訓練サイクルで擬似ラベルを選択するが、評価のための特定のチューニングが欠如しているため、擬似ラベルの精度を測定するには適していない。 この問題に対処するために,LLMを用いたプロンプトベースの擬似ラベル方式を提案する。 提案手法には,擬似ラベルの品質向上のためのレザベリング機構も含まれている。 本手法は、TweetSumm、WikiHow、ArXiv/PubMedの3つのテキスト要約データセット上で評価する。 擬似ラベルを生成するプロンプトベースのLLMは,すべてのデータセットにおいて,ROUGE-1,ROUGE-2,ROUGE-Lの既存のSSLメソッドよりも優れていることを示す。 さらに,データスカース設定において,L-Evalの競合スコア(LLaMa-3による評価)を完全教師付き手法として達成し,データアバンダント設定において完全教師付き手法より優れる。

Semi-supervised learning (SSL) is a widely used technique in scenarios where labeled data is scarce and unlabeled data is abundant. While SSL is popular for image and text classification, it is relatively underexplored for the task of extractive text summarization. Standard SSL methods follow a teacher-student paradigm to first train a classification model and then use the classifier's confidence values to select pseudo-labels for the subsequent training cycle; however, such classifiers are not suitable to measure the accuracy of pseudo-labels as they lack specific tuning for evaluation, which leads to confidence values that fail to capture the semantics and correctness of the generated summary. To address this problem, we propose a prompt-based pseudo-labeling strategy with LLMs that picks unlabeled examples with more accurate pseudo-labels than using just the classifier's probability outputs. Our approach also includes a relabeling mechanism that improves the quality of pseudo-labels. We evaluate our method on three text summarization datasets: TweetSumm, WikiHow, and ArXiv/PubMed. We empirically show that a prompting-based LLM that scores and generates pseudo-labels outperforms existing SSL methods on ROUGE-1, ROUGE-2, and ROUGE-L scores on all the datasets. Furthermore, our method achieves competitive L-Eval scores (evaluation with LLaMa-3) as a fully supervised method in a data-scarce setting and outperforms fully supervised method in a data-abundant setting.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# ベンチマークバイアス:社会的および非社会的要因のバイアスレポートを組み込むための臨床AIモデルカードの拡張

Benchmarking bias: Expanding clinical AI model card to incorporate bias reporting of social and non-social factors ( http://arxiv.org/abs/2311.12560v2 )

ライセンス: Link先を確認
Carolina A. M. Heming, Mohamed Abdalla, Shahram Mohanna, Monish Ahluwalia, Linglin Zhang, Hari Trivedi, MinJae Woo, Benjamin Fine, Judy Wawira Gichoya, Leo Anthony Celi, Laleh Seyyed-Kalantari, (参考訳) 臨床AIモデルレポートカードは、社会的要因と非社会的要因の両方について広範なバイアスレポートを組み込むよう拡張されるべきである。 非社会的要因は、病気依存、解剖学、機器要因などの他の要因がAIモデルのバイアスに与える影響を考慮し、安全なデプロイメントを保証するのに不可欠である。

Clinical AI model reporting cards should be expanded to incorporate a broad bias reporting of both social and non-social factors. Non-social factors consider the role of other factors, such as disease dependent, anatomic, or instrument factors on AI model bias, which are essential to ensure safe deployment.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 小課題特化モデルの効率的な訓練のためのビジョン基礎モデルからの知識伝達

Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models ( http://arxiv.org/abs/2311.18237v3 )

ライセンス: Link先を確認
Raviteja Vemulapalli, Hadi Pouransari, Fartash Faghri, Sachin Mehta, Mehrdad Farajtabar, Mohammad Rastegari, Oncel Tuzel, (参考訳) 大規模なデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、特にラベル付きターゲットデータに制限のある、さまざまな下流タスクで素晴らしいパフォーマンスを示す。 しかし、高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。 そこで我々は,「大規模VFMからの知識を利用して,限定ラベル付きトレーニングデータを用いた目標タスクの小さなタスク特化モデルをトレーニングするにはどうすればよいのか?」という重要な疑問を提起し,この問題に対して,簡単なタスク指向の知識伝達アプローチを提案する。 5つの課題を対象とした実験の結果,提案手法はタスク非依存のVFM蒸留,WebスケールのCLIPプレトレーニング,イメージネットプレトレーニング,DINOプレトレーニングを最大11.6%,22.1%,13.7%,29.8%で上回った。 さらに,提案手法は,タスクに依存しないVFM蒸留,ImageNetプレトレーニング,DINOプレトレーニングと比較して,最大9倍,4倍,および15倍の事前トレーニング計算コストを削減できることを示した。 また,知識の伝達に使用されるデータセットが最終目標タスクのパフォーマンスに重要な影響を与えることを示し,Webスケールの画像検索による効果的な伝達セットの算出を行う検索強化された知識伝達戦略を提案する。

Vision Foundation Models (VFMs) pretrained on massive datasets exhibit impressive performance on various downstream tasks, especially with limited labeled target data. However, due to their high inference compute cost, these models cannot be deployed for many real-world applications. Motivated by this, we ask the following important question, "How can we leverage the knowledge from a large VFM to train a small task-specific model for a new target task with limited labeled training data?", and propose a simple task-oriented knowledge transfer approach as a highly effective solution to this problem. Our experimental results on five target tasks show that the proposed approach outperforms task-agnostic VFM distillation, web-scale CLIP pretraining, supervised ImageNet pretraining, and self-supervised DINO pretraining by up to 11.6%, 22.1%, 13.7%, and 29.8%, respectively. Furthermore, the proposed approach also demonstrates up to 9x, 4x and 15x reduction in pretraining compute cost when compared to task-agnostic VFM distillation, ImageNet pretraining and DINO pretraining, respectively, while outperforming them. We also show that the dataset used for transferring knowledge has a significant effect on the final target task performance, and introduce a retrieval-augmented knowledge transfer strategy that uses web-scale image retrieval to curate effective transfer sets.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 高速指紋照合のための固定長Dense Descriptor

Fixed-length Dense Descriptor for Efficient Fingerprint Matching ( http://arxiv.org/abs/2311.18576v4 )

ライセンス: Link先を確認
Zhiyu Pan, Yongjie Duan, Jianjiang Feng, Jie Zhou, (参考訳) 指紋照合では、固定長ディスクリプタは一般的に、ミツイアセットよりも効率が良いが、認識精度は後者ほど良くない。 近年、深層学習に基づく固定長記述法で多くの進歩が見られたが、不完全な指紋や部分的な指紋、多様な指紋のポーズ、大きな背景雑音を扱う場合、しばしば不足する。 本稿では,指紋照合のためのFDD(Fixed-length Dense Descriptor)という3次元表現を提案する。 FDDには大きな空間特性があり、元の指紋の空間的関係を捉え、解釈性と堅牢性を高めることができる。 各種指紋データセットに対する実験により,FDDは他の固定長ディスクリプタよりも優れており,特に異なる領域の指紋のマッチング,クロスモーダル指紋のマッチング,背景雑音の指紋のマッチングにおいて優れていた。

In fingerprint matching, fixed-length descriptors generally offer greater efficiency compared to minutiae set, but the recognition accuracy is not as good as that of the latter. Although much progress has been made in deep learning based fixed-length descriptors recently, they often fall short when dealing with incomplete or partial fingerprints, diverse fingerprint poses, and significant background noise. In this paper, we propose a three-dimensional representation called Fixed-length Dense Descriptor (FDD) for efficient fingerprint matching. FDD features great spatial properties, enabling it to capture the spatial relationships of the original fingerprints, thereby enhancing interpretability and robustness. Our experiments on various fingerprint datasets reveal that FDD outperforms other fixed-length descriptors, especially in matching fingerprints of different areas, cross-modal fingerprint matching, and fingerprint matching with background noise.
翻訳日:2024-07-04 08:09:56 公開日:2024-07-02
# 離散量子ウォークにおけるε$-Uniform Mixing

$ε$-Uniform Mixing in Discrete Quantum Walks ( http://arxiv.org/abs/2311.18797v3 )

ライセンス: Link先を確認
Hanmeng Zhan, (参考訳) 離散的な量子ウォークの確率分布が、ある頂点の外側の弧の均一な重ね合わせから始まることを考慮し、任意に均一に近づくことができるかどうかを考察する。 我々は、正則な非二部グラフ上のこの現象を、それらの隣接固有値と固有射影の観点から特徴づける。 相関スキームの理論を用いて、この現象が強正則グラフ $X$ 上で起こり、かつ $X$ または $\overline{X}$ がパラメータ $(4m^2, 2m^2\pm m, m^2\pm m, m^2\pm m)$ を持つときのみであることを示す。

We study whether the probability distribution of a discrete quantum walk can get arbitrarily close to uniform, given that the walk starts with a uniform superposition of the outgoing arcs of some vertex. We establish a characterization of this phenomenon on regular non-bipartite graphs in terms of their adjacency eigenvalues and eigenprojections. Using theory from association schemes, we show this phenomenon happens on a strongly regular graph $X$ if and only if $X$ or $\overline{X}$ has parameters $(4m^2, 2m^2\pm m, m^2\pm m, m^2\pm m)$ where $m\ge 2$.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# FLea: プライバシ保護機能拡張によるフェデレーション学習におけるデータスカシティとラベルスキューへの対処

FLea: Addressing Data Scarcity and Label Skew in Federated Learning via Privacy-preserving Feature Augmentation ( http://arxiv.org/abs/2312.02327v2 )

ライセンス: Link先を確認
Tong Xia, Abhirup Ghosh, Xinchi Qiu, Cecilia Mascolo, (参考訳) フェデレートラーニング(FL)は、ローカルデータを中央サーバに転送することなく、多数のエッジデバイスに分散したデータを活用することによって、モデル開発を可能にする。 しかし、既存のFL手法は、デバイス間のデータ不足やラベルスキュートを扱う際にも問題に直面しており、結果として局所的なモデルオーバーフィットやドリフトが発生し、グローバルモデルの性能を損なうことになる。 これらの課題に対応して、以下の重要なコンポーネントを取り入れた、‘textit{FLea}’と呼ばれる先駆的なフレームワークを提案する。 この設計は、特定のクラスが存在しないことによって生じる局所モデルドリフトを緩和する; \textit{ii} 局所的およびグローバルなアクティベーションミックスアップに基づく特徴増強アプローチ。 この戦略はトレーニングサンプルを拡大し、ローカルなオーバーフィッティングのリスクを低減する。 \textit{iii} 中間的アクティベーションとソースデータとの相関を最小化し、共有機能のプライバシを高めるための難読化手法である。 textit{FLea} の優越性を検証するため,局所データ不足度とラベルスキューの異なるレベルをシミュレートし,幅広いデータモダリティを用いた広範囲な実験を行った。 その結果、 \textit{FLea} は最先端の FL よりも一貫して優れており(実験された 18 設定のうち 13 つは、改善は 5\%$ 以上である)、同時に共有機能に関連するプライバシー上の脆弱性を軽減している。 コードはhttps://github.com/XTxiatong/FLea.gitで入手できる。

Federated Learning (FL) enables model development by leveraging data distributed across numerous edge devices without transferring local data to a central server. However, existing FL methods still face challenges when dealing with scarce and label-skewed data across devices, resulting in local model overfitting and drift, consequently hindering the performance of the global model. In response to these challenges, we propose a pioneering framework called \textit{FLea}, incorporating the following key components: \textit{i)} A global feature buffer that stores activation-target pairs shared from multiple clients to support local training. This design mitigates local model drift caused by the absence of certain classes; \textit{ii)} A feature augmentation approach based on local and global activation mix-ups for local training. This strategy enlarges the training samples, thereby reducing the risk of local overfitting; \textit{iii)} An obfuscation method to minimize the correlation between intermediate activations and the source data, enhancing the privacy of shared features. To verify the superiority of \textit{FLea}, we conduct extensive experiments using a wide range of data modalities, simulating different levels of local data scarcity and label skew. The results demonstrate that \textit{FLea} consistently outperforms state-of-the-art FL counterparts (among 13 of the experimented 18 settings, the improvement is over $5\%$) while concurrently mitigating the privacy vulnerabilities associated with shared features. Code is available at https://github.com/XTxiatong/FLea.git
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# SMERF: リアルタイム大規模探査のためのストリーミングメモリ効率の良い放射場

SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration ( http://arxiv.org/abs/2312.07541v3 )

ライセンス: Link先を確認
Daniel Duckworth, Peter Hedman, Christian Reiser, Peter Zhizhin, Jean-François Thibert, Mario Lučić, Richard Szeliski, Jonathan T. Barron, (参考訳) 近年のリアルタイム・ビュー・シンセサイザー技術は, 忠実度と速度が急速に向上し, インタラクティブなフレームレートで近光写実的シーンをレンダリングすることができる。 同時に、ラスタ化に寄与する明示的なシーン表現と、レイマーチング上に構築されたニューラルフィールドとの間に緊張が生じ、後者の最先端のインスタンスは、リアルタイムアプリケーションでは違法に高価であると同時に、前者の品質を上回っている。 本研究では,300 m$^2$ のフットプリントを持つ大画面のリアルタイム手法において,3.5 mm$^3$ の容積分解能で最先端の精度を実現するビュー合成手法 SMERF を紹介する。 本手法は,計算量とメモリ消費を制約しながらモデル容量を増加させる階層的モデル分割方式と,高忠実度と内部整合性を同時に生成する蒸留訓練戦略の2つの主要な貢献に基づいて構築されている。 当社のアプローチでは,Webブラウザ内でのフル6自由度(6DOF)ナビゲーションを可能にし,コモディティスマートフォンやラップトップ上でリアルタイムにレンダリングする。 広汎な実験により,本手法は,標準ベンチマークで0.78dB,大画面で1.78dB,フレームを3桁の速度でレンダリングし,スマートフォンを含む多種多様な商品機器でリアルタイムな性能を実現する。 プロジェクトのWebサイトでは、これらのモデルをインタラクティブに探求することを読者に勧めています。

Recent techniques for real-time view synthesis have rapidly advanced in fidelity and speed, and modern methods are capable of rendering near-photorealistic scenes at interactive frame rates. At the same time, a tension has arisen between explicit scene representations amenable to rasterization and neural fields built on ray marching, with state-of-the-art instances of the latter surpassing the former in quality while being prohibitively expensive for real-time applications. In this work, we introduce SMERF, a view synthesis approach that achieves state-of-the-art accuracy among real-time methods on large scenes with footprints up to 300 m$^2$ at a volumetric resolution of 3.5 mm$^3$. Our method is built upon two primary contributions: a hierarchical model partitioning scheme, which increases model capacity while constraining compute and memory consumption, and a distillation training strategy that simultaneously yields high fidelity and internal consistency. Our approach enables full six degrees of freedom (6DOF) navigation within a web browser and renders in real-time on commodity smartphones and laptops. Extensive experiments show that our method exceeds the current state-of-the-art in real-time novel view synthesis by 0.78 dB on standard benchmarks and 1.78 dB on large scenes, renders frames three orders of magnitude faster than state-of-the-art radiance field models, and achieves real-time performance across a wide variety of commodity devices, including smartphones. We encourage readers to explore these models interactively at our project website: https://smerf-3d.github.io.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 絡み合い深さ$k$の完全絡み合い部分空間

Completely entangled subspaces of entanglement depth $k$ ( http://arxiv.org/abs/2312.08474v3 )

ライセンス: Link先を確認
Maciej Demianowicz, Kajetan Vogtt, Remigiusz Augusiak, (参考訳) 完全に絡み合う部分空間は、絡み合う深さ$k$$$k$-CESsである。 これらは、少なくとも$k$の絡み合い深さを持つ純粋状態のみを含む多部ヒルベルト空間の部分空間である。 マルチパーティのシナリオで達成可能な次元の$k$-CESを効率的に構築する。 さらに、これらの部分空間と拡張不可能な製品ベース(UPB)との関係について論じる。 特に、直補集合が$k$-CES である UPB の濃度に非自明な境界が存在することを確かめる。 さらに、量子ビットシステムにおけるそのような UPB の存在について論じる。

We introduce a class of entangled subspaces: completely entangled subspaces of entanglement depth $k$ ($k$-CESs). These are subspaces of multipartite Hilbert spaces containing only pure states with an entanglement depth of at least $k$. We present an efficient construction of $k$-CESs of any achievable dimensionality in any multipartite scenario. Further, we discuss the relation between these subspaces and unextendible product bases (UPBs). In particular, we establish that there is a non-trivial bound on the cardinality of a UPB whose orthocomplement is a $k$-CES. Further, we discuss the existence of such UPBs for qubit systems.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 低エネルギー部分空間におけるディジタル量子シミュレーションの複雑さ:応用と下界

Complexity of Digital Quantum Simulation in the Low-Energy Subspace: Applications and a Lower Bound ( http://arxiv.org/abs/2312.08867v2 )

ライセンス: Link先を確認
Weiyuan Gong, Shuo Zhou, Tongyang Li, (参考訳) デジタル量子シミュレーションは、ハミルトニアンのユニタリ進化の近似に広く応用されている。 実際、量子系の多くのシミュレーションタスクはヒルベルト空間全体ではなく低エネルギー部分空間の量子状態に焦点を当てている。 本稿では,低エネルギー部分空間の積公式に基づいて,ディジタル量子シミュレーションの複雑さを系統的に検討する。 シミュレーション誤差は、様々なデジタル量子シミュレーションアルゴリズムや量子システムにおいて、ハミルトニアンの有効な低エネルギーノルムに依存しており、不完全な状態の準備のためにも、完全なユニタリシミュレーションにおいて以前の複雑さよりも改善できることが示される。 特に、低エネルギー部分空間におけるスピンモデルをシミュレートするためには、qDRIFTやランダムな置換のようなランダム化された積公式がより小さなトロッター数を必要とすることを証明する。 このような改善は対称性に保護されたデジタル量子シミュレーションでも継続する。 我々は、パワーロー量子相互作用の力学をシミュレートする上で、同様の改善を証明した。 また、低エネルギー部分空間における一般ディジタル量子シミュレーションのためのクエリローバウンドを提供する。

Digital quantum simulation has broad applications in approximating unitary evolution of Hamiltonians. In practice, many simulation tasks for quantum systems focus on quantum states in the low-energy subspace instead of the entire Hilbert space. In this paper, we systematically investigate the complexity of digital quantum simulation based on product formulas in the low-energy subspace. We show that the simulation error depends on the effective low-energy norm of the Hamiltonian for a variety of digital quantum simulation algorithms and quantum systems, allowing improvements over the previous complexities for full unitary simulations even for imperfect state preparations {due to thermalization}. In particular, for simulating spin models in the low-energy subspace, we prove that randomized product formulas such as qDRIFT and random permutation require smaller Trotter numbers. Such improvement also persists in symmetry-protected digital quantum simulations. We prove a similar improvement in simulating the dynamics of power-law quantum interactions. We also provide a query lower bound for general digital quantum simulations in the low-energy subspace.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 視線追跡による中国語話者の言語景観イメージの認識

Using eye tracking to investigate what native Chinese speakers notice about linguistic landscape images ( http://arxiv.org/abs/2312.08906v4 )

ライセンス: Link先を確認
Zichao Wei, Yewei Qin, (参考訳) 言語学のランドスケープは社会言語学研究において重要な分野である。 視線追跡技術は心理学研究において一般的な技術である。 言語学的景観を研究するために眼球運動を用いる例は少ない。 本稿では,言語景観の実際の定着時間と定着時間の2次元において,言語景観に対する中国語話者の定着度は,一般的な景観よりも高いことがわかった。 本稿は,この現象が言語景観の高次情報密度に起因することを論じる。 同時に、この記事は、この現象の他の可能性についても論じている。

Linguistic landscape is an important field in sociolinguistic research. Eye tracking technology is a common technology in psychological research. There are few cases of using eye movement to study linguistic landscape. This paper uses eye tracking technology to study the actual fixation of the linguistic landscape and finds that in the two dimensions of fixation time and fixation times, the fixation of native Chinese speakers to the linguistic landscape is higher than that of the general landscape. This paper argues that this phenomenon is due to the higher information density of linguistic landscapes. At the same time, the article also discusses other possible reasons for this phenomenon.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# GSQA: 創発的質問応答のためのエンドツーエンドモデル

GSQA: An End-to-End Model for Generative Spoken Question Answering ( http://arxiv.org/abs/2312.09781v3 )

ライセンス: Link先を確認
Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee, (参考訳) 近年の音声質問応答 (QA) の進歩により, エンド・ツー・エンドのモデルは大きな進歩を遂げている。 しかし、これまでの研究では主に抽出スパンの選択に焦点が当てられていた。 この抽出に基づくアプローチは、入力の中に直接回答が存在する場合に有効であるが、解答が直接抽出されるのではなく、与えられた情報から推測されるような抽象的な疑問に対処するには不十分である。 このギャップを埋めるために,システムに抽象的推論を強制する,最初のエンドツーエンドのジェネレーティブ・スポット質問回答(GSQA)モデルを導入する。 GSQAモデルをトレーニングする上での課題は、音声抽象的なQAデータセットがないことです。 本稿では,テキスト生成モデルから音声生成モデルへ知識を伝達するために,抽出されたQAデータセットを初期化および活用するためにテキストモデルを提案する。 実験結果から, 抽出されたQAデータセットでは, 従来の抽出モデルよりも3%上回ったことが示唆された。 さらに、GSQAモデルは、音声抽出QAデータセット上でのみ微調整されている。 音声による抽象的なQAデータを見たことはないが、それでもカスケードモデルの性能と密に一致させることができる。 結論として,我々のGSQAモデルは,より広い範囲の質問に一般化できる可能性を示し,抽象的QAの音声質問応答能力をさらに拡張する。 私たちのコードはhttps://voidful.github.io/GSQAで利用可能です。

In recent advancements in spoken question answering (QA), end-to-end models have made significant strides. However, previous research has primarily focused on extractive span selection. While this extractive-based approach is effective when answers are present directly within the input, it falls short in addressing abstractive questions, where answers are not directly extracted but inferred from the given information. To bridge this gap, we introduce the first end-to-end Generative Spoken Question Answering (GSQA) model that empowers the system to engage in abstractive reasoning. The challenge in training our GSQA model lies in the absence of a spoken abstractive QA dataset. We propose using text models for initialization and leveraging the extractive QA dataset to transfer knowledge from the text generative model to the spoken generative model. Experimental results indicate that our model surpasses the previous extractive model by 3% on extractive QA datasets. Furthermore, the GSQA model has only been fine-tuned on the spoken extractive QA dataset. Despite not having seen any spoken abstractive QA data, it can still closely match the performance of the cascade model. In conclusion, our GSQA model shows the potential to generalize to a broad spectrum of questions, thus further expanding the spoken question answering capabilities of abstractive QA. Our code is available at https://voidful.github.io/GSQA
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 非ガウス的優位性をもつ連続変数テレクロニングのための古典的でない資源

Nonclassical resource for continuous variable telecloning with non-Gaussian advantage ( http://arxiv.org/abs/2312.13586v2 )

ライセンス: Link先を確認
Sudipta Das, Rivu Gupta, Himadri Shekhar Dhar, Aditi Sen De, (参考訳) テレポーテーションと近似クローニングの概念を利用して、単一の送信者から共有絡み合った状態を介して複数の受信者に量子状態を分配する。 ガウス的資源と非ガウス的資源の両方を用いて得られた最適なテレクロニング特性について検討する。 共有非ガウス状態がガウスの2モード圧縮真空状態の両モードから光子を減じることによって生成される場合、ガウスの2モード圧縮真空状態と比較して高いテレクロニング忠実度が達成できることを示す。 この利点を定量化するために、ガウス的資源状態と非ガウス的資源状態の両方でクローンの忠実度を推定できる二次的非古典性測度を導入する。 さらに、多モード交絡状態を用いた連続変数状態の非対称テレクロニングのための線形光学的セットアップを提供する。

The telecloning protocol distributes quantum states from a single sender to multiple receivers via a shared entangled state by exploiting the notions of teleportation and approximate cloning. We investigate the optimal telecloning fidelities obtained using both Gaussian and non-Gaussian shared resources. When the shared non-Gaussian state is created by subtracting photons from both the modes of the Gaussian two-mode squeezed vacuum state, we demonstrate that higher telecloning fidelities can be achieved in comparison with its Gaussian counterpart. To quantify this advantage, we introduce a quadrature-based nonclassicality measure, which is capable of estimating the fidelity of the clones, both with Gaussian and non-Gaussian resource states. We further provide a linear optical setup for asymmetric telecloning of continuous variable states using a multimode entangled state.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 表現工学による人間の嗜好を考慮した大規模言語モデルの調整

Aligning Large Language Models with Human Preferences through Representation Engineering ( http://arxiv.org/abs/2312.15997v2 )

ライセンス: Link先を確認
Wenhao Liu, Xiaohua Wang, Muling Wu, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang, (参考訳) 人間の好みで大きな言語モデル(LLM)を調整することは、有用性、真理性、安全性、無害性、面白さの観点から、その実用性を高めるために不可欠である。 このアライメントを実現するための既存の方法は、モデル応答の相対的品質を評価する人間ラベルに基づいて、人間からのフィードバック(RLHF)から微調整LDMへの強化学習を用いる場合が多い。 それにもかかわらず、RLHFは微調整の不安定さに敏感であり、新しい表現工学(RepE)からインスピレーションを得て、LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定し、その表現を変換してモデル行動の正確な制御を実現することを目的としている。 人間のフィードバックからの表現アライメント(Representation Alignment from Human Feedback, RAHF)と呼ばれるこの新しいアプローチは, RAHFの有効性, 計算効率, 実装が容易であることが証明されている。 RAHFの多様な人間の嗜好の調節における汎用性は、LLM性能を向上させる可能性を示している。

Aligning large language models (LLMs) with human preferences is crucial for enhancing their utility in terms of helpfulness, truthfulness, safety, harmlessness, and interestingness. Existing methods for achieving this alignment often involves employing reinforcement learning from human feedback (RLHF) to fine-tune LLMs based on human labels assessing the relative quality of model responses. Nevertheless, RLHF is susceptible to instability during fine-tuning and presents challenges in implementation.Drawing inspiration from the emerging field of representation engineering (RepE), this study aims to identify relevant representations for high-level human preferences embedded in patterns of activity within an LLM, and achieve precise control of model behavior by transforming its representations. This novel approach, denoted as Representation Alignment from Human Feedback (RAHF), proves to be effective, computationally efficient, and easy to implement.Extensive experiments demonstrate the efficacy of RAHF in not only capturing but also manipulating representations to align with a broad spectrum of human preferences or values, rather than being confined to a singular concept or function (e.g. honesty or bias). RAHF's versatility in accommodating diverse human preferences shows its potential for advancing LLM performance.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# ColorizeDiffusion: 参照画像とテキストによる調整可能なスケッチカラー化

ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text ( http://arxiv.org/abs/2401.01456v2 )

ライセンス: Link先を確認
Dingkun Yan, Liang Yuan, Erwin Wu, Yuma Nishioka, Issei Fujishiro, Suguru Saito, (参考訳) 拡散モデルは最近、非常に高品質な画像を生成することの有効性を実証し、現在、スケッチの自動色付けを含む広範囲のアプリケーションで利用されている。 スケッチカラー化のための多くの方法が開発されているが、画像プロンプトとスケッチ入力の間の潜在的な衝突について限定的な調査が行われており、その結果が大幅に劣化する可能性がある。 そこで本研究では,参照カラー画像を用いたスケッチ画像のカラー化を目的とした,参照ベースのスケッチカラー化モデルについて,徹底的に検討する。 具体的には、テキストベースの拡散モデルにおける「分散問題」と、ゼロショットシーケンシャルなテキストベースの操作能力の2つの重要な側面について検討する。 事前学習したCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを導入し、重み付きテキスト入力を用いて結果を調整するための対応する操作法を提案する。 我々は,定性的かつ定量的な実験とユーザスタディを通じて,モデルの総合的な評価を行う。

Diffusion models have recently demonstrated their effectiveness in generating extremely high-quality images and are now utilized in a wide range of applications, including automatic sketch colorization. Although many methods have been developed for guided sketch colorization, there has been limited exploration of the potential conflicts between image prompts and sketch inputs, which can lead to severe deterioration in the results. Therefore, this paper exhaustively investigates reference-based sketch colorization models that aim to colorize sketch images using reference color images. We specifically investigate two critical aspects of reference-based diffusion models: the "distribution problem", which is a major shortcoming compared to text-based counterparts, and the capability in zero-shot sequential text-based manipulation. We introduce two variations of an image-guided latent diffusion model utilizing different image tokens from the pre-trained CLIP image encoder and propose corresponding manipulation methods to adjust their results sequentially using weighted text inputs. We conduct comprehensive evaluations of our models through qualitative and quantitative experiments as well as a user study.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# 衣服交換者再識別のための仮面属性記述埋め込み

Masked Attribute Description Embedding for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2401.05646v3 )

ライセンス: Link先を確認
Chunlei Peng, Boyu Wang, Decheng Liu, Nannan Wang, Ruimin Hu, Xinbo Gao, (参考訳) 衣服交換者再識別(CC-ReID)は,長期にわたって衣服を交換する者をマッチングすることを目的としている。 CC-ReIDの鍵となる課題は、顔、髪型、体型、歩行など、衣服に依存しない特徴を抽出することである。 現在の研究は、主にマルチモーダルな生物学的特徴(シルエットやスケッチなど)を用いて体形をモデル化することに焦点を当てている。 しかし、元のRGB画像に隠された個人記述情報を十分に活用していない。 布地変更後に変化しない属性記述が存在することを考慮し, CC-ReID の視覚的外観と属性記述を統一する Masked Attribute Description Embedding (MADE) 法を提案する。 具体的には,色や型などの着衣に敏感な情報を扱うことは,効果的なモデリングには困難である。 これを解決するために,属性検出モデルを用いて抽出した個人属性記述における衣服や色情報を隠蔽する。 マスクされた属性記述は、様々なレベルでTransformerブロックに接続され、画像の低レベルから高レベルの特徴と融合する。 このアプローチは、衣服情報を破棄するモデルを補完する。 実験は、PRCC、LTCC、Celeb-reID-light、LaSTなど、いくつかのCC-ReIDベンチマークで実施されている。 その結果,MADEは属性記述を効果的に活用し,布を交換する人物の再識別性能を高め,最先端の手法と比較した。 コードはhttps://github.com/moon-wh/MADE.comで公開されている。

Cloth-changing person re-identification (CC-ReID) aims to match persons who change clothes over long periods. The key challenge in CC-ReID is to extract clothing-independent features, such as face, hairstyle, body shape, and gait. Current research mainly focuses on modeling body shape using multi-modal biological features (such as silhouettes and sketches). However, it does not fully leverage the personal description information hidden in the original RGB image. Considering that there are certain attribute descriptions which remain unchanged after the changing of cloth, we propose a Masked Attribute Description Embedding (MADE) method that unifies personal visual appearance and attribute description for CC-ReID. Specifically, handling variable clothing-sensitive information, such as color and type, is challenging for effective modeling. To address this, we mask the clothing and color information in the personal attribute description extracted through an attribute detection model. The masked attribute description is then connected and embedded into Transformer blocks at various levels, fusing it with the low-level to high-level features of the image. This approach compels the model to discard clothing information. Experiments are conducted on several CC-ReID benchmarks, including PRCC, LTCC, Celeb-reID-light, and LaST. Results demonstrate that MADE effectively utilizes attribute description, enhancing cloth-changing person re-identification performance, and compares favorably with state-of-the-art methods. The code is available at https://github.com/moon-wh/MADE.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# PIN-SLAM:グローバルマップ整合性獲得のための点ベース命令型ニューラル表現を用いたLiDAR SLAM

PIN-SLAM: LiDAR SLAM Using a Point-Based Implicit Neural Representation for Achieving Global Map Consistency ( http://arxiv.org/abs/2401.09101v2 )

ライセンス: Link先を確認
Yue Pan, Xingguang Zhong, Louis Wiesmann, Thorbjörn Posewsky, Jens Behley, Cyrill Stachniss, (参考訳) 正確な位置決めとマッピングは、ほとんどの自律ロボットにとって不可欠な要素である。 本稿では,PIN-SLAMと呼ばれる,弾性的かつコンパクトな点ベース暗黙的ニューラルマップ表現に基づくグローバルな一貫したマップ構築のためのSLAMシステムを提案する。 提案手法は,局所的な暗黙的符号距離場の漸進的学習と,対応のないポイント・ツー・インプリシットモデル登録を用いた現在の局所写像を用いたポーズ推定とを交互に行う。 我々の暗黙の地図は、ループを閉じる際の大域的なポーズ調整とともに、本質的に弾性で変形可能なスパース最適化可能なニューラルポイントに基づいている。 ループは神経点の特徴を用いて検出される。 広範囲な実験により、PIN-SLAMは様々な環境に対して堅牢であり、LiDARやRGB-Dカメラのような様々な範囲のセンサーに汎用性があることが確認された。 PIN-SLAMは、最先端のLiDARオドメトリーやSLAMシステムと同等以上のポーズ推定精度を達成し、より一貫性があり、高精度かつ完全なメッシュとして再構築可能な、非常にコンパクトな暗黙のマップを維持しながら、最近のニューラル暗黙のSLAMアプローチより優れている。 最後に、効率的なニューラルポイントインデックス作成のためのボクセルハッシュと、最も近いポイント関連のない高速な暗黙マップベースの登録のおかげで、PIN-SLAMは適度なGPU上でセンサーフレームレートで実行できる。 コードは、https://github.com/PRBonn/PIN_SLAM.comから入手できる。

Accurate and robust localization and mapping are essential components for most autonomous robots. In this paper, we propose a SLAM system for building globally consistent maps, called PIN-SLAM, that is based on an elastic and compact point-based implicit neural map representation. Taking range measurements as input, our approach alternates between incremental learning of the local implicit signed distance field and the pose estimation given the current local map using a correspondence-free, point-to-implicit model registration. Our implicit map is based on sparse optimizable neural points, which are inherently elastic and deformable with the global pose adjustment when closing a loop. Loops are also detected using the neural point features. Extensive experiments validate that PIN-SLAM is robust to various environments and versatile to different range sensors such as LiDAR and RGB-D cameras. PIN-SLAM achieves pose estimation accuracy better or on par with the state-of-the-art LiDAR odometry or SLAM systems and outperforms the recent neural implicit SLAM approaches while maintaining a more consistent, and highly compact implicit map that can be reconstructed as accurate and complete meshes. Finally, thanks to the voxel hashing for efficient neural points indexing and the fast implicit map-based registration without closest point association, PIN-SLAM can run at the sensor frame rate on a moderate GPU. Codes will be available at: https://github.com/PRBonn/PIN_SLAM.
翻訳日:2024-07-04 07:59:39 公開日:2024-07-02
# SlideAVSR: 音声認識のための論文解説ビデオのデータセット

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2401.09759v2 )

ライセンス: Link先を確認
Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara, (参考訳) AVSR(Audio-visual speech Recognition)は、音声の補完としてビデオを使用する自動音声認識(ASR)のマルチモーダル拡張である。 AVSRでは、リップリーディングのような顔の特徴のデータセットにかなりの努力が注がれているが、より広い文脈での画像理解能力を評価するには不足していることが多い。 本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。 SlideAVSRは、プレゼンテーション記録上のスライド上のテキストで、モデルが音声を転写する新しいベンチマークを提供する。 論文の説明で頻繁に見られる技術的用語は、参照テキストなしでは書き起こしが難しいことで悪名高いため、SlideAVSRデータセットはAVSR問題の新たな側面を浮き彫りにしている。 本稿では,スライドからテキスト情報を参照可能なAVSRモデルであるDocWhisperを提案する。

Audio-visual speech recognition (AVSR) is a multimodal extension of automatic speech recognition (ASR), using video as a complement to audio. In AVSR, considerable efforts have been directed at datasets for facial features such as lip-readings, while they often fall short in evaluating the image comprehension capabilities in broader contexts. In this paper, we construct SlideAVSR, an AVSR dataset using scientific paper explanation videos. SlideAVSR provides a new benchmark where models transcribe speech utterances with texts on the slides on the presentation recordings. As technical terminologies that are frequent in paper explanations are notoriously challenging to transcribe without reference texts, our SlideAVSR dataset spotlights a new aspect of AVSR problems. As a simple yet effective baseline, we propose DocWhisper, an AVSR model that can refer to textual information from slides, and confirm its effectiveness on SlideAVSR.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# 大規模言語モデルを用いた臨床文書の動的Q&A

Dynamic Q&A of Clinical Documents with Large Language Models ( http://arxiv.org/abs/2401.10733v2 )

ライセンス: Link先を確認
Ran Elgedawy, Ioana Danciu, Maria Mahbub, Sudarshan Srinivasan, (参考訳) 電子健康記録(EHR)は臨床記録に重要な患者データを格納する。 これらのメモがボリュームと複雑さを増すにつれて、手作業による抽出が困難になる。 本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。 弊社のチャットボットはLangchainとTransformerベースのLLMで、ユーザーは自然言語で検索でき、臨床ノートから関連する回答を受信できる。 様々な埋め込みモデルと高度なLLMを利用する実験は、高い計算要求にもかかわらず、ウィザード・ヴィクナの優れた精度を示している。 重み量子化を含むモデル最適化は、約48倍のレイテンシを改善する。 有意な結果が得られたが、モデル幻覚や限られた多様な医療ケース評価などの課題は残されている。 これらのギャップに対処することは、臨床ノートの価値を解き放ち、AIによる臨床意思決定を進めるために不可欠である。

Electronic health records (EHRs) house crucial patient data in clinical notes. As these notes grow in volume and complexity, manual extraction becomes challenging. This work introduces a natural language interface using large language models (LLMs) for dynamic question-answering on clinical notes. Our chatbot, powered by Langchain and transformer-based LLMs, allows users to query in natural language, receiving relevant answers from clinical notes. Experiments, utilizing various embedding models and advanced LLMs, show Wizard Vicuna's superior accuracy, albeit with high compute demands. Model optimization, including weight quantization, improves latency by approximately 48 times. Promising results indicate potential, yet challenges such as model hallucinations and limited diverse medical case evaluations remain. Addressing these gaps is crucial for unlocking the value in clinical notes and advancing AI-driven clinical decision-making.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# 機械学習に基づくレアイベントアルゴリズムによるAMOC遷移確率の推定

Estimation of AMOC transition probabilities using a machine learning based rare-event algorithm ( http://arxiv.org/abs/2401.10800v3 )

ライセンス: Link先を確認
Valérian Jacques-Dumas, René M. van Westen, Henk A. Dijkstra, (参考訳) アトランティック・メリディショナル・オーバーターン循環(Atlantic Meridional Overturning Circulation、AMOC)は、地球温暖化によって崩壊する可能性があるため、地球規模の気候の重要な要素である。 本研究の目的は,TAMS (Trajectory-Adaptive Multilevel Splitting) と呼ばれる希少なアルゴリズムを用いて,AMOCが特定の時間窓内で崩壊する確率を計算することである。 しかし,TAMSの効率と精度はスコア関数の選択に依存する。 最適スコア関数の定義は ``committor function' と呼ばれるが、一般にはそれを事前計算することは不可能である。 本稿では,TAMSとNext-Generation Reservoir Computing技術を組み合わせて,レアイベントアルゴリズムによって生成されたデータからコミッタ関数を推定する。 本稿では,この手法を,F(ast)-transitionsとS(low)-transitionsという2種類の遷移が存在するAMOCの確率的ボックスモデルで検証する。 F-transtionsの結果は,物理インフォームドスコア関数を用いた文献と比較した。 機械学習と希少なアルゴリズムを結合することにより、幅広いモデルパラメータに対する遷移確率、遷移時間、遷移経路の正確な推定が可能になることを示す。 次に、これらの結果を同じモデルにおけるS-遷移のより難しい問題に拡張する。 また, F-transitions と S-transitions のどちらの場合においても, 次世代貯留層計算技術がどのように解釈され, コミッタ関数の解析的推定値を取得するかを示す。

The Atlantic Meridional Overturning Circulation (AMOC) is an important component of the global climate, known to be a tipping element, as it could collapse under global warming. The main objective of this study is to compute the probability that the AMOC collapses within a specified time window, using a rare-event algorithm called Trajectory-Adaptive Multilevel Splitting (TAMS). However, the efficiency and accuracy of TAMS depend on the choice of the score function. Although the definition of the optimal score function, called ``committor function" is known, it is impossible in general to compute it a priori. Here, we combine TAMS with a Next-Generation Reservoir Computing technique that estimates the committor function from the data generated by the rare-event algorithm. We test this technique in a stochastic box model of the AMOC for which two types of transition exist, the so-called F(ast)-transitions and S(low)-transitions. Results for the F-transtions compare favorably with those in the literature where a physically-informed score function was used. We show that coupling a rare-event algorithm with machine learning allows for a correct estimation of transition probabilities, transition times, and even transition paths for a wide range of model parameters. We then extend these results to the more difficult problem of S-transitions in the same model. In both cases of F-transitions and S-transitions, we also show how the Next-Generation Reservoir Computing technique can be interpreted to retrieve an analytical estimate of the committor function.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# リニアアライメント: 調整やフィードバックを伴わない人間の選好調整のためのクローズドフォームソリューション

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback ( http://arxiv.org/abs/2401.11458v3 )

ライセンス: Link先を確認
Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye, Xiao Wang, Rui Zheng, Yicheng Zou, Zhi Chen, Hang Yan, Qi Zhang, Dahua Lin, (参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間のフィードバックからの強化学習(RLHF)に基づいて、ユーザの意図を理解し、一致させる。 しかしながら、PPOのような従来のアライメントアルゴリズムは、複雑なアノテーションとトレーニング要件によって妨げられている。 この依存はRLHFの適用性を制限し、多様な人間の好みに合わせて調整されたプロフェッショナルアシスタントの開発を妨げる。 本研究では,1つの推論ステップで言語モデルと人間の嗜好を一致させる新しいアルゴリズムである「textit{Linear Alignment}」を導入し,データアノテーションやモデルトレーニングへの依存を排除した。 線形アライメントは、分岐制約の下でのポリシー最適化のための新しいパラメータ化を取り入れ、最適ポリシーのクローズドな方法での抽出を可能にし、アライメントされた応答の直接推定を容易にする。 汎用的およびパーソナライズされた嗜好データセットの広範な実験により、線形アライメントは様々なシナリオにおけるLLMアライメントの性能と効率を大幅に向上させることが示された。 我々のコードとデータセットは \url{https://github.com/Wizardcoast/Linear_Alignment.git} で公開されています。

The success of AI assistants based on Language Models (LLMs) hinges on Reinforcement Learning from Human Feedback (RLHF) to comprehend and align with user intentions. However, traditional alignment algorithms, such as PPO, are hampered by complex annotation and training requirements. This reliance limits the applicability of RLHF and hinders the development of professional assistants tailored to diverse human preferences. In this work, we introduce \textit{Linear Alignment}, a novel algorithm that aligns language models with human preferences in one single inference step, eliminating the reliance on data annotation and model training. Linear alignment incorporates a new parameterization for policy optimization under divergence constraints, which enables the extraction of optimal policy in a closed-form manner and facilitates the direct estimation of the aligned response. Extensive experiments on both general and personalized preference datasets demonstrate that linear alignment significantly enhances the performance and efficiency of LLM alignment across diverse scenarios. Our code and dataset is published on \url{https://github.com/Wizardcoast/Linear_Alignment.git}.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# 連続時間限界におけるテンソルネットワークの影響--量子埋め込み、入浴離散化、高次時間伝播への接続

Tensor network influence functionals in the continuous-time limit: connections to quantum embedding, bath discretization, and higher-order time propagation ( http://arxiv.org/abs/2401.12460v2 )

ライセンス: Link先を確認
Gunhee Park, Nathan Ng, David R. Reichman, Garnet Kin-Lic Chan, (参考訳) アンダーソン不純物モデルのフェルミオン設定における量子不純物力学に対するテンソルネットワーク影響関数(特に、IF-MPS)の2つの発展について述べる。 1つ目は、関連する数学的対象、境界影響関数MPSを導入することでIF-MPSの連続時間への正しい拡張を提供する。 2つ目は、圧縮されたIF-MPSによって記述された力学と、非単位力学の時間依存的な有効浴による量子埋め込み法の力学を結びつける。 これらの概念を用いて、境界IF-MPS形式論におけるアンダーソン不純物モデルのクエンチ力学に対する高次時間プロパゲータを実装した。 これらの計算は、標準離散時間IF-MPS実装における時間ステップ誤差を効率よく除去し、状態ベクトル伝搬技術と相互作用する現在の定式化の能力を示している。 また、IF-MPS力学とそれに付随する高能率浴力学の利点を、静的浴の離散化による状態ベクトル伝播よりも示している。

We describe two developments of tensor network influence functionals (in particular, influence functional matrix product states (IF-MPS)) for quantum impurity dynamics within the fermionic setting of the Anderson impurity model. The first provides the correct extension of the IF-MPS to continuous time by introducing a related mathematical object, the boundary influence functional MPS. The second connects the dynamics described by a compressed IF-MPS to that of a quantum embedding method with a time-dependent effective bath undergoing nonunitary dynamics. Using these concepts, we implement higher-order time propagators for the quench dynamics of the Anderson impurity model within the boundary IF-MPS formalism. The calculations illustrate the ability of the current formulation to efficiently remove the time step error in standard discrete-time IF-MPS implementations as well as to interface with state vector propagation techniques. They also show the advantages of IF-MPS dynamics, with its associated highly compact effective bath dynamics, over state vector propagation with a static bath discretization.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# AutoRT:ロボットエージェントの大規模オーケストレーションのための身体的基礎モデル

AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents ( http://arxiv.org/abs/2401.12963v2 )

ライセンス: Link先を確認
Michael Ahn, Debidatta Dwibedi, Chelsea Finn, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Karol Hausman, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Sean Kirmani, Isabel Leal, Edward Lee, Sergey Levine, Yao Lu, Isabel Leal, Sharath Maddineni, Kanishka Rao, Dorsa Sadigh, Pannag Sanketi, Pierre Sermanet, Quan Vuong, Stefan Welker, Fei Xia, Ted Xiao, Peng Xu, Steve Xu, Zhuo Xu, (参考訳) 言語、ビジョン、最近ではアクションを取り入れたファンデーションモデルは、インターネットスケールのデータを活用して有用なタスクを推論する能力に革命をもたらした。 しかし、基礎モデルのトレーニングにおける重要な課題の1つは、物理的世界に根ざしたデータの欠如である。 本稿では,既存の基盤モデルを活用して,人間の監督を最小限に抑えつつ,完全に見えないシナリオにおける運用ロボットの展開をスケールアップするシステムであるAutoRTを提案する。 AutoRTは視覚言語モデル(VLM)をシーン理解とグラウンド化に利用し、さらに大きな言語モデル(LLM)を使用して、ロボット群によって実行される多様で斬新な命令を提案する。 基礎モデルの知識をタップしてデータ収集を誘導することで、AutoRTは自律的なトレードオフと安全性を効果的に推論すると同時に、ロボット学習のためのデータ収集を著しくスケールアップすることができる。 われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。 実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせたデータ収集ロボットの指示が可能であることが示された。

Foundation models that incorporate language, vision, and more recently actions have revolutionized the ability to harness internet scale data to reason about useful tasks. However, one of the key challenges of training embodied foundation models is the lack of data grounded in the physical world. In this paper, we propose AutoRT, a system that leverages existing foundation models to scale up the deployment of operational robots in completely unseen scenarios with minimal human supervision. AutoRT leverages vision-language models (VLMs) for scene understanding and grounding, and further uses large language models (LLMs) for proposing diverse and novel instructions to be performed by a fleet of robots. Guiding data collection by tapping into the knowledge of foundation models enables AutoRT to effectively reason about autonomy tradeoffs and safety while significantly scaling up data collection for robot learning. We demonstrate AutoRT proposing instructions to over 20 robots across multiple buildings and collecting 77k real robot episodes via both teleoperation and autonomous robot policies. We experimentally show that such "in-the-wild" data collected by AutoRT is significantly more diverse, and that AutoRT's use of LLMs allows for instruction following data collection robots that can align to human preferences.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# SERNet-Former:Attention-Boosting GatesとAttention-Fusion Networksを用いた効率的な残留ネットワークによるセマンティックセグメンテーション

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks ( http://arxiv.org/abs/2401.15741v7 )

ライセンス: Link先を確認
Serdar Erisen, (参考訳) セマンティックセグメンテーションにおける最先端の手法の効率を改善するには、計算コストの増大を克服し、グローバルな文脈やローカルな文脈から意味情報を抽出するといった問題を克服する必要がある。 セマンティックセグメンテーションにおいて畳み込みニューラルネットワーク(CNN)が遭遇する最近の成功と問題に基づいて,一意に効率的な残余ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。 エンコーダ内の効率的な残留ネットワークのグローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として、アテンションブースティングゲート(AbG)とアテンションブースティングモジュール(AbM)を配置する。 留意して、デコーダネットワークは、AbMにインスパイアされた追加の注意融合ネットワーク(AfN)で開発される。 AfNは、デコーダ部に追加の畳み込み層を配置することにより、意味情報の1対1変換の効率を向上させるように設計されている。 我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法により、残余ネットワークに対する大幅な改善が示されている。 我々の知る限り、開発ネットワークであるSERNet-FormerはCamVidデータセット上で最先端の結果(84.62 %はIoU)を達成し、Cityscapesバリデーションデータセットでは挑戦的な結果(87.35 %はIoU)を達成している。

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# BoostDream: マルチビュー拡散による高品質テキスト・ツー・3D生成のための効率的な精錬

BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion ( http://arxiv.org/abs/2401.16764v2 )

ライセンス: Link先を確認
Yonghao Yu, Shunan Zhu, Huai Qin, Haorui Li, Jinglu Hu, (参考訳) テキストから画像への拡散モデルの進化を目撃し、テキストから3D生成において重要な進歩を遂げた。 現在、テキストから3Dへの2つの主要なパラダイムは、3D資産を迅速に生成できるフィードフォワード生成ソリューションと、高忠実度3D資産を遅いペースで生成することで知られるスコア蒸留サンプリング(SDS)ベースのソリューションである。 これらの手法の相乗的統合は、3次元生成技術の進歩に大きく貢献する。 本稿では,粗い3Dアセットを高品質に変換する高効率なプラグアンドプレイ3D精製法BoostDreamを提案する。 BoostDream フレームワークは,(1) フィードフォワード生成により得られた3次元資産と異なる表現に適合する3次元モデル蒸留を導入する。 2) 新たな多視点SDS損失を設計し, マルチビュー対応2次元拡散モデルを用いて3次元資産を改良する。 以上の結果から,従来のSDS法と比較して,BoostDreamがJanus問題を克服し,高品質な3Dアセットを迅速に生成する上で優れていることが判明した。 このブレークスルーは、3D生成プロセスの効率性と品質の両面で大きな進歩を示している。

Witnessing the evolution of text-to-image diffusion models, significant strides have been made in text-to-3D generation. Currently, two primary paradigms dominate the field of text-to-3D: the feed-forward generation solutions, capable of swiftly producing 3D assets but often yielding coarse results, and the Score Distillation Sampling (SDS) based solutions, known for generating high-fidelity 3D assets albeit at a slower pace. The synergistic integration of these methods holds substantial promise for advancing 3D generation techniques. In this paper, we present BoostDream, a highly efficient plug-and-play 3D refining method designed to transform coarse 3D assets into high-quality. The BoostDream framework comprises three distinct processes: (1) We introduce 3D model distillation that fits differentiable representations from the 3D assets obtained through feed-forward generation. (2) A novel multi-view SDS loss is designed, which utilizes a multi-view aware 2D diffusion model to refine the 3D assets. (3) We propose to use prompt and multi-view consistent normal maps as guidance in refinement.Our extensive experiment is conducted on different differentiable 3D representations, revealing that BoostDream excels in generating high-quality 3D assets rapidly, overcoming the Janus problem compared to conventional SDS-based methods. This breakthrough signifies a substantial advancement in both the efficiency and quality of 3D generation processes.
翻訳日:2024-07-04 07:49:21 公開日:2024-07-02
# 4D-Rotor Gaussian Splatting:動的シーンのための効率的な新しい視点合成を目指して

4D-Rotor Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes ( http://arxiv.org/abs/2402.03307v3 )

ライセンス: Link先を確認
Yuanxing Duan, Fangyin Wei, Qiyu Dai, Yuhang He, Wenzheng Chen, Baoquan Chen, (参考訳) 動的シーンに対するノベルビュー合成(NVS)の問題点を考察する。 最近のニューラルアプローチでは、静的な3Dシーンに対して例外的なNVS結果が達成されているが、4Dの時間変化シーンへの拡張は簡単ではない。 それまでの取り組みは、しばしば、急激な動きや高忠実なレンダリングのような挑戦的なシナリオに苦しむ暗黙的または明示的な変形場に加えて、標準空間を学習することでダイナミクスをエンコードする。 本稿では,静的なシーンにおける3次元ガウススティングの成功に触発された,異方性4D XYZTガウスの動的シーンを表現する新しい手法である4Dガウススティング(4DRotorGS)を紹介する。 動的3次元ガウスを自然に構成し、シームレスに画像に投影できる4次元ガウスを時間的にスライスすることで、各タイムスタンプのダイナミクスをモデル化する。 空間的時間的表現として、4DRotorGSは複雑なダイナミクスや細部をモデリングする強力な能力を実証している。 さらに、高度に最適化されたCUDAアクセラレーションフレームワークで、RTX 3090 GPUで最大277FPS、RTX 4090 GPUで最大583FPSのリアルタイム推論レンダリング速度を実現する。 多様な動きを持つシーンの厳密な評価は、4DRotorGSの優れた効率と有効性を示し、既存の手法を定量的にも質的にも一貫して上回っている。

We consider the problem of novel-view synthesis (NVS) for dynamic scenes. Recent neural approaches have accomplished exceptional NVS results for static 3D scenes, but extensions to 4D time-varying scenes remain non-trivial. Prior efforts often encode dynamics by learning a canonical space plus implicit or explicit deformation fields, which struggle in challenging scenarios like sudden movements or generating high-fidelity renderings. In this paper, we introduce 4D Gaussian Splatting (4DRotorGS), a novel method that represents dynamic scenes with anisotropic 4D XYZT Gaussians, inspired by the success of 3D Gaussian Splatting in static scenes. We model dynamics at each timestamp by temporally slicing the 4D Gaussians, which naturally compose dynamic 3D Gaussians and can be seamlessly projected into images. As an explicit spatial-temporal representation, 4DRotorGS demonstrates powerful capabilities for modeling complicated dynamics and fine details--especially for scenes with abrupt motions. We further implement our temporal slicing and splatting techniques in a highly optimized CUDA acceleration framework, achieving real-time inference rendering speeds of up to 277 FPS on an RTX 3090 GPU and 583 FPS on an RTX 4090 GPU. Rigorous evaluations on scenes with diverse motions showcase the superior efficiency and effectiveness of 4DRotorGS, which consistently outperforms existing methods both quantitatively and qualitatively.
翻訳日:2024-07-04 07:49:20 公開日:2024-07-02
# 位相空間におけるガウス関数の線形結合の4次コヒーレンススケール

Quadrature Coherence Scale of Linear Combinations of Gaussian Functions in Phase Space ( http://arxiv.org/abs/2402.04404v3 )

ライセンス: Link先を確認
Anaelle Hertz, Aaron Z. Goldberg, Khabat Heshami, (参考訳) 二次コヒーレンススケール(QCS)は、最近導入された尺度であり、非古典性の効率的な証人であることが示されている。 純粋な状態とガウス状態の単純な形式を取るが、混合状態の一般的な表現は違法に扱いにくい傾向にある。 本稿では,ガウス関数の線形結合として表現可能なウィグナー関数を特徴とする量子状態の2次コヒーレンススケールの計算法を提案する。 このフレームワークで注目すべき例としては、猫の状態、GKP状態、ガウス変換、測定、繁殖プロトコルによる状態などがある。 特に、二次コヒーレンススケールは、損失の有無で非古典性のスケーラビリティを調べる貴重なツールであることを示す。 以上の結果から,純状態は50%以上の損失を受けると,QCSに認定された非古典性を失うという推測が得られた。 また,2次コヒーレンス尺度を,育種プロトコルの出力状態の品質の尺度として検討した。

The quadrature coherence scale (QCS) is a recently introduced measure that was shown to be an efficient witness of nonclassicality. It takes a simple form for pure and Gaussian states, but a general expression for mixed states tends to be prohibitively unwieldy. In this paper, we introduce a method for computing the quadrature coherence scale of quantum states characterized by Wigner functions expressible as linear combinations of Gaussian functions. Notable examples within this framework include cat states, GKP states, and states resulting from Gaussian transformations, measurements, and breeding protocols. In particular, we show that the quadrature coherence scale serves as a valuable tool for examining the scalability of nonclassicality in the presence of loss. Our findings lead us to put forth a conjecture suggesting that, subject to 50% loss or more, all pure states lose any QCS-certifiable nonclassicality. We also consider the quadrature coherence scale as a measure of quality of the output state of the breeding protocol.
翻訳日:2024-07-04 07:49:20 公開日:2024-07-02
# LtU-ILI:天体物理学と宇宙論における暗黙の推論のためのオールインワンフレームワーク

LtU-ILI: An All-in-One Framework for Implicit Inference in Astrophysics and Cosmology ( http://arxiv.org/abs/2402.05137v2 )

ライセンス: Link先を確認
Matthew Ho, Deaglan J. Bartlett, Nicolas Chartier, Carolina Cuesta-Lazaro, Simon Ding, Axel Lapel, Pablo Lemos, Christopher C. Lovell, T. Lucas Makinen, Chirag Modi, Viraj Pandya, Shivam Pandey, Lucia A. Perez, Benjamin Wandelt, Greg L. Bryan, (参考訳) 本稿では、天体物理学と宇宙論における機械学習(ML)の高速かつユーザフレンドリで最先端の推論のためのコードベースであるLtU-ILIパイプラインについて述べる。 このパイプラインには、さまざまなニューラルネットワークの実装、スキーマのトレーニング、事前、密度推定といったソフトウェアが含まれており、どんな研究ワークフローにも容易に適応できる。 これには総合的な評価指標が含まれており、過去の推定範囲を評価し、推定結果の信頼性を高める。 さらに、パイプラインは容易に並列化可能で、ハイパーパラメータのモデリングを効率的に行うために設計されている。 例えば、X線測光から銀河団質量を推定すること、物質パワースペクトルとハロ点雲から宇宙論を推定すること、重力波信号で前駆体を特徴づけること、銀河色と光度から物理ダストパラメータを捕捉すること、銀河形成の半解析モデルの性質を確立することである。 また、全実装手法の比較や、天文学におけるML推論の課題と落とし穴についての議論も含む。 すべてのコードと例はhttps://github.com/maho3/ltu-ili.comで公開されている。

This paper presents the Learning the Universe Implicit Likelihood Inference (LtU-ILI) pipeline, a codebase for rapid, user-friendly, and cutting-edge machine learning (ML) inference in astrophysics and cosmology. The pipeline includes software for implementing various neural architectures, training schemata, priors, and density estimators in a manner easily adaptable to any research workflow. It includes comprehensive validation metrics to assess posterior estimate coverage, enhancing the reliability of inferred results. Additionally, the pipeline is easily parallelizable and is designed for efficient exploration of modeling hyperparameters. To demonstrate its capabilities, we present real applications across a range of astrophysics and cosmology problems, such as: estimating galaxy cluster masses from X-ray photometry; inferring cosmology from matter power spectra and halo point clouds; characterizing progenitors in gravitational wave signals; capturing physical dust parameters from galaxy colors and luminosities; and establishing properties of semi-analytic models of galaxy formation. We also include exhaustive benchmarking and comparisons of all implemented methods as well as discussions about the challenges and pitfalls of ML inference in astronomical sciences. All code and examples are made publicly available at https://github.com/maho3/ltu-ili.
翻訳日:2024-07-04 07:49:20 公開日:2024-07-02
# 大規模言語モデルのための機械アンラーニングの再考

Rethinking Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2402.08787v4 )

ライセンス: Link先を確認
Sijia Liu, Yuanshun Yao, Jinghan Jia, Stephen Casper, Nathalie Baracaldo, Peter Hase, Yuguang Yao, Chris Yuhao Liu, Xiaojun Xu, Hang Li, Kush R. Varshney, Mohit Bansal, Sanmi Koyejo, Yang Liu, (参考訳) LLMアンラーニングと呼ばれる大規模言語モデル(LLM)の領域における機械学習(MU)について検討する。 このイニシアチブは、本質的な知識生成の完全性を維持しつつ、因果関係のない情報に影響を与えないまま、望ましくないデータの影響(機密情報、違法情報など)と関連するモデル機能を排除することを目的としている。 我々は、LLMのライフサイクル管理において、LLMのアンラーニングが重要な要素となり、安全で安全で信頼性の高いだけでなく、完全な再トレーニングを必要とせずに、資源効率の高い生成AIを開発する上で、不可欠な基盤となる可能性があると想定している。 概念的定式化や方法論,メトリクス,アプリケーションから,LLMにおける未学習の風景をナビゲートする。 特に,既存のLLMアンラーニング研究,例えば,未学習のスコープ,データ-モデル相互作用,多面的有効性評価など,見過ごされがちな側面を強調した。 また、LLMアンラーニングと、モデル編集、影響関数、モデル説明、対人訓練、強化学習などの関連分野の関連性も描いている。 さらに,LLMアンラーニングのための効果的なアセスメントフレームワークについて概説し,著作権とプライバシ保護,社会工学的害軽減への応用について検討する。

We explore machine unlearning (MU) in the domain of large language models (LLMs), referred to as LLM unlearning. This initiative aims to eliminate undesirable data influence (e.g., sensitive or illegal information) and the associated model capabilities, while maintaining the integrity of essential knowledge generation and not affecting causally unrelated information. We envision LLM unlearning becoming a pivotal element in the life-cycle management of LLMs, potentially standing as an essential foundation for developing generative AI that is not only safe, secure, and trustworthy, but also resource-efficient without the need of full retraining. We navigate the unlearning landscape in LLMs from conceptual formulation, methodologies, metrics, and applications. In particular, we highlight the often-overlooked aspects of existing LLM unlearning research, e.g., unlearning scope, data-model interaction, and multifaceted efficacy assessment. We also draw connections between LLM unlearning and related areas such as model editing, influence functions, model explanation, adversarial training, and reinforcement learning. Furthermore, we outline an effective assessment framework for LLM unlearning and explore its applications in copyright and privacy safeguards and sociotechnical harm reduction.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# HGOT: ファクチュアリティ評価における検索型インコンテキスト学習のための階層的思考グラフ

HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation ( http://arxiv.org/abs/2402.09390v2 )

ライセンス: Link先を確認
Yihao Fang, Stephen W. Thomas, Xiaodan Zhu, (参考訳) 多くのアプリケーションで大規模言語モデル(LLM)が広く採用されているため、事実性の難しさと幻覚の正当性は重要な関心事となっている。 この問題に対処するため,特に検索強化した文脈内学習において,階層的思考グラフ(HGOT,hierarchical graph of thoughts)を導入する。 このフレームワークは LLM の創発的な計画機能を活用し、複雑なクエリを管理可能なサブクエリに分割する分断とコンカマーの戦略を採用している。 それは、最近提案された引用リコールと精度の指標を取り入れて、思考の質を評価し、答えの信頼性を本質的に思考の質に結びつける、自己整合性の過半数投票を洗練させる。 この方法論は、多数決において重み付けされたシステムを導入し、彼らの思考の引用品質に基づいて回答を優先順位付けする。 さらに,引用頻度や品質,自己整合性信頼度,検索モジュールのランキングなどの要因を考慮して,検索されたパスを評価するためのスコアリング機構を提案する。 実験の結果、HGOTは汎用的なアプローチとして優れており、FEVERの競合モデルよりも最大$7\%高い性能を示し、Open-SQuADのRetrieve-then-ReadやHotPotQAのDSPといった主要なモデルと一致する。

With the widespread adoption of large language models (LLMs) in numerous applications, the challenge of factuality and the propensity for hallucinations has emerged as a significant concern. To address this issue, particularly in retrieval-augmented in-context learning, we introduce the hierarchical graph of thoughts (HGOT), a structured, multi-layered graph approach designed to enhance the retrieval of pertinent passages during in-context learning. The framework utilizes the emergent planning capabilities of LLMs, employing the divide-and-conquer strategy to break down complex queries into manageable sub-queries. It refines self-consistency majority voting for answer selection, which incorporates the recently proposed citation recall and precision metrics to assess the quality of thoughts, linking an answer's credibility intrinsically to the thought's quality. This methodology introduces a weighted system in majority voting, prioritizing answers based on the citation quality of their thoughts. Additionally, we propose a scoring mechanism for evaluating retrieved passages, considering factors such as citation frequency and quality, self-consistency confidence, and the retrieval module's ranking. Experiments indicate that HGOT excels as a versatile approach, outperforming competing models in FEVER by up to $7\%$ and matching leading models such as Retrieve-then-Read in Open-SQuAD, and DSP in HotPotQA, demonstrating its efficacy in enhancing LLMs' factuality.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# 変圧器テクスチャモデルにおけるトレーニングデータと対向ロバスト性との相関関係の探索

A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models ( http://arxiv.org/abs/2402.11469v2 )

ライセンス: Link先を確認
Cuong Dang, Dung D. Le, Thai Le, (参考訳) 既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。 従来の逆数評価はしばしば、モデルを微調整し、トレーニングデータを無視する。 本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。 この目的のために, 幅広い入力微調整コーパス特性を表す13種類の特徴を抽出し, それらを用いて微調整モデルの対角的堅牢性を予測する。 主にエンコーダのみのトランスモデル BERT と RoBERTa に着目し、BART, ELECTRA, GPT2 のさらなる結果を示す。 第一に、経験的分析は、 (a) 抽出した特徴をランダムフォレストなどの軽量分類器で利用して、攻撃成功率を効果的に予測し、 (b) モデルロバストネスに最も影響を与える特徴は、ロバストネスと明確な相関関係を持つ。 第2に、当社のフレームワークは、それ以来堅牢性評価のための、迅速かつ効果的な追加ツールとして使用できる。 (a)従来の技術と比較して30x-193xのランタイムを節約する。 (b)はモデル間で転送可能である。 (c)は、相手の訓練で使用することができ、 (d)統計的ランダム性に頑健である。 私たちのコードは、 \url{https://github.com/CaptainCuong/RobustText_ACL2024}で公開されています。

Existing works have shown that fine-tuned textual transformer models achieve state-of-the-art prediction performances but are also vulnerable to adversarial text perturbations. Traditional adversarial evaluation is often done \textit{only after} fine-tuning the models and ignoring the training data. In this paper, we want to prove that there is also a strong correlation between training data and model robustness. To this end, we extract 13 different features representing a wide range of input fine-tuning corpora properties and use them to predict the adversarial robustness of the fine-tuned models. Focusing mostly on encoder-only transformer models BERT and RoBERTa with additional results for BART, ELECTRA, and GPT2, we provide diverse evidence to support our argument. First, empirical analyses show that (a) extracted features can be used with a lightweight classifier such as Random Forest to predict the attack success rate effectively, and (b) features with the most influence on the model robustness have a clear correlation with the robustness. Second, our framework can be used as a fast and effective additional tool for robustness evaluation since it (a) saves 30x-193x runtime compared to the traditional technique, (b) is transferable across models, (c) can be used under adversarial training, and (d) robust to statistical randomness. Our code is publicly available at \url{https://github.com/CaptainCuong/RobustText_ACL2024}.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# Shall We Team Up: 競合するLDMエージェントの自発的な連携を探る

Shall We Team Up: Exploring Spontaneous Cooperation of Competing LLM Agents ( http://arxiv.org/abs/2402.12327v2 )

ライセンス: Link先を確認
Zengqing Wu, Run Peng, Shuyuan Zheng, Qianying Liu, Xu Han, Brian Inhyuk Kwon, Makoto Onizuka, Shaojie Tang, Chuan Xiao, (参考訳) 大規模言語モデル (LLM) は、社会シミュレーションにおいてますます利用され、シミュレーション中に人間のような行動を安定的に示すために、慎重に構築された指示によってガイドされることが多い。 しかし, 正確な社会シミュレーションには, エージェントの行動形成の必要性が疑わしい。 そこで本論文では,エージェントが文脈に深く関与し,明確な指示なしに適応的な意思決定を行う,自然現象の重要性を強調した。 我々は,3つの競争シナリオにまたがる自発的な協力を探求し,人間の行動データと密接に一致した協力の段階的出現をシミュレートした。 このアプローチは、シミュレーションと実世界のダイナミクスのギャップを埋める上で、計算社会科学のコミュニティに役立つだけでなく、AIコミュニティに故意の推論能力を評価する新しい方法を提供する。

Large Language Models (LLMs) have increasingly been utilized in social simulations, where they are often guided by carefully crafted instructions to stably exhibit human-like behaviors during simulations. Nevertheless, we doubt the necessity of shaping agents' behaviors for accurate social simulations. Instead, this paper emphasizes the importance of spontaneous phenomena, wherein agents deeply engage in contexts and make adaptive decisions without explicit directions. We explored spontaneous cooperation across three competitive scenarios and successfully simulated the gradual emergence of cooperation, findings that align closely with human behavioral data. This approach not only aids the computational social science community in bridging the gap between simulations and real-world dynamics but also offers the AI community a novel method to assess LLMs' capability of deliberate reasoning.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# StyleDubber: 映画ダビングのためのマルチスケールスタイル学習を目指して

StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing ( http://arxiv.org/abs/2402.12636v3 )

ライセンス: Link先を確認
Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang, Anton van den Hengel, Ming-Hsuan Yang, Chenggang Yan, Qingming Huang, (参考訳) 脚本が与えられた場合、映画ダビング(Visual Voice Cloning, V2C)の課題は、基準音声トラックのトーンに基づいて、時間と感情の両方でビデオとうまく一致した音声を生成することである。 既存の最先端V2Cモデルは、時間的アライメント問題を解決するが、不完全音素発音と不完全性安定性をもたらすビデオフレーム間の分割に従って、スクリプト内の音素を分解する。 この問題を解決するために、フレームレベルから音素レベルにダビング学習を切り替えるStyleDubberを提案する。 1) 音素レベルで動作するマルチモーダルスタイルのアダプタで、参照音声から発音スタイルを学習し、ビデオで提示された顔の感情によって入力された中間表現を生成する,(2) メル・スペクトログラム・デコーディングと中間埋め込みからの精製プロセスの両方をガイドする発話レベルスタイル学習モジュール,(3) 唇のシンクを維持するための音素誘導リップアライダである。 2つの主要なベンチマークであるV2CとGridの大規模な実験は、提案手法の現況と比較して好適な性能を示した。 コードはhttps://github.com/GalaxyCong/StyleDubber.comで公開される。

Given a script, the challenge in Movie Dubbing (Visual Voice Cloning, V2C) is to generate speech that aligns well with the video in both time and emotion, based on the tone of a reference audio track. Existing state-of-the-art V2C models break the phonemes in the script according to the divisions between video frames, which solves the temporal alignment problem but leads to incomplete phoneme pronunciation and poor identity stability. To address this problem, we propose StyleDubber, which switches dubbing learning from the frame level to phoneme level. It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. Extensive experiments on two of the primary benchmarks, V2C and Grid, demonstrate the favorable performance of the proposed method as compared to the current stateof-the-art. The code will be made available at https://github.com/GalaxyCong/StyleDubber.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# 大規模言語モデルアライメントのためのプライバシ保護命令

Privacy-Preserving Instructions for Aligning Large Language Models ( http://arxiv.org/abs/2402.13659v2 )

ライセンス: Link先を確認
Da Yu, Peter Kairouz, Sewoong Oh, Zheng Xu, (参考訳) 大規模言語モデル(LLM)アプリケーションのサービスプロバイダは、ユーザ命令を野放しに収集し、LLMをさらにユーザーの意図に合わせるために使用する。 これらの命令は、機密情報を含む可能性があるが、その過程で人間の作業員によって注釈付けされる。 これにより、一般的なプライベート最適化で対処されない新たなプライバシーリスクが生じる。 そこで本研究では,データアノテーションとモデル微調整における実命令を置き換えるための合成命令を提案する。 形式的な差分プライバシーは、プライベートな微調整されたジェネレータを使用して合成命令を生成することで保証される。 目的とする実用性を達成する上で重要なことは、合成命令の分布と実際の命令の分布とを一致させる新しいフィルタリングアルゴリズムである。 人間のフィードバックから教師付き微調整と強化学習の両方において、我々は、実際の指示に匹敵する結果を示すことによって、最終的な合成命令セットの有用性を実証した。 教師付き微調整では、プライベートな合成命令で訓練されたモデルは、Vicunaのような主要なオープンソースモデルよりも優れている。

Service providers of large language model (LLM) applications collect user instructions in the wild and use them in further aligning LLMs with users' intentions. These instructions, which potentially contain sensitive information, are annotated by human workers in the process. This poses a new privacy risk not addressed by the typical private optimization. To this end, we propose using synthetic instructions to replace real instructions in data annotation and model fine-tuning. Formal differential privacy is guaranteed by generating those synthetic instructions using privately fine-tuned generators. Crucial in achieving the desired utility is our novel filtering algorithm that matches the distribution of the synthetic instructions to that of the real ones. In both supervised fine-tuning and reinforcement learning from human feedback, our extensive experiments demonstrate the high utility of the final set of synthetic instructions by showing comparable results to real instructions. In supervised fine-tuning, models trained with private synthetic instructions outperform leading open-source models such as Vicuna.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# Farsight:AIアプリケーションのプロトタイピング中に、責任を負うAIの認識を育む

Farsight: Fostering Responsible AI Awareness During AI Application Prototyping ( http://arxiv.org/abs/2402.15350v2 )

ライセンス: Link先を確認
Zijie J. Wang, Chinmay Kulkarni, Lauren Wilcox, Michael Terry, Michael Madaio, (参考訳) LLM(Large Language Models)のためのプロンプトベースのインターフェイスは、AIを使ったアプリケーションのプロトタイピングと構築をこれまで以上に容易にした。 しかし、AIアプリケーションから生じる潜在的な害を特定することは、特にプロトタイピングのプロトタイピングにおいて、依然として課題である。 この問題を解決するために、私たちはFarsightというインタラクティブなツールを紹介します。 ユーザのプロンプトに基づいて、Farsightは関連するAIインシデントに関するニュース記事を強調し、LLM生成されたユースケースやステークホルダ、障害を調査、編集することを可能にする。 10人のAIプロトタイプを用いた共同設計研究と42人のAIプロトタイプを用いたユーザスタディから得られた知見を報告する。 Farsightを使用した後、私たちのユーザー研究におけるAIプロトタイプは、プロンプトに関連する潜在的な害を独立して識別し、既存のリソースよりも便利なツールを見つけることができます。 質的なフィードバックは、Farsightがエンドユーザに注力し、直接的な害以上の考えを推奨していることも強調している。 これらの知見を議論し、AI害に有意義に関与するAIプロトタイピング体験を設計する上でのそれらの意味を反映する。 Farsightは、https://PAIR-code.github.io/farsight.comで公開されている。

Prompt-based interfaces for Large Language Models (LLMs) have made prototyping and building AI-powered applications easier than ever before. However, identifying potential harms that may arise from AI applications remains a challenge, particularly during prompt-based prototyping. To address this, we present Farsight, a novel in situ interactive tool that helps people identify potential harms from the AI applications they are prototyping. Based on a user's prompt, Farsight highlights news articles about relevant AI incidents and allows users to explore and edit LLM-generated use cases, stakeholders, and harms. We report design insights from a co-design study with 10 AI prototypers and findings from a user study with 42 AI prototypers. After using Farsight, AI prototypers in our user study are better able to independently identify potential harms associated with a prompt and find our tool more useful and usable than existing resources. Their qualitative feedback also highlights that Farsight encourages them to focus on end-users and think beyond immediate harms. We discuss these findings and reflect on their implications for designing AI prototyping experiences that meaningfully engage with AI harms. Farsight is publicly accessible at: https://PAIR-code.github.io/farsight.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# マルチタスク学習における公平な資源配分

Fair Resource Allocation in Multi-Task Learning ( http://arxiv.org/abs/2402.15638v2 )

ライセンス: Link先を確認
Hao Ban, Kaiyi Ji, (参考訳) 複数のタスクを共同で学習することで、マルチタスク学習(MTL)はタスク間の共有知識を活用することができ、データ効率と一般化性能が向上する。 しかし、MTLにおける大きな課題は矛盾する勾配の存在であり、これはいくつかのタスクの公平な最適化を妨げ、その結果、MTLの全体的な性能向上を阻害する可能性がある。 通信ネットワークにおける公平な資源配分に着想を得て,MTLの最適化を実用的最大化問題として定式化し,タスク間の損失の減少を異なる公正度測定で最大化する。 この問題を解決するために,新しいMTL最適化法であるFairGradを提案する。 FairGradは特定のタスクを柔軟に強調するだけでなく、理論的収束を保証する。 大規模実験により,教師付き学習と強化学習におけるマルチタスクベンチマークのスイート上で,勾配操作手法の最先端性能が得られた。 さらに、様々なMTL法の損失関数に$\alpha$-fairnessという概念を組み込む。 大規模な実証実験では、その性能が著しく向上できることが示されている。 コードは \url{https://github.com/OptMN-Lab/fairgrad} で提供されている。

By jointly learning multiple tasks, multi-task learning (MTL) can leverage the shared knowledge across tasks, resulting in improved data efficiency and generalization performance. However, a major challenge in MTL lies in the presence of conflicting gradients, which can hinder the fair optimization of some tasks and subsequently impede MTL's ability to achieve better overall performance. Inspired by fair resource allocation in communication networks, we formulate the optimization of MTL as a utility maximization problem, where the loss decreases across tasks are maximized under different fairness measurements. To solve this problem, we propose FairGrad, a novel MTL optimization method. FairGrad not only enables flexible emphasis on certain tasks but also achieves a theoretical convergence guarantee. Extensive experiments demonstrate that our method can achieve state-of-the-art performance among gradient manipulation methods on a suite of multi-task benchmarks in supervised learning and reinforcement learning. Furthermore, we incorporate the idea of $\alpha$-fairness into loss functions of various MTL methods. Extensive empirical studies demonstrate that their performance can be significantly enhanced. Code is provided at \url{https://github.com/OptMN-Lab/fairgrad}.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# ストーリーテリングによる複雑な法的概念学習のための大規模言語モデルの導入

Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling ( http://arxiv.org/abs/2402.17019v4 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Robert Mahari, Daniel Kessler, Eric Ma, Tal August, Irene Li, Alex 'Sandy' Pentland, Yoon Kim, Deb Roy, Jad Kabbara, (参考訳) 非専門家に法的知識を提供することは、一般の法的リテラシーを高め、民主主義への市民の参加を促進するために不可欠である。 しかし、法的背景のない人々にとって、法的文書は理解が難しいことが多い。 本稿では,非専門家が複雑で抽象的な概念を伝達する効果的な教育ツールであるストーリテリングを通じて複雑な法的概念を学習するのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。 294の複雑な法的教義からなり、それぞれに物語とLLMが生成する複数選択の質問が伴う。 このデータセットを構築するために、我々は様々なLCMを用いて、これらの概念を説明する法的な物語を生成する実験を行った。 さらに,複数選択質問を反復的に設計するために,エキスパート・イン・ザ・ループアプローチを用いる。 そこで本研究では, ランダム化制御試験(RCT)によるLLMによるストーリーテリングの有効性を評価する。 LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。 さらに、物語は、参加者が法的概念を自分の生活に関連付けるのに役立つ。 最後に、ストーリーを用いた学習は、フォローアップアセスメントにおいて、非ネイティブ話者の保持率が高いことが判明した。 我々の研究は、法学以外の分野での教育と学習の促進にLLMを使うことに強い意味を持っている。

Making legal knowledge accessible to non-experts is crucial for enhancing general legal literacy and encouraging civic participation in democracy. However, legal documents are often challenging to understand for people without legal backgrounds. In this paper, we present a novel application of large language models (LLMs) in legal education to help non-experts learn intricate legal concepts through storytelling, an effective pedagogical tool in conveying complex and abstract concepts. We also introduce a new dataset LegalStories, which consists of 294 complex legal doctrines, each accompanied by a story and a set of multiple-choice questions generated by LLMs. To construct the dataset, we experiment with various LLMs to generate legal stories explaining these concepts. Furthermore, we use an expert-in-the-loop approach to iteratively design multiple-choice questions. Then, we evaluate the effectiveness of storytelling with LLMs through randomized controlled trials (RCTs) with legal novices on 10 samples from the dataset. We find that LLM-generated stories enhance comprehension of legal concepts and interest in law among non-native speakers compared to only definitions. Moreover, stories consistently help participants relate legal concepts to their lives. Finally, we find that learning with stories shows a higher retention rate for non-native speakers in the follow-up assessment. Our work has strong implications for using LLMs in promoting teaching and learning in the legal field and beyond.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# 地磁気摂動予測におけるスパース変分汚染ノイズガウス過程の回帰

Sparse Variational Contaminated Noise Gaussian Process Regression with Applications in Geomagnetic Perturbations Forecasting ( http://arxiv.org/abs/2402.17570v3 )

ライセンス: Link先を確認
Daniel Iong, Matthew McAnear, Yuezhou Qu, Shasha Zou, Gabor Toth, Yang Chen, (参考訳) ガウス過程(GP)は、複雑な共分散構造を持つデータセット上でのカーネルベースの学習において、一般的な機械学習手法となっている。 本稿では,汚染された正規確率関数を用いたGPフレームワークの新たな拡張について述べる。 本研究では,スパース変分ガウス過程(SVGP)に基づく拡張性推論アルゴリズムを提案する。 本稿では,現状予測モデルがニューラルネットワークに基づく地磁気摂動への適用について検討する。 提案手法は, 人工ニューラルネットワークベースラインと比較して, 類似のカバレッジと精度の予測間隔が短いことを示す。

Gaussian Processes (GP) have become popular machine-learning methods for kernel-based learning on datasets with complicated covariance structures. In this paper, we present a novel extension to the GP framework using a contaminated normal likelihood function to better account for heteroscedastic variance and outlier noise. We propose a scalable inference algorithm based on the Sparse Variational Gaussian Process (SVGP) method for fitting sparse Gaussian process regression models with contaminated normal noise on large datasets. We examine an application to geomagnetic ground perturbations, where the state-of-the-art prediction model is based on neural networks. We show that our approach yields shorter prediction intervals for similar coverage and accuracy when compared to an artificial dense neural network baseline.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# 離散時間マルコフ力学におけるゼロエラー通信

Zero-error communication under discrete-time Markovian dynamics ( http://arxiv.org/abs/2402.18703v2 )

ライセンス: Link先を確認
Satvik Singh, Mizanur Rahaman, Nilanjana Datta, (参考訳) 離散時間)マルコフ力学を持つ開量子系を考える。 我々の課題は、システムが任意に長い時間進化した後でも、完全に復元できるように、システムに情報を保存することである。 これは、力学が混合されているとき(漸近的に絡み合う)に古典的な(量子の)情報に対して正確には不可能であることを示す。 さらに、このようなダイナミクスが完全な検索点を超えるエンコードされた情報を「スクランブル」する最小時間に、厳密な普遍的上限を与える。 一方、このような性質を持たない力学では、情報が将来いつでも完全に回復できるように周辺空間内にエンコードされなければならないことを示す。 これにより、力学の周辺空間の構造の観点から、雑音から守られる最大情報量に関する明示的な公式を導出することができる。

Consider an open quantum system with (discrete-time) Markovian dynamics. Our task is to store information in the system in such a way that it can be retrieved perfectly, even after the system is left to evolve for an arbitrarily long time. We show that this is impossible for classical (resp. quantum) information precisely when the dynamics is mixing (resp. asymptotically entanglement breaking). Furthermore, we provide tight universal upper bounds on the minimum time after which any such dynamics `scrambles' the encoded information beyond the point of perfect retrieval. On the other hand, for dynamics that are not of this kind, we show that information must be encoded inside the peripheral space associated with the dynamics in order for it to be perfectly recoverable at any time in the future. This allows us to derive explicit formulas for the maximum amount of information that can be protected from noise in terms of the structure of the peripheral space of the dynamics.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# GSM-Plus:数学的問題解としてのLCMのロバスト性評価のための総合ベンチマーク

GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers ( http://arxiv.org/abs/2402.19255v2 )

ライセンス: Link先を確認
Qintong Li, Leyang Cui, Xueliang Zhao, Lingpeng Kong, Wei Bi, (参考訳) 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 しかし、これらのモデルが数学的知識を真に理解し、適用しているか、あるいは単に数学的推論のショートカットに依存するのかについては議論が続いている。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。 このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。 本稿では,GSM8Kの拡張であるGSM-Plusデータセットを紹介する。 25個のLLMと4個のプロンプト技術を用いた実験により, LLMは数学推論能力のレベルが異なるが, その性能はそれほど堅牢ではないことがわかった。 特に、GSM8Kで解決された問題であっても、LLMは新たなステートメントを追加したり、質問対象を変更したりする際に間違いを犯す可能性がある。 また、既存のプロンプト法を構成することによって、より堅牢な性能を実現することができるかどうかについても検討し、その推論目標と計算結果に基づいて、それぞれの中間的思考を生成し検証する反復的手法を試行する。

Large language models (LLMs) have achieved impressive performance across various mathematical reasoning benchmarks. However, there are increasing debates regarding whether these models truly understand and apply mathematical knowledge or merely rely on shortcuts for mathematical reasoning. One essential and frequently occurring evidence is that when the math questions are slightly changed, LLMs can behave incorrectly. This motivates us to evaluate the robustness of LLMs' math reasoning capability by testing a wide range of question variations. We introduce the adversarial grade school math (GSM-Plus) dataset, an extension of GSM8K augmented with various mathematical perturbations. Our experiments on 25 LLMs and 4 prompting techniques show that while LLMs exhibit different levels of math reasoning abilities, their performances are far from robust. In particular, even for problems that have been solved in GSM8K, LLMs can make mistakes when new statements are added or the question targets are altered. We also explore whether more robust performance can be achieved by composing existing prompting methods, in which we try an iterative method that generates and verifies each intermediate thought based on its reasoning goal and calculation result.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# CSS コード[8,1,4] のフォールトトレランス

Fault-tolerance of the [[8,1,4]] non-CSS code ( http://arxiv.org/abs/2402.19389v2 )

ライセンス: Link先を確認
Pranav Maheshwari, Ankur Raina, (参考訳) 既知の[[8,1,4]]非CSSコードのフォールトトレランスを示し、コードの論理的エラー率について検討する。 そのために、Brownらによって提示された素アンシラ法の手順を採用し、Gottesmanによる安定化符号の符号化手順を選択し、非CSS符号のクラスの設定に適合するように修正する。 本研究は, 復号化雑音と異方性雑音の2種類のノイズモデルについて検討し, 復号化における論理誤差率について考察した。

We show the fault-tolerance of the not-so-well known [[8,1,4]] non-CSS code and study the logical error rates of the code. To do so, we adopt the procedure of the bare ancilla method presented by Brown et al. We choose the encoding procedure for stabilizer codes given by Gottesman and modify it to suit the setting of a class of non-CSS codes. We consider two types of noise models for this study, namely the depolarizing noise and anisotropic noise to depict the logical error rates obtained in decoding.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# PROC2PDDL: テキストからのオープンドメイン計画表現

PROC2PDDL: Open-Domain Planning Representations from Texts ( http://arxiv.org/abs/2403.00092v2 )

ライセンス: Link先を確認
Tianyi Zhang, Li Zhang, Zhaoyi Hou, Ziyu Wang, Yuling Gu, Peter Clark, Chris Callison-Burch, Niket Tandon, (参考訳) テキストベースの環境での計画は、AIシステムにとって引き続き大きな課題である。 近年のアプローチでは、計画ドメイン定義(PDDLなど)の予測に言語モデルを使用しているが、クローズドドメインシミュレーション環境でのみ評価されている。 そこで本論文では、オープンドメインのプロシージャテキストを含む最初のデータセットであるProc2PDDLと、専門家によるPDDL表現のペアについて述べる。 このデータセットを用いて、動作の前提条件と効果を定義する上で、最先端のモデルを評価する。 以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。 本分析は, 統語的誤りと意味的誤りの両方を示し, ドメイン固有のプラゴラムの生成と事象の推論の両方においてLMが欠如していることを示している。 この分析とデータセットは、LMのベストとフォーマルな計画の統合に向けた今後の進歩に役立つことを願っています。

Planning in a text-based environment continues to be a major challenge for AI systems. Recent approaches have used language models to predict a planning domain definition (e.g., PDDL) but have only been evaluated in closed-domain simulated environments. To address this, we present Proc2PDDL , the first dataset containing open-domain procedural texts paired with expert-annotated PDDL representations. Using this dataset, we evaluate state-of-the-art models on defining the preconditions and effects of actions. We show that Proc2PDDL is highly challenging, with GPT-3.5's success rate close to 0% and GPT-4's around 35%. Our analysis shows both syntactic and semantic errors, indicating LMs' deficiency in both generating domain-specific prgorams and reasoning about events. We hope this analysis and dataset helps future progress towards integrating the best of LMs and formal planning.
翻訳日:2024-07-04 07:39:17 公開日:2024-07-02
# Cradle: 汎用コンピュータ制御に向けた基盤エージェントの強化

Cradle: Empowering Foundation Agents Towards General Computer Control ( http://arxiv.org/abs/2403.03186v3 )

ライセンス: Link先を確認
Weihao Tan, Wentao Zhang, Xinrun Xu, Haochong Xia, Ziluo Ding, Boyu Li, Bohan Zhou, Junpeng Yue, Jiechuan Jiang, Yewen Li, Ruyi An, Molei Qin, Chuqiao Zong, Longtao Zheng, Yujie Wu, Xiaoqiang Chai, Yifei Bi, Tianbao Xie, Pengjie Gu, Xiyun Li, Ceyao Zhang, Long Tian, Chaojie Wang, Xinrun Wang, Börje F. Karlsson, Bo An, Shuicheng Yan, Zongqing Lu, (参考訳) 特定のシナリオの成功にもかかわらず、既存のファウンデーションエージェントは、主に手動で設計された観察と行動空間を持つ環境の劇的に異なるカプセル化のために、様々な仮想シナリオをまたいだ一般化に苦慮している。 この問題に対処するため、我々は、基盤エージェントが最も統一的で標準化されたインターフェース、すなわち、スクリーンショットを入力として、キーボードとマウスのアクションを出力として使用することにより、ソフトウェアとのインタラクションを制限するための一般コンピュータ制御(GCC)設定を提案する。 GCCに向けた予備的な試みとして,モジュール型かつフレキシブルなLMM駆動フレームワークであるCradleを紹介した。 6つの重要なモジュールによって強化されたCradleは、入力スクリーンショットを理解して、高レベルの計画後に低レベルのキーボードとマウスのコントロールの実行可能なコードを出力する。 実験結果から,Cradleはこれまでに探索されていない4つの商用ビデオゲーム,5つのソフトウェアアプリケーション,包括的なベンチマークであるOSWorldで,目覚ましい一般化性と印象的なパフォーマンスを示した。 Cradleは、AAAの複雑なゲームRed Dead Redemption 2(RDR2)で、ファンデーションエージェントがメインストーリーラインをフォローし、40分間の実際のミッションを完了できるようにする最初の方法である。 クレードルは、スターデュー・バレーのスカイライン、農場と収穫用地、そしてデアラーズ・ライフ2で最大で週87%の利益で取引と取引を行うことができる。 Cradleは、Chrome、Outlook、Feishuのような日々のソフトウェアを操作するだけでなく、MeituやCapCutを使って画像やビデオを編集できる。 Cradleは、あらゆるソフトウェア、特に複雑なゲームを簡単にベンチマークに変換し、エージェントのさまざまな能力を評価し、さらなるデータ収集を容易にし、ジェネラリストエージェントへの道を開くことによって、ファンデーションエージェントのリーチを大きく広げる。

Despite the success in specific scenarios, existing foundation agents still struggle to generalize across various virtual scenarios, mainly due to the dramatically different encapsulations of environments with manually designed observation and action spaces. To handle this issue, we propose the General Computer Control (GCC) setting to restrict foundation agents to interact with software through the most unified and standardized interface, i.e., using screenshots as input and keyboard and mouse actions as output. We introduce Cradle, a modular and flexible LMM-powered framework, as a preliminary attempt towards GCC. Enhanced by six key modules, Cradle can understand input screenshots and output executable code for low-level keyboard and mouse control after high-level planning, so that Cradle can interact with any software and complete long-horizon complex tasks without relying on any built-in APIs. Experimental results show that Cradle exhibits remarkable generalizability and impressive performance across four previously unexplored commercial video games, five software applications, and a comprehensive benchmark, OSWorld. Cradle is the first to enable foundation agents to follow the main storyline and complete 40-minute-long real missions in the complex AAA game Red Dead Redemption 2 (RDR2). Cradle can also create a city of a thousand people in Cities: Skylines, farm and harvest parsnips in Stardew Valley, and trade and bargain with a maximal weekly total profit of 87% in Dealer's Life 2. Cradle can not only operate daily software, like Chrome, Outlook, and Feishu, but also edit images and videos using Meitu and CapCut. Cradle greatly extends the reach of foundation agents by enabling the easy conversion of any software, especially complex games, into benchmarks to evaluate agents' various abilities and facilitate further data collection, thus paving the way for generalist agents.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ

A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v5 )

ライセンス: Link先を確認
Louis Mahon, Mirella Lapata, (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。 本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。 我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。 PRISMA(Precision and Recall EvaluatIon of Summary FActs)は、生成した要約の精度とリコールを計測し、原子的な事実に分解する。 最近リリースされたSummScreen3Dデータセットを用いて、ROUGEと新しいファクトベースメトリクスを用いて、比較モデルよりも高品質な要約を生成するとともに、人間の評価者によって評価される。

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# 空間エンタングルメントの効率的な評価のための励起放射トモグラフィー

Stimulated emission tomography for efficient characterization of spatial entanglement ( http://arxiv.org/abs/2403.05036v2 )

ライセンス: Link先を確認
Yang Xu, Saumya Choudhary, Robert W. Boyd, (参考訳) 励起発光トモグラフィ(SET)技術は、従来の偶然カウント法よりも数桁のオーダーで検出される光子の平均数を増大させるため、二光子状態のSPDC源として優れた特性を提供する。 SET実験では、SPDCにおける真空変動による信号は、同じモード特性のより強い準備種子に置き換えられ、対応するアイドルが増幅される。 このアイデアに基づいて,本実験では,超古典的な2次非線形過程である差周波発生(DFG)を用いて,タイプIISPDC結晶で生成する交叉光子対の軌道角運動量(OAM)スペクトルを測定した。 我々は,405nmのポンプビームとともに780nmのシードビームと405nmのタイプIIBBO結晶を注入し,842nmのアイドラーのラゲール・ガウスモード分布を測定した。 我々は,OAMスペクトルの強いアイドラー生成と理論予測との良好な一致を観察する。 この実験は、超薄型SPDC源による双光子波動関数の効率的な測定方法と、SPDCで生成する高次元光子対のキャラクタリゼーションの道を開くことを期待する。

The technique of stimulated emission tomography (SET) provides excellent characterization of SPDC sources of bi-photon states since it increases the average number of photons detected by several orders of magnitude than the traditional coincidence counting method. In a SET experiment, the signal caused by the vacuum fluctuation in SPDC is replaced by a more intense prepared seed with the same mode properties, resulting in an amplification of the corresponding idler. Based on this idea, our experiment uses the difference frequency generation (DFG), a purely classical second-order nonlinear process, to measure the orbital angular momentum (OAM) spectrum of an entangled photon pair produced by a Type-II SPDC crystal. We inject the seed beam at 780 nm with different Laguerre-Gaussian modes together with a pump beam at 405 nm into a Type-II BBO crystal and measure the Laguerre-Gaussian mode distribution of the idler at 842 nm. We observe a strong idler production and good agreement with the theoretical prediction of the OAM spectrum. We expect that this experiment paves the way for the efficient measurement of bi-photon wavefunctions produced by ultra-thin SPDC sources and also the characterization of high-dimensional entangled photon pairs produced in SPDC.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# 散逸系のクラスにおけるイマジナリーギャップ閉点とダイナミクス

Imaginary gap-closed points and dynamics in a class of dissipative systems ( http://arxiv.org/abs/2403.06224v2 )

ライセンス: Link先を確認
Shicheng Ma, Heng Lin, Jinghui Pi, (参考訳) 本稿では,消散系における虚空ギャップ閉点とその関連力学について検討する。 一般の非エルミートモデルでは、エネルギースペクトルのICC点を管理する方程式を導出し、これらの点がハミルトニアンのエルミート部分によってのみ決定されることを示す。 一次元の散逸鎖のクラスに着目して、異なるシナリオや様々なパラメータの量子ウォークを探索し、IGCポイントがバルク損失確率でパワーロー崩壊を誘導し、「エッジバースト」と呼ばれる境界現象を引き起こすことを示した。 この観測は、周期的境界条件(PBC)の下でのIGC点の量子ウォークダイナミクス形成における重要な役割を浮き彫りにした。 最後に、PBC の下での散逸鎖の減衰行列は、リウヴィリアンギャップレス点を持ち、長期力学における定常状態への代数的収束を示唆することを示す。

We investigate imaginary gap-closed (IGC) points and their associated dynamics in dissipative systems. In a general non-Hermitian model, we derive the equation governing the IGC points of the energy spectrum, establishing that these points are only determined by the Hermitian part of the Hamiltonian. Focusing on a class of one-dimensional dissipative chains, we explore quantum walks across different scenarios and various parameters, showing that IGC points induce a power-law decay scaling in bulk loss probability and trigger a boundary phenomenon referred to as "edge burst". This observation underscores the crucial role of IGC points under periodic boundary conditions (PBCs) in shaping quantum walk dynamics. Finally, we demonstrate that the damping matrices of these dissipative chains under PBCs possess Liouvillian gapless points, implying an algebraic convergence towards the steady state in long-time dynamics.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# マルチモーダル学習とテストタイム臨床知識強化によるゼロショット心電図分類

Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement ( http://arxiv.org/abs/2403.06659v3 )

ライセンス: Link先を確認
Che Liu, Zhongwei Wan, Cheng Ouyang, Anand Shah, Wenjia Bai, Rossella Arcucci, (参考訳) 心電図(Electrocardiograms:ECGs)は、心臓不整脈疾患の臨床的診断に不可欠な非侵襲的診断ツールである。 ECG Self-supervised Learning (eSSL) 法は、注釈のないECGデータからの表現学習において有望であるが、レポートに見られる臨床知識を見落としていることが多い。 この監視とダウンストリームタスクのアノテーション付きサンプルの要求は、eSSLの汎用性を制限する。 本稿では,これらの課題をMERL(Multimodal ECG Representation Learning)フレームワークを用いて解決する。 マルチモーダルなECGレコードと関連するレポートの学習を通じて、MERLはテキストプロンプトでゼロショットECG分類を実行でき、下流のタスクでデータをトレーニングする必要がなくなる。 臨床知識向上技術 (CKEPE) アプローチは,外部の専門知識データベースを利用した大規模言語モデル (LLM) を用いて,より記述的なプロンプトを生成し,LCM生成したコンテンツの幻覚を低減し,ゼロショット分類を促進する。 MERLに基づいて、6つのパブリックECGデータセットにまたがる最初のベンチマークを行い、eSSL法と比較してMERLの優れた性能を示す。 特に、MERLは、ゼロショット分類における平均75.2%のAUCスコアを(トレーニングデータなしで)達成し、10\%の注釈付きトレーニングデータを持つ線形プローブeSSLメソッドよりも3.2%高い。 コードとモデルはhttps://github.com/cheliu-computation/MERLで入手できる。

Electrocardiograms (ECGs) are non-invasive diagnostic tools crucial for detecting cardiac arrhythmic diseases in clinical practice. While ECG Self-supervised Learning (eSSL) methods show promise in representation learning from unannotated ECG data, they often overlook the clinical knowledge that can be found in reports. This oversight and the requirement for annotated samples for downstream tasks limit eSSL's versatility. In this work, we address these issues with the Multimodal ECG Representation Learning (MERL}) framework. Through multimodal learning on ECG records and associated reports, MERL is capable of performing zero-shot ECG classification with text prompts, eliminating the need for training data in downstream tasks. At test time, we propose the Clinical Knowledge Enhanced Prompt Engineering (CKEPE) approach, which uses Large Language Models (LLMs) to exploit external expert-verified clinical knowledge databases, generating more descriptive prompts and reducing hallucinations in LLM-generated content to boost zero-shot classification. Based on MERL, we perform the first benchmark across six public ECG datasets, showing the superior performance of MERL compared against eSSL methods. Notably, MERL achieves an average AUC score of 75.2% in zero-shot classification (without training data), 3.2% higher than linear probed eSSL methods with 10\% annotated training data, averaged across all six datasets. Code and models are available at https://github.com/cheliu-computation/MERL
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# 高精細なプロンプトチューニング:高精細な医用画像分類のためのパラメータとメモリ効率の学習法

Fine-grained Prompt Tuning: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification ( http://arxiv.org/abs/2403.07576v4 )

ライセンス: Link先を確認
Yijin Huang, Pujin Cheng, Roger Tam, Xiaoying Tang, (参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデル全体(LPM)の更新に要するコストを回避するために,事前学習したモデルを下流タスクに転送するコスト効率の高い方法として提案されている。 本研究では,医用画像分類のためのPETL法であるFPTについて述べる。 FPTは、特に高解像度の入力コンテキストにおいて、他のPETL法と比較してメモリ消費を著しく削減する。 これを実現するために、まずLPMの重みを凍結し、学習可能な軽量サイドネットワークを構築する。 凍結したLPMは、高解像度画像を入力として精細な特徴を抽出し、一方、サイドネットワークは低解像度画像を供給してメモリ使用量を減らす。 サイドネットワークが事前学習した知識にアクセスできるようにするため、融合モジュールを介してLPMから情報を要約するきめ細かいプロンプトを導入する。 トレーニングコストとメモリ要件をさらに削減するために、重要なトークンの選択とプリロード技術が使用されている。 FPTは, サイズ, モダリティ, 複雑さの異なる4つの医療データセットで評価した。 実験の結果、FPTは学習可能なパラメータの1.8%と512 x 512の入力解像度を持つエンコーダViT-Bモデルのメモリコストの13%しか使用せず、LPM全体の微調整に匹敵する性能を示した。

Parameter-efficient transfer learning (PETL) is proposed as a cost-effective way to transfer pre-trained models to downstream tasks, avoiding the high cost of updating entire large-scale pre-trained models (LPMs). In this work, we present Fine-grained Prompt Tuning (FPT), a novel PETL method for medical image classification. FPT significantly reduces memory consumption compared to other PETL methods, especially in high-resolution input contexts. To achieve this, we first freeze the weights of the LPM and construct a learnable lightweight side network. The frozen LPM takes high-resolution images as input to extract fine-grained features, while the side network is fed low-resolution images to reduce memory usage. To allow the side network to access pre-trained knowledge, we introduce fine-grained prompts that summarize information from the LPM through a fusion module. Important tokens selection and preloading techniques are employed to further reduce training cost and memory requirements. We evaluate FPT on four medical datasets with varying sizes, modalities, and complexities. Experimental results demonstrate that FPT achieves comparable performance to fine-tuning the entire LPM while using only 1.8% of the learnable parameters and 13% of the memory costs of an encoder ViT-B model with a 512 x 512 input resolution.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# モデル編集の欠如:モデル編集による隠れた損傷を深く掘り下げる

The Missing Piece in Model Editing: A Deep Dive into the Hidden Damage Brought By Model Editing ( http://arxiv.org/abs/2403.07825v2 )

ライセンス: Link先を確認
Jianchen Wang, Zhouhong Gu, Xiaoxuan Zhu, Lin Zhang, Haoning Ye, Zhuozhi Xiong, Hongwei Feng, Yanghua Xiao, (参考訳) 大規模言語モデルは、その顕著な効果で多くのタスクに革命をもたらした。 しかし、これらのモデルの編集は時代遅れや誤った情報の修正に不可欠であり、しばしば隠れた空間におけるリップル効果として知られる複雑な問題を引き起こす。 検出が難しいが、この効果はモデル編集タスクの有効性を著しく阻害し、モデル性能を低下させる可能性がある。 本稿では,新たな評価手法であるグラフィカル・インパクト・アセスメント(GIE)を提案し,モデルの適用状況とその後の編集の影響を定量的に評価する。 さらに,このリップル効果を緩和するモデル編集法であるSelective Impact Revision(SIR)を導入する。 包括的評価の結果,隠された空間におけるリップル効果は,現在のすべてのモデル編集手法において重要な問題であることが明らかとなった。 しかし,提案手法であるGIEとSIRは,この問題を効果的に識別・緩和し,LLM編集技術の進歩に寄与する。

Large Language Models have revolutionized numerous tasks with their remarkable efficacy. However, editing these models, crucial for rectifying outdated or erroneous information, often leads to a complex issue known as the ripple effect in the hidden space. While difficult to detect, this effect can significantly impede the efficacy of model editing tasks and deteriorate model performance. This paper addresses this scientific challenge by proposing a novel evaluation methodology, Graphical Impact Evaluation(GIE), which quantitatively evaluates the adaptations of the model and the subsequent impact of editing. Furthermore, we introduce the Selective Impact Revision(SIR), a model editing method designed to mitigate this ripple effect. Our comprehensive evaluations reveal that the ripple effect in the hidden space is a significant issue in all current model editing methods. However, our proposed methods, GIE and SIR, effectively identify and alleviate this issue, contributing to the advancement of LLM editing techniques.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# ポイントトラッキングとセグメンテーションを併用した高能率リアルタイム手術機器セグメンテーション

Augmenting Efficient Real-time Surgical Instrument Segmentation in Video with Point Tracking and Segment Anything ( http://arxiv.org/abs/2403.08003v2 )

ライセンス: Link先を確認
Zijian Wu, Adam Schmidt, Peter Kazanzides, Septimiu E. Salcudean, (参考訳) Segment Anything Model (SAM)は、従来のセグメンテーションのパラダイムに革命をもたらす強力なビジョン基盤モデルである。 それにもかかわらず、各フレームの推進と計算コストへの依存は、ロボット支援手術における使用を制限する。 拡張現実のガイダンスのようなアプリケーションは、臨床に使用するために効率的な推論とともに、ユーザーの介入をほとんど必要としない。 本研究では,これらの制約に対処するため,軽量なSAM変異体を応用し,手術シーンにおける一般化を促進するための微調整技術を適用した。 追跡任意の点(TAP)の最近の進歩は、特に点が排除されたり、視野を離れたりする場合、精度と効率の両面で有望な結果を示している。 この進歩に触発されて、オンラインポイントトラッカーと、手術器具のセグメンテーションのために微調整された軽量SAMモデルを組み合わせた新しいフレームワークを提案する。 関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。 定量的結果は、EndoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドXMemを84.8 IoUと91.0 Diceで上回る。 提案手法は,生体外UCL dVRKおよび生体内ColecSeg8kデータセット上で,XMemおよびトランスフォーマーに基づく完全教師付きセグメンテーション手法に匹敵する有望な性能を実現する。 さらに,ラベルなしSTIRデータセット上でのゼロショット一般化能力を示す。 効率面では、1台のGeForce RTX 4060/4090 GPUでそれぞれ試験を行い、25/90 FPSの推論速度を実現した。 https://github.com/wuzijian 1997/SIS-PT-SAM

The Segment Anything Model (SAM) is a powerful vision foundation model that is revolutionizing the traditional paradigm of segmentation. Despite this, a reliance on prompting each frame and large computational cost limit its usage in robotically assisted surgery. Applications, such as augmented reality guidance, require little user intervention along with efficient inference to be usable clinically. In this study, we address these limitations by adopting lightweight SAM variants to meet the efficiency requirement and employing fine-tuning techniques to enhance their generalization in surgical scenes. Recent advancements in Tracking Any Point (TAP) have shown promising results in both accuracy and efficiency, particularly when points are occluded or leave the field of view. Inspired by this progress, we present a novel framework that combines an online point tracker with a lightweight SAM model that is fine-tuned for surgical instrument segmentation. Sparse points within the region of interest are tracked and used to prompt SAM throughout the video sequence, providing temporal consistency. The quantitative results surpass the state-of-the-art semi-supervised video object segmentation method XMem on the EndoVis 2015 dataset with 84.8 IoU and 91.0 Dice. Our method achieves promising performance that is comparable to XMem and transformer-based fully supervised segmentation methods on ex vivo UCL dVRK and in vivo CholecSeg8k datasets. In addition, the proposed method shows promising zero-shot generalization ability on the label-free STIR dataset. In terms of efficiency, we tested our method on a single GeForce RTX 4060/4090 GPU respectively, achieving an over 25/90 FPS inference speed. Code is available at: https://github.com/wuzijian1997/SIS-PT-SAM
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# PYRA: トレーニング推論効率の良いタスク適応のための並列収量再活性化

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation ( http://arxiv.org/abs/2403.09192v2 )

ライセンス: Link先を確認
Yizhe Xiong, Hui Chen, Tianxiang Hao, Zijia Lin, Jungong Han, Yuesong Zhang, Guoxin Wang, Yongjun Bao, Guiguang Ding, (参考訳) 近年, 変圧器の規模が急速に拡大し, タスク適応の分野において, トレーニングオーバーヘッドや推論効率の面で大きな課題がもたらされている。 既存の研究、すなわちパラメータ効率のよいファインチューニング(PEFT)とモデル圧縮は、これらの課題を別々に検討している。 しかしPEFTは、特に大規模モデルでは、元のバックボーンの推論効率を保証できない。 モデル圧縮は構造探索と再訓練にかなりの訓練コストを必要とする。 したがって、これらの単純な組み合わせは、最小のコストでトレーニング効率と推論効率の両方を達成することを保証できない。 本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。 PYRAは、まず並列出力適応重みを利用して、下流タスクのデータ分布を包括的に知覚する。 その後、トークン変調のための再活性化戦略がマージされるトークンに適用され、キャリブレーションされたトークン特徴が導かれる。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れており、大規模基礎モデルのトレーニング効率と推論効率の両面において、PYRAの有効性と優位性を示している。 私たちのコードは一般に公開されるでしょう。

Recently, the scale of transformers has grown rapidly, which introduces considerable challenges in terms of training overhead and inference efficiency in the scope of task adaptation. Existing works, namely Parameter-Efficient Fine-Tuning (PEFT) and model compression, have separately investigated the challenges. However, PEFT cannot guarantee the inference efficiency of the original backbone, especially for large-scale models. Model compression requires significant training costs for structure searching and re-training. Consequently, a simple combination of them cannot guarantee accomplishing both training efficiency and inference efficiency with minimal costs. In this paper, we propose a novel Parallel Yielding Re-Activation (PYRA) method for such a challenge of training-inference efficient task adaptation. PYRA first utilizes parallel yielding adaptive weights to comprehensively perceive the data distribution in downstream tasks. A re-activation strategy for token modulation is then applied for tokens to be merged, leading to calibrated token features. Extensive experiments demonstrate that PYRA outperforms all competing methods under both low compression rate and high compression rate, demonstrating its effectiveness and superiority in maintaining both training efficiency and inference efficiency for large-scale foundation models. Our code will be released to the public.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# GraphBEV:マルチモード3Dオブジェクト検出のためのロバストなBEV機能アライメントを目指して

GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2403.11848v3 )

ライセンス: Link先を確認
Ziying Song, Lei Yang, Shaoqing Xu, Lin Liu, Dongyang Xu, Caiyan Jia, Feiyang Jia, Li Wang, (参考訳) LiDARとカメラ情報をBird's-Eye-View(BEV)表現に統合することは、自動運転における3Dオブジェクト検出の重要な側面として現れている。 しかし,既存の手法は,LiDARとカメラセンサの不正確な校正関係の影響を受けやすい。 このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。 本研究では,グラフBEVと呼ばれる堅牢な融合フレームワークを提案する。 不正確なポイントクラウドプロジェクションによるエラーに対処するため、グラフマッチングを介して近隣の認識深度機能を利用するLocal Alignモジュールを導入する。 さらに,LiDARとカメラBEVの機能の相違を是正するGlobal Alignモジュールを提案する。 当社のグラフBEVフレームワークは,nuscenes検証セットにおいて,mAPが70.1\%,BEV Fusionが1.6\%を超え,最先端のパフォーマンスを実現している。 重要な点として、我々のグラフBEVは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。

Integrating LiDAR and camera information into Bird's-Eye-View (BEV) representation has emerged as a crucial aspect of 3D object detection in autonomous driving. However, existing methods are susceptible to the inaccurate calibration relationship between LiDAR and the camera sensor. Such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a robust fusion framework called Graph BEV. Addressing errors caused by inaccurate point cloud projection, we introduce a Local Align module that employs neighbor-aware depth features via Graph matching. Additionally, we propose a Global Align module to rectify the misalignment between LiDAR and camera BEV features. Our Graph BEV framework achieves state-of-the-art performance, with an mAP of 70.1\%, surpassing BEV Fusion by 1.6\% on the nuscenes validation set. Importantly, our Graph BEV outperforms BEV Fusion by 8.3\% under conditions with misalignment noise.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# カメラローカライゼーションのためのニューラルボリュームポーズ特徴の学習

Learning Neural Volumetric Pose Features for Camera Localization ( http://arxiv.org/abs/2403.12800v2 )

ライセンス: Link先を確認
Jingyu Lin, Jiaqi Gu, Bojian Wu, Lubin Fan, Renjie Chen, Ligang Liu, Jieping Ye, (参考訳) 本稿では,PoseMapと呼ばれるニューラルボリュームポーズ機能を導入し,画像と関連するカメラポーズの情報をカプセル化することで,カメラのローカライゼーションを強化する。 我々のフレームワークは、拡張されたNeRFモジュールとともにAPR(Absolute Pose Regression)アーキテクチャを活用している。 この統合は、トレーニングデータセットを豊かにする新しいビューの生成を促進するだけでなく、効果的なポーズ特徴の学習も可能にする。 さらに、自己教師付きオンラインアライメントのためのアーキテクチャを拡張し、統合されたフレームワーク内で、未実装の画像に対してメソッドを使用および微調整できるようにします。 室内および屋外のベンチマークシーンで平均14.28%, 20.51%の性能向上が得られた。

We introduce a novel neural volumetric pose feature, termed PoseMap, designed to enhance camera localization by encapsulating the information between images and the associated camera poses. Our framework leverages an Absolute Pose Regression (APR) architecture, together with an augmented NeRF module. This integration not only facilitates the generation of novel views to enrich the training dataset but also enables the learning of effective pose features. Additionally, we extend our architecture for self-supervised online alignment, allowing our method to be used and fine-tuned for unlabelled images within a unified framework. Experiments demonstrate that our method achieves 14.28% and 20.51% performance gain on average in indoor and outdoor benchmark scenes, outperforming existing APR methods with state-of-the-art accuracy.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# 法的テキストの多段階要約による教師なし質問応答システムの実現に向けて

Towards Unsupervised Question Answering System with Multi-level Summarization for Legal Text ( http://arxiv.org/abs/2403.13107v2 )

ライセンス: Link先を確認
M Manvith Prabhu, Haricharana Srinivasa, Anand Kumar M, (参考訳) 本稿では,SCaLARチームによるSemEval-2024 Task 5: Legal Argument Reasoning in Civil procedureについて要約する。 法文の複雑さに悩まされていたこのバイナリ分類課題に対処するために,ラベルを生成するための,単純ながら斬新な類似性と距離に基づく教師なしアプローチを提案する。 さらに,CNN,GRU,LSTMなどのアンサンブル機能を用いて,多段階の法的検討を行った。 データセットにおける法則的説明の長大な性質に対処するため、T5に基づくセグメントワイド要約を導入し、重要な情報を保持することに成功し、モデルの性能を向上させる。 監視されていないシステムでは、開発セットのマクロF1スコアが20ポイント増加し、テストセットの10ポイント増加が見られた。

This paper summarizes Team SCaLAR's work on SemEval-2024 Task 5: Legal Argument Reasoning in Civil Procedure. To address this Binary Classification task, which was daunting due to the complexity of the Legal Texts involved, we propose a simple yet novel similarity and distance-based unsupervised approach to generate labels. Further, we explore the Multi-level fusion of Legal-Bert embeddings using ensemble features, including CNN, GRU, and LSTM. To address the lengthy nature of Legal explanation in the dataset, we introduce T5-based segment-wise summarization, which successfully retained crucial information, enhancing the model's performance. Our unsupervised system witnessed a 20-point increase in macro F1-score on the development set and a 10-point increase on the test set, which is promising given its uncomplicated architecture.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# グラディエントに基づくブラックボックス・サリエンシ・マップ生成のためのフォワード学習

Forward Learning for Gradient-based Black-box Saliency Map Generation ( http://arxiv.org/abs/2403.15603v2 )

ライセンス: Link先を確認
Zeliang Zhang, Mingqian Feng, Jinyang Jiang, Rongyi Zhu, Yijie Peng, Chenliang Xu, (参考訳) 勾配に基づくサリエンシマップは、ディープニューラルネットワークの決定を説明するために広く利用されている。 しかし、ChatGPTのようなクローズドソースAPIのようなモデルがより深く、よりブラックボックスになるにつれて、計算の勾配は難しくなり、従来の説明手法を妨げている。 本研究では,ブラックボックス設定の勾配を推定し,モデル決定を解釈するサリエンシマップを生成するための統一的なフレームワークを提案する。 本研究では,出力から入力までの勾配を推定し,その確率比法を用いてサリエンシマップ生成を行う。 さらに,推定精度を向上させるブロックワイズ計算手法を提案する。 ブラックボックス設定における広範囲な実験により,提案手法の有効性が検証され,精度の高い勾配推定と,生成した塩分濃度マップの説明可能性が確認された。 さらに,GPT-Visionを説明するためにGPT-Visionを適用することで,大規模,クローズドソース,ブラックボックスモデルの時代における勾配に基づく説明手法の継続的な妥当性を明らかにする。

Gradient-based saliency maps are widely used to explain deep neural network decisions. However, as models become deeper and more black-box, such as in closed-source APIs like ChatGPT, computing gradients become challenging, hindering conventional explanation methods. In this work, we introduce a novel unified framework for estimating gradients in black-box settings and generating saliency maps to interpret model decisions. We employ the likelihood ratio method to estimate output-to-input gradients and utilize them for saliency map generation. Additionally, we propose blockwise computation techniques to enhance estimation accuracy. Extensive experiments in black-box settings validate the effectiveness of our method, demonstrating accurate gradient estimation and explainability of generated saliency maps. Furthermore, we showcase the scalability of our approach by applying it to explain GPT-Vision, revealing the continued relevance of gradient-based explanation methods in the era of large, closed-source, and black-box models.
翻訳日:2024-07-04 07:29:19 公開日:2024-07-02
# TrustSQL: ペナルティベースのスコーリングによるテキストとSQLの信頼性のベンチマーク

TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring ( http://arxiv.org/abs/2403.15879v6 )

ライセンス: Link先を確認
Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, (参考訳) Text-to-SQLは、自然言語を使ってデータベースと対話し、情報の検索と合成を簡単にする。 自然言語の質問をSQLクエリに変換する上で,大きな言語モデル(LLM)が著しく成功したにも関わらず,2つの大きな課題があるため,広範なデプロイメントは限定的だ。 第一に、テキストからSQLへのモデルの効果的な利用は、モデルの能力に対するユーザの理解、すなわちモデルが正しく答えられる質問の範囲に依存する。 第二に、控えめなメカニズムがないことは、誤ったSQL生成を気づかないままにし、それによってモデルの出力に対する信頼を損なう可能性がある。 より広範なデプロイメントを実現するためには、モデル設計におけるこれらの課題に対処し、モデル評価を強化し、モデルのアウトプットに対する信頼を構築することが不可欠である。 この目的のために、TrustSQLを紹介した。これは、テキストからSQLまでの信頼性が定義された新しい総合的なベンチマークで、実行不可能な質問に対して正しいSQLクエリを生成し、実行不可能な質問(例えば、スキーマ不互換性やSQL以外の機能のため)を生成することによって、任意のタイプの入力質問を正しく処理する能力として設計されている。 我々は,(1)SQLジェネレータと非現実的質問検出器とSQLエラー検出器を組み合わせたパイプライン方式と,(2)タスク全体に対する単一モデルを用いた統一手法の2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。 我々の実験結果によると、厳しい罰則の下で高いスコアを達成するには多大な努力が必要であり、より安全なデプロイメントのためのテキスト-SQLモデルの開発に新たな視点を提供する。 TrustSQLはhttps://github.com/glee4810/TrustSQLで入手できる。

Text-to-SQL enables users to interact with databases using natural language, simplifying the retrieval and synthesis of information. Despite the remarkable success of large language models (LLMs) in translating natural language questions into SQL queries, widespread deployment remains limited due to two primary challenges. First, the effective use of text-to-SQL models depends on users' understanding of the model's capabilities-the scope of questions the model can correctly answer. Second, the absence of abstention mechanisms can lead to incorrect SQL generation going unnoticed, thereby undermining trust in the model's output. To enable wider deployment, it is crucial to address these challenges in model design and enhance model evaluation to build trust in the model's output. To this end, we introduce TrustSQL, a novel comprehensive benchmark designed to evaluate text-to-SQL reliability-defined as a model's ability to correctly handle any type of input question by generating correct SQL queries for feasible questions and abstaining from generating infeasible ones (e.g., due to schema incompatibility or functionalities beyond SQL). We evaluate existing methods using a novel penalty-based scoring metric with two modeling approaches: (1) pipeline-based methods combining SQL generators with infeasible question detectors and SQL error detectors for abstention; and (2) unified methods using a single model for the entire task. Our experimental results reveal that achieving high scores under severe penalties requires significant effort and provide a new perspective on developing text-to-SQL models for safer deployment. TrustSQL is available at https://github.com/glee4810/TrustSQL.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# DVLO:局所-Global特徴融合と双方向構造アライメントを用いた深部視覚-LiDARオドメトリー

DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment ( http://arxiv.org/abs/2403.18274v2 )

ライセンス: Link先を確認
Jiuming Liu, Dong Zhuo, Zhiheng Feng, Siting Zhu, Chensheng Peng, Zhe Liu, Hesheng Wang, (参考訳) 視覚的およびLiDARデータ内の情報は、画像のきめ細かいテクスチャと点雲内の巨大な幾何学的情報からよく補完されている。 しかし、画像は正規で密度が高いが、LiDARポイントは秩序がなく、疎いという2つのモード間の本質的なデータ構造の不整合のため、効果的な視覚-LiDAR融合を探索することは依然として困難である。 この問題に対処するために,双方向構造アライメントを有する局所-グローバル融合ネットワークを提案する。 局所的に融合した特徴を得るため,各中心の周囲にクラスタ・センターとクラスタ・イメージ・ピクセルとしてイメージ・プレーンを投影する。 画像画素は、画像間構造アライメントのための擬似点として予め構成される。 そこで我々は点を円筒状の投影(ポイント・ツー・イメージ構造アライメント)により擬似画像に変換し,局所的な融合特徴を持つ点特徴間の適応的大域的特徴融合を行う。 本手法は,KITTI odometryとFlyingThings3Dのシーンフローデータセットに対して,単一モーダル法とマルチモーダル法を比較して,最先端の性能を実現する。 コードはhttps://github.com/IRMVLab/DVLO.comでリリースされる。

Information inside visual and LiDAR data is well complementary derived from the fine-grained texture of images and massive geometric information in point clouds. However, it remains challenging to explore effective visual-LiDAR fusion, mainly due to the intrinsic data structure inconsistency between two modalities: Images are regular and dense, but LiDAR points are unordered and sparse. To address the problem, we propose a local-to-global fusion network with bi-directional structure alignment. To obtain locally fused features, we project points onto image plane as cluster centers and cluster image pixels around each center. Image pixels are pre-organized as pseudo points for image-to-point structure alignment. Then, we convert points to pseudo images by cylindrical projection (point-to-image structure alignment) and perform adaptive global feature fusion between point features with local fused features. Our method achieves state-of-the-art performance on KITTI odometry and FlyingThings3D scene flow datasets compared to both single-modal and multi-modal methods. Codes will be released at https://github.com/IRMVLab/DVLO.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# DiffStyler: 拡散に基づく局所画像スタイル転送

DiffStyler: Diffusion-based Localized Image Style Transfer ( http://arxiv.org/abs/2403.18461v2 )

ライセンス: Link先を確認
Shaoxu Li, (参考訳) 画像スタイルの転送は、カラー、ブラシストローク、シェイプなどのスタイルターゲットの特有な特性を持つデジタルイメージを同時に保存しつつ、コンテンツのセマンティックな整合性を同時に保持することを目的としている。 任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。 近年の大規模テキスト・画像拡散モデルの発展は、芸術様式を記述するための広範かつ不正確なテキスト記述を犠牲にしつつも、前例のない合成能力を秘めている。 これらの制約に対処するため,本稿ではDiffStylerを紹介した。 DiffStylerはテキストから画像への安定拡散モデルベースのLoRAを使ってスタイルターゲットの本質をカプセル化している。 このアプローチには戦略的クロスロラ機能とアテンションインジェクションが組み合わされ、スタイル転送プロセスが導かれる。 提案手法の基礎は,マスク型トランスファー技術の発展にさらに刺激を与える発見であるUNetの空間的特徴一貫性をLoRAが維持しているという観察に根ざしている。 この技術は、事前訓練されたFastSAMモデルから抽出されたマスクを用いて、マスクプロンプトを利用して、デノナイジングプロセス中の特徴融合を促進することにより、元の画像の未影響領域を保存する局所化スタイル転送を可能にする。 さらに,本手法では,対応するマスクを用いて複数のスタイルのターゲットに対応する。 広範にわたる実験を通して,DiffStylerは,コンテンツ保存とスタイル統合の調和の両立を図る上で,従来の手法を超越していることを示す。

Image style transfer aims to imbue digital imagery with the distinctive attributes of style targets, such as colors, brushstrokes, shapes, whilst concurrently preserving the semantic integrity of the content. Despite the advancements in arbitrary style transfer methods, a prevalent challenge remains the delicate equilibrium between content semantics and style attributes. Recent developments in large-scale text-to-image diffusion models have heralded unprecedented synthesis capabilities, albeit at the expense of relying on extensive and often imprecise textual descriptions to delineate artistic styles. Addressing these limitations, this paper introduces DiffStyler, a novel approach that facilitates efficient and precise arbitrary image style transfer. DiffStyler lies the utilization of a text-to-image Stable Diffusion model-based LoRA to encapsulate the essence of style targets. This approach, coupled with strategic cross-LoRA feature and attention injection, guides the style transfer process. The foundation of our methodology is rooted in the observation that LoRA maintains the spatial feature consistency of UNet, a discovery that further inspired the development of a mask-wise style transfer technique. This technique employs masks extracted through a pre-trained FastSAM model, utilizing mask prompts to facilitate feature fusion during the denoising process, thereby enabling localized style transfer that preserves the original image's unaffected regions. Moreover, our approach accommodates multiple style targets through the use of corresponding masks. Through extensive experimentation, we demonstrate that DiffStyler surpasses previous methods in achieving a more harmonious balance between content preservation and style integration.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 血管ロボット注文戦略のためのグリーディーとシミュレートされたアニーリングのアイデアに基づく遺伝的アルゴリズムの改良

Improved Genetic Algorithm Based on Greedy and Simulated Annealing Ideas for Vascular Robot Ordering Strategy ( http://arxiv.org/abs/2403.19484v2 )

ライセンス: Link先を確認
Zixi Wang, Yubo Huang, Yukai Zhang, Yifei Sheng, Xin Lai, Peng Lu, (参考訳) 本研究では,医療環境におけるABLVR血管ロボットの獲得,利用,維持を最適化するための包括的アプローチを提案する。 医療ロボティクス、特に血管治療では、ロボットとオペレーターの複雑な性質のため、正確なリソース割り当てと最適化が必要である。 従来のヒューリスティックな手法は直感的ではあるが、大域的な最適化を達成できないことが多い。 これらの課題に対処するために、数学的モデリング、ハイブリッド遺伝的アルゴリズム、およびARIMA時系列予測を組み合わせた新しい戦略を導入する。 ダイナミックな医療環境を考えると、ロボット船やオペレーターのためのロバストな資源配分モデルを含む。 演算子に対する適応学習プロセスのユニークな要件と,ロボット部品のメンテナンスニーズを取り入れた。 シミュレーションアニーリングとグリージーアプローチを統合したハイブリッド遺伝的アルゴリズムは、最適化問題を効率的に解決する。 さらに,ARIMAの時系列予測は,血管ロボットの需要を予測し,我々の戦略の適応性をさらに向上させる。 実験により、他の最先端手法からの最適化、透明性、収束速度の観点から、我々のアプローチの優位性を実証した。

This study presents a comprehensive approach for optimizing the acquisition, utilization, and maintenance of ABLVR vascular robots in healthcare settings. Medical robotics, particularly in vascular treatments, necessitates precise resource allocation and optimization due to the complex nature of robot and operator maintenance. Traditional heuristic methods, though intuitive, often fail to achieve global optimization. To address these challenges, this research introduces a novel strategy, combining mathematical modeling, a hybrid genetic algorithm, and ARIMA time series forecasting. Considering the dynamic healthcare environment, our approach includes a robust resource allocation model for robotic vessels and operators. We incorporate the unique requirements of the adaptive learning process for operators and the maintenance needs of robotic components. The hybrid genetic algorithm, integrating simulated annealing and greedy approaches, efficiently solves the optimization problem. Additionally, ARIMA time series forecasting predicts the demand for vascular robots, further enhancing the adaptability of our strategy. Experimental results demonstrate the superiority of our approach in terms of optimization, transparency, and convergence speed from other state-of-the-art methods.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# StructLDM:3次元ヒューマンジェネレーションのための構造的潜在拡散

StructLDM: Structured Latent Diffusion for 3D Human Generation ( http://arxiv.org/abs/2404.01241v3 )

ライセンス: Link先を確認
Tao Hu, Fangzhou Hong, Ziwei Liu, (参考訳) 近年の3次元生成モデルは, 2次元画像から3次元認識型GANを学習することにより, 顕著な進歩を遂げている。 しかし、既存の3次元人間の生成法は、人間の身体トポロジーの明瞭な構造や意味を無視して、コンパクトな1次元潜伏空間で人間をモデル化する。 本稿では,より表現的かつ高次元な3次元人体モデリング空間を探索し,拡散に基づく非条件の3次元人体生成モデルであるStructLDMを提案する。 StructLDMは3つの重要な設計で、潜在空間の高次元成長による課題を解決する。 1) 統計的人体テンプレートの高密度表面多様体上に定義された意味構造潜在空間。 2)グローバルな潜伏空間を、身体テンプレートに固定された条件付き局所的NeRFの集合によってパラメータ化されたいくつかの意味体部分に分解する構造化された3D対応オートデコーダであって、2Dトレーニングデータから得られた特性を埋め込んで、異なるポーズや服装スタイルでビュー一貫性のある人間をレンダリングするためにデコードすることができる。 3)人体外見標本作成のための構造的潜伏拡散モデル 広範囲な実験により、StructLDMの最先端生成性能が検証され、構造化された潜時空間の1D潜時空間上の表現性を示す。 特に、StructLDMは、ポーズ/ビュー/シェイプ制御や、合成世代、部品認識衣料品編集、3Dバーチャルトライオンなどのハイレベルなタスクを含む、さまざまなレベルの制御可能な3Dヒューマンジェネレーションと編集を可能にする。 私たちのプロジェクトページは以下の通りです。

Recent 3D human generative models have achieved remarkable progress by learning 3D-aware GANs from 2D images. However, existing 3D human generative methods model humans in a compact 1D latent space, ignoring the articulated structure and semantics of human body topology. In this paper, we explore more expressive and higher-dimensional latent space for 3D human modeling and propose StructLDM, a diffusion-based unconditional 3D human generative model, which is learned from 2D images. StructLDM solves the challenges imposed due to the high-dimensional growth of latent space with three key designs: 1) A semantic structured latent space defined on the dense surface manifold of a statistical human body template. 2) A structured 3D-aware auto-decoder that factorizes the global latent space into several semantic body parts parameterized by a set of conditional structured local NeRFs anchored to the body template, which embeds the properties learned from the 2D training data and can be decoded to render view-consistent humans under different poses and clothing styles. 3) A structured latent diffusion model for generative human appearance sampling. Extensive experiments validate StructLDM's state-of-the-art generation performance and illustrate the expressiveness of the structured latent space over the well-adopted 1D latent space. Notably, StructLDM enables different levels of controllable 3D human generation and editing, including pose/view/shape control, and high-level tasks including compositional generations, part-aware clothing editing, 3D virtual try-on, etc. Our project page is at: https://taohuumd.github.io/projects/StructLDM/.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 真空中における損失誘電体試料の量子電気力学:改良型ランゲヴィンノイズ定式化

Quantum electrodynamics of lossy magnetodielectric samples in vacuum: modified Langevin noise formalism ( http://arxiv.org/abs/2404.04977v2 )

ライセンス: Link先を確認
Alessandro Ciattoni, (参考訳) 吸収を示す非有界マクロな媒体の電磁界の量子挙動はランゲヴィンノイズフォーマリズム (macroscopic quantum electrodynamics) によって適切に記述される。 一方、そのような形式は、真空で満たされた領域に関連する誘電率の極限${\rm Im} ( \varepsilon) \rightarrow 0^+$が計算の終了時にのみ真空に置かれる有限サイズの損失物を扱うことができる。 厳密に${\rm Im} ( \varepsilon) =0$ をランゲヴィンノイズ形式(英語版)において禁止するのは、フィールドが損失のない領域で消滅するからである。 近年,散乱モードを包含する改良されたランゲヴィン雑音定式化法が提案されており,従って${\rm Im} (\varepsilon) = 0$を厳密に設定することで,構造化された損失のない状況を記述することができる。 しかし、そのような修正形式は、いくつかの特定の測地でのみ数値的に検証されている。 本稿では,Langevinノイズの定式化について,電界の定型化から解析的に導出し,線形・不均一・磁気誘電体試料を含む任意のシナリオをモデル化した。 導出はハイゼンベルク図形の量子マックスウェル方程式から始まり、その公式な解は媒体アシスト場と散乱モードの重ね合わせとして現れる。 解析学的に、2つの場のそれぞれが特定のボゾン作用素の項で表現できることを証明し、電磁ハミルトニアンを対角化する。

Quantum behavior of the electromagnetic field in unbounded macroscopic media displaying absorption is properly described by the Langevin noise formalism (macroscopic quantum electrodynamics) where the field is assumed to be entirely produced by medium fluctuating sources via the dyadic Green's function. On the other hand, such formalism is able to deal with the case of finite-size lossy objects placed in vacuum only as a limiting situation where the permittivity limit ${\rm Im} ( \varepsilon) \rightarrow 0^+$ pertaining the regions filled by vacuum is taken at the end of the calculations. Strictly setting ${\rm Im} ( \varepsilon) =0$ is forbidden in the Langevin noise formalism since the field would vanish in the lossless regions and this is physically due to the fact that the contribution of the scattering modes to the field is not separated from the contribution produced by the medium fluctuating sources. Recently, a modified Langevin noise formalism has been proposed to encompass the scattering modes and accordingly it is able to describe the structured lossless situations by strictly setting ${\rm Im} (\varepsilon) = 0$. However such modified formalism has been numerically validated only in few specific geometries. In this paper we analytically derive the modified Langevin noise formalism from the established canonical quantization of the electromagnetic field in macroscopic media, thus proving that it models any possible scenario involving linear, inhomegeneous and magnetodielectric samples. The derivation starts from quantum Maxwell equations in the Heisenberg picture together with their formal solution as the superposition of the medium assisted field and the scattering modes. We analytically prove that each of the two field parts can be expressed in term of particular bosonic operators, which in turn diagonalize the electromagnetic Hamiltonian.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# MM-MATH:プロセス評価ときめ細かい分類によるマルチモーダル数学評価の改善

MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification ( http://arxiv.org/abs/2404.05091v4 )

ライセンス: Link先を確認
Kai Sun, Yushi Bai, Ji Qi, Lei Hou, Juanzi Li, (参考訳) 大規模マルチモーダルモデル(LMM)におけるマルチモーダル数学推論の評価を前進させるために,新しいベンチマークMM-MATHを提案する。 MM-MATHは、5,929個のオープンエンド中等教育数学問題と視覚的文脈を持ち、難易度、学級レベル、知識点の詳細な分類を行う。 従来のベンチマークではバイナリ回答の比較に頼っていたが、MM-MATHは結果評価とプロセス評価の両方を取り入れている。 プロセス評価では、LMM-as-a-judgeを使用して、ソリューションステップを自動的に分析し、エラーを特定のエラータイプに識別し、分類する。 MM-MATH上での10モデルの広範囲な評価は、既存のLMMにとって重要な課題であり、視覚情報の利用が限られており、より難易度の高い問題に苦しむことを強調している。 最高の性能モデルはMM-MATHで31%の精度しか達成していないが、人間では82%である。 これは、既存のモデルに対するベンチマークの難しさと、現在のモデルと人間のマルチモーダル推論能力の間の大きなギャップを強調します。 プロセス評価の結果,複数モーダル推論における画像理解の改善の必要性を強調し,誤りケース全体の半数以上を占め,誤解釈が最も多いことが判明した。

To advance the evaluation of multimodal math reasoning in large multimodal models (LMMs), this paper introduces a novel benchmark, MM-MATH. MM-MATH consists of 5,929 open-ended middle school math problems with visual contexts, with fine-grained classification across difficulty, grade level, and knowledge points. Unlike existing benchmarks relying on binary answer comparison, MM-MATH incorporates both outcome and process evaluations. Process evaluation employs LMM-as-a-judge to automatically analyze solution steps, identifying and categorizing errors into specific error types. Extensive evaluation of ten models on MM-MATH reveals significant challenges for existing LMMs, highlighting their limited utilization of visual information and struggles with higher-difficulty problems. The best-performing model achieves only 31% accuracy on MM-MATH, compared to 82% for humans. This highlights the challenging nature of our benchmark for existing models and the significant gap between the multimodal reasoning capabilities of current models and humans. Our process evaluation reveals that diagram misinterpretation is the most common error, accounting for more than half of the total error cases, underscoring the need for improved image comprehension in multimodal reasoning.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 顔偽造検出のためのバンドアテンション変調RetNet

Band-Attention Modulated RetNet for Face Forgery Detection ( http://arxiv.org/abs/2404.06022v2 )

ライセンス: Link先を確認
Zhida Zhang, Jie Cao, Wenkui Yang, Qihang Fan, Kai Zhou, Ran He, (参考訳) トランスフォーマーネットワークは,大規模なデータセットにまたがるスケーラビリティのために,大規模なフォージェリ検出において広く活用されている。その成功にもかかわらず,トランスフォーマーは,フォージェリヒントを公開する上で重要なグローバルコンテキストの確保と複雑性のバランスをとる上で,課題に直面している。この問題を軽減するために,破滅的な忘れを回避しつつ,広範囲な視覚的コンテキストを効率的に処理するように設計された軽量ネットワークであるBAR-Netを導入する。我々のアプローチは,異なる距離のトークンに差分注意レベルを割り当てることによって,グローバルな情報を知覚するためのターゲットトークンに権限を与える。 両空間軸に沿って自己アテンションを実装し,空間的先行性を維持し,計算負担を軽減するとともに,離散コサイン変換スペクトログラム全体を学習可能な重み付き一連の周波数帯域として扱う適応周波数バンドアテンション変調機構を提案する。

The transformer networks are extensively utilized in face forgery detection due to their scalability across large datasets.Despite their success, transformers face challenges in balancing the capture of global context, which is crucial for unveiling forgery clues, with computational complexity.To mitigate this issue, we introduce Band-Attention modulated RetNet (BAR-Net), a lightweight network designed to efficiently process extensive visual contexts while avoiding catastrophic forgetting.Our approach empowers the target token to perceive global information by assigning differential attention levels to tokens at varying distances. We implement self-attention along both spatial axes, thereby maintaining spatial priors and easing the computational burden.Moreover, we present the adaptive frequency Band-Attention Modulation mechanism, which treats the entire Discrete Cosine Transform spectrogram as a series of frequency bands with learnable weights.Together, BAR-Net achieves favorable performance on several face forgery datasets, outperforming current state-of-the-art methods.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# Greedy-DiM:不合理な顔形態に対するグレディアルゴリズム

Greedy-DiM: Greedy Algorithms for Unreasonably Effective Face Morphs ( http://arxiv.org/abs/2404.06025v2 )

ライセンス: Link先を確認
Zander W. Blasingame, Chen Liu, (参考訳) モルフィング攻撃は最先端の顔認識(FR)システムに対する新たな脅威であり、複数のアイデンティティの生体情報を含む単一の画像を作成することを目的としている。 拡散モルフ (Diffusion Morphs, DiM) は近年提案されているモルフ攻撃であり, 表現に基づくモルフ攻撃の最先端性能を実現している。 しかし、既存のDiMの研究では、DiMsの反復的な性質を活かし、DiMモデルをブラックボックスとして残し、ジェネレーティブ・アドバイサル・ネットワーク(GAN)やVariational AutoEncoder(VAE)と同様の扱いをしている。 同一性に基づくヒューリスティック関数によって導かれる最適ステップを探索するDiMモデルの反復サンプリングプロセスに関する欲求戦略を提案する。 我々は,提案アルゴリズムを,オープンソースのSyn-MAD 2022コンペティションデータセットを用いて,他の10種類の最先端のモーフィングアルゴリズムと比較した。 提案アルゴリズムは,100%のMMPMRで試験されたFRシステムの全てを騙し,比較した他の全てのモルヒネアルゴリズムを上回り,不合理に有効であることがわかった。

Morphing attacks are an emerging threat to state-of-the-art Face Recognition (FR) systems, which aim to create a single image that contains the biometric information of multiple identities. Diffusion Morphs (DiM) are a recently proposed morphing attack that has achieved state-of-the-art performance for representation-based morphing attacks. However, none of the existing research on DiMs have leveraged the iterative nature of DiMs and left the DiM model as a black box, treating it no differently than one would a Generative Adversarial Network (GAN) or Varational AutoEncoder (VAE). We propose a greedy strategy on the iterative sampling process of DiM models which searches for an optimal step guided by an identity-based heuristic function. We compare our proposed algorithm against ten other state-of-the-art morphing algorithms using the open-source SYN-MAD 2022 competition dataset. We find that our proposed algorithm is unreasonably effective, fooling all of the tested FR systems with an MMPMR of 100%, outperforming all other morphing algorithms compared.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# テーパーされたポールトラップに関する総合的研究:デザインから潜在的な応用まで

A Comprehensive Study on A Tapered Paul Trap: From Design to Potential Applications ( http://arxiv.org/abs/2404.10415v2 )

ライセンス: Link先を確認
Bo Deng, Moritz Göb, Max Masuhr, Johannes Roßnagel, Georg Jacob, Daqing Wang, Kilian Singer, (参考訳) 本稿では, 先端電極の対称軸に高周波電極が傾斜しているテーパポールトラップについて述べる。 この構成により、このトラップに閉じ込められた荷電粒子は、その半径方向の自由度と軸方向の自由度が結合される。 同じ設計で単一原子熱エンジンを実験的に実現し、ゼプトニュートン力の増幅が実現された。 本稿では,このようなイオントラップの設計,実装,特性について詳述する。 このシステムはイオンの動きに対する高いレベルの制御を提供する。 その新しい特徴は、量子熱力学、量子センシング、量子情報といった分野への応用を約束するものである。

We present a tapered Paul trap whose radio frequency electrodes are inclined to the symmetric axis of the endcap electrodes, resulting in a funnel-shaped trapping potential. With this configuration, a charged particle confined in this trap has its radial degrees of freedom coupled to that of the axial direction. The same design was successfully used to experimentally realize a single-atom heat engine, and with this setup amplification of zeptonewton forces was implemented. In this paper, we show the design, implementation, and characterization of such an ion trap in detail. This system offers a high level of control over the ion's motion. Its novel features promise applications in the field of quantum thermodynamics, quantum sensing, and quantum information.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 概念活性化ベクトルによる大規模言語モデルの安全性リスクの解明

Uncovering Safety Risks of Large Language Models through Concept Activation Vector ( http://arxiv.org/abs/2404.12038v3 )

ライセンス: Link先を確認
Zhihao Xu, Ruixuan Huang, Changyu Chen, Shuai Wang, Xiting Wang, (参考訳) 注意深い安全確保にもかかわらず、現在の大規模言語モデル(LLM)は、様々な攻撃に対して脆弱なままである。 LLMの安全性リスクをさらに明らかにするために,LLMの安全性メカニズムを正確に解釈して攻撃を効果的に誘導する,SCAV(Safety Concept Activation Vector)フレームワークを導入する。 そこで我々は,自動選択摂動ハイパーパラメータによる攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。 自動評価と人的評価の両方で、我々の攻撃方法は、トレーニングデータが少なく、攻撃成功率と応答品質を著しく改善することを示した。 さらに、生成した攻撃プロンプトは GPT-4 に転送可能であり、埋め込みレベル攻撃もパラメータが知られている他のホワイトボックス LLM に転送可能であることも判明した。 我々の実験は、現在のLLMにおける安全性のリスクをさらに明らかにした。 例えば、7つのオープンソース LLM のうち 6 つが攻撃され、85 % 以上の悪意のある命令に対して常に関連性のある回答が得られます。 最後に,LLMの安全性に関する知見を提供する。

Despite careful safety alignment, current large language models (LLMs) remain vulnerable to various attacks. To further unveil the safety risks of LLMs, we introduce a Safety Concept Activation Vector (SCAV) framework, which effectively guides the attacks by accurately interpreting LLMs' safety mechanisms. We then develop an SCAV-guided attack method that can generate both attack prompts and embedding-level attacks with automatically selected perturbation hyperparameters. Both automatic and human evaluations demonstrate that our attack method significantly improves the attack success rate and response quality while requiring less training data. Additionally, we find that our generated attack prompts may be transferable to GPT-4, and the embedding-level attacks may also be transferred to other white-box LLMs whose parameters are known. Our experiments further uncover the safety risks present in current LLMs. For example, we find that six out of seven open-source LLMs that we attack consistently provide relevant answers to more than 85\% malicious instructions. Finally, we provide insights into the safety mechanism of LLMs.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# ファイルはコンピュータにある:著作権、記憶、生成AIシステム

The Files are in the Computer: Copyright, Memorization, and Generative-AI Systems ( http://arxiv.org/abs/2404.12590v2 )

ライセンス: Link先を確認
A. Feder Cooper, James Grimmelmann, (参考訳) 生成AIシステムを開発する企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。 残念なことに、この議論は「記憶」とは何かという曖昧さによって覆され、参加者が互いに話をする法的な議論に繋がった。 このエッセイでは、暗記に関する会話と、米国著作権法で認識されるコピーとの関係を明確にしようとする。

A central issue in copyright lawsuits against companies that produce generative-AI systems is the degree to which a generative-AI model does or does not "memorize" the data it was trained on. Unfortunately, the debate has been clouded by ambiguity over what "memorization" is, leading to legal debates in which participants often talk past one another. In this Essay, we attempt to bring clarity to the conversation over memorization and its relationship to copying that is cognizable by U.S. copyright law.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 辞書からの文字プロファイリングによる大言語モデルの文字理解の評価

Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works ( http://arxiv.org/abs/2404.12726v2 )

ライセンス: Link先を確認
Xinfeng Yuan, Siyu Yuan, Yuhan Cui, Tianhe Lin, Xintao Wang, Rui Xu, Jiangjie Chen, Deqing Yang, (参考訳) 大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多数のAIアプリケーションに拍車をかけた。 これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。 従来の取り組みでは、基本的な分類タスクや特徴的模倣を通じてこの機能を評価しており、LLMによる微妙な文字理解の獲得に失敗している。 本稿では,文字プロファイリングタスク,すなわち文字プロファイルを対応する素材から要約することで,LLMの文字理解能力を評価することを提案する。 具体的には、文献の専門家によるCroSSデータセットを構築し、下流タスクにおける基礎的真実参照とそれらの適用性を比較して、生成したプロファイルを評価する。 様々な要約手法とLLMを網羅した実験により,有望な結果を得た。 これらの結果はLLMの文字理解能力を強く評価する。 リソースはhttps://github.com/Joanna0123/character_profiling.comで入手できる。

Large language models (LLMs) have demonstrated impressive performance and spurred numerous AI applications, in which role-playing agents (RPAs) are particularly popular, especially for fictional characters. The prerequisite for these RPAs lies in the capability of LLMs to understand characters from fictional works. Previous efforts have evaluated this capability via basic classification tasks or characteristic imitation, failing to capture the nuanced character understanding with LLMs. In this paper, we propose evaluating LLMs' character understanding capability via the character profiling task, i.e., summarizing character profiles from corresponding materials, a widely adopted yet understudied practice for RPA development. Specifically, we construct the CroSS dataset from literature experts and assess the generated profiles by comparing ground truth references and their applicability in downstream tasks. Our experiments, which cover various summarization methods and LLMs, have yielded promising results. These results strongly validate the character understanding capability of LLMs. Resources are available at https://github.com/Joanna0123/character_profiling.
翻訳日:2024-07-04 07:19:16 公開日:2024-07-02
# 等角的予測による距離誘導画像再構成境界

Metric-guided Image Reconstruction Bounds via Conformal Prediction ( http://arxiv.org/abs/2404.15274v2 )

ライセンス: Link先を確認
Matt Y Cheung, Tucker J Netherton, Laurence E Court, Ashok Veeraraghavan, Guha Balakrishnan, (参考訳) 機械学習の最近の進歩は、不適切な問題に対処する新しい医療画像システムやアルゴリズムの開発につながっている。 信頼性を評価し、テスト時に安全にデプロイする方法を理解することは、依然として重要かつオープンな問題です。 本研究では,1つのアルゴリズムが生成した下流メトリクスの有効かつ分布自由な境界を等角予測を用いて計算し,調整された境界値に応じて上・下・下・下・下・下・下・下・下・下・下・下界の復元を検索する。 作品紹介 1) 地中真実を伴わないテストタイム画像再構成評価 2)ダウンストリーム性能保証 3)有意義な上・下限の再建、及び 4)有意な統計的不整合/不整合再建を認めた。 3次元胸部CT像を用いた乳癌術後放射線治療計画法について検討し, 報告する。 1) 測度誘導境界が下流の測度に対して有効なカバレッジを持つのに対して、従来の画素単位境界はそうでない。 2) 距離誘導法と画素ワイド法における上/下境界の解剖学的差異について検討した。 我々の研究は、医用画像再構成のより有意義で信頼性の高いテストタイム評価の道を開く。 https://github.com/matthewyccheung/conformal-metricで利用可能なコード

Recent advancements in machine learning have led to the development of novel medical imaging systems and algorithms that address ill-posed problems. Assessing their trustworthiness and understanding how to deploy them safely at test time remains an important and open problem. In this work, we propose using conformal prediction to compute valid and distribution-free bounds on downstream metrics given reconstructions generated by one algorithm, and retrieve upper/lower bounds and inlier/outlier reconstructions according to the adjusted bounds. Our work offers 1) test time image reconstruction evaluation without ground truth, 2) downstream performance guarantees, 3) meaningful upper/lower bound reconstructions, and 4) meaningful statistical inliers/outlier reconstructions. We demonstrate our method on post-mastectomy radiotherapy planning using 3D breast CT reconstructions, and show 1) that metric-guided bounds have valid coverage for downstream metrics while conventional pixel-wise bounds do not and 2) anatomical differences of upper/lower bounds between metric-guided and pixel-wise methods. Our work paves way for more meaningful and trustworthy test-time evaluation of medical image reconstructions. Code available at https://github.com/matthewyccheung/conformal-metric
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 散逸による格子ゲージ理論の量子シミュレーションの安定化

Stabilizing quantum simulations of lattice gauge theories by dissipation ( http://arxiv.org/abs/2404.16454v2 )

ライセンス: Link先を確認
Tobias Schmale, Hendrik Weimer, (参考訳) 雑音量子ハードウェア上の格子ゲージ理論のシミュレーションは、本質的には、シミュレーションを実装する基礎となる物理系のコヒーレントで不整合な誤差によるゲージ対称性の違反に悩まされる。 これらのゲージ違反によりシミュレーションは非物理的になり、シミュレーションの結果は破棄される。 本研究では,局所的なゲージ違反の検出に依存したアクティブな補正手法について検討し,その後,物理ゲージセクターに散逸的にシステムを戻して修正する。 補正方式はゲージ対称性の保護を確実にするだけでなく、ゲージ不変セクター内においてもシミュレーション結果の有効性も向上することを示す。 最後に、シミュレーションシステムの多体基底状態の生成など、このスキームのさらなる応用について論じる。

Simulations of lattice gauge theories on noisy quantum hardware inherently suffer from violations of the gauge symmetry due to coherent and incoherent errors of the underlying physical system that implements the simulation. These gauge violations cause the simulations to become unphysical requiring the result of the simulation to be discarded. We investigate an active correction scheme that relies on detecting gauge violations locally and subsequently correcting them by dissipatively driving the system back into the physical gauge sector. We show that the correction scheme not only ensures the protection of the gauge symmetry, but it also leads to a longer validity of the simulation results even within the gauge-invariant sector. Finally, we discuss further applications of the scheme such as preparation of the many-body ground state of the simulated system.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 分類基準の概観と共通評価実践の批判的考察

A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice ( http://arxiv.org/abs/2404.16958v2 )

ライセンス: Link先を確認
Juri Opitz, (参考訳) 分類システムは数え切れないほど多くの論文で評価されている。 しかし,評価の実践がしばしば誤りであることがわかった。 しばしばメトリクスは議論なしで選択され、曖昧な用語は誤解を招きます。 例えば、多くの研究は、いわゆる「マクロ」メトリクスを使ってシステム(例えば「マクロF1」)をランク付けするが、そのような「マクロ」メトリックから何を期待するかを明確に定義していない。 これは、メトリックの選択が研究結果に影響を与える可能性があるため、プロセスの明確性は最大化されるべきである、という問題である。 バイアスと有病率という直感的な概念から始まり、一般的な評価指標の分析を行う。 この分析は、メトリクスの基盤となる特性や、論文で示されている期待とどのように一致しているかを理解するのに役立ちます。 次に,近年の共有タスクにおける現場の実践状況と調査評価の実践について考察する。 メトリクスの選択は、システムランキングを任意に見せることができる問題である説得力のある議論では、しばしばサポートされない。 本研究の目的は,より情報的かつ透明なメートル法選択のための概要とガイダンスを提供することであり,有意義な評価を促進することである。

Classification systems are evaluated in a countless number of papers. However, we find that evaluation practice is often nebulous. Frequently, metrics are selected without arguments, and blurry terminology invites misconceptions. For instance, many works use so-called 'macro' metrics to rank systems (e.g., 'macro F1') but do not clearly specify what they would expect from such a `macro' metric. This is problematic, since picking a metric can affect research findings, and thus any clarity in the process should be maximized. Starting from the intuitive concepts of bias and prevalence, we perform an analysis of common evaluation metrics. The analysis helps us understand the metrics' underlying properties, and how they align with expectations as found expressed in papers. Then we reflect on the practical situation in the field, and survey evaluation practice in recent shared tasks. We find that metric selection is often not supported with convincing arguments, an issue that can make a system ranking seem arbitrary. Our work aims at providing overview and guidance for more informed and transparent metric selection, fostering meaningful evaluation.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 編集に基づく非自己回帰型ニューラルネットワーク翻訳のための強化学習

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2405.01280v2 )

ライセンス: Link先を確認
Hao Wang, Tetsuro Morimura, Ukyo Honda, Daisuke Kawahara, (参考訳) 非自己回帰(NAR)言語モデルは、ニューラルネットワーク翻訳(NMT)の低レイテンシで知られている。 しかし,NARと自己回帰モデルの間には大きな復号化空間があり,目的語間の依存性を正確に把握することが困難である。 これを組み合わせることで、NARモデルの適切なトレーニングデータを作成することは、非自明な作業であり、しばしば露出バイアスを悪化させる。 これらの課題に対処するため, 代表的な編集ベースNARモデルであるLevenshtein Transformerに強化学習(RL)を適用し, 自己生成データを用いたRLが編集ベースNARモデルの性能を向上させることを実証した。 ステップワイズ報酬最大化とエピソード報酬最大化という2つのRLアプローチを探索する。 これら2つのアプローチのそれぞれの長所と短所について議論し、実証的に検証する。 さらに,NARモデルのトレーニングにおいて,温度設定が性能に与える影響を実験的に検討し,適切な温度設定の重要性を確認した。

Non-autoregressive (NAR) language models are known for their low latency in neural machine translation (NMT). However, a performance gap exists between NAR and autoregressive models due to the large decoding space and difficulty in capturing dependency between target words accurately. Compounding this, preparing appropriate training data for NAR models is a non-trivial task, often exacerbating exposure bias. To address these challenges, we apply reinforcement learning (RL) to Levenshtein Transformer, a representative edit-based NAR model, demonstrating that RL with self-generated data can enhance the performance of edit-based NAR models. We explore two RL approaches: stepwise reward maximization and episodic reward maximization. We discuss the respective pros and cons of these two approaches and empirically verify them. Moreover, we experimentally investigate the impact of temperature setting on performance, confirming the importance of proper temperature setting for NAR models' training.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# ボクセルグリッドのノイズ化による構造的薬物設計

Structure-based drug design by denoising voxel grids ( http://arxiv.org/abs/2405.03961v2 )

ライセンス: Link先を確認
Pedro O. Pinheiro, Arian Jamasb, Omar Mahmood, Vishnu Sresht, Saeed Saremi, (参考訳) タンパク質構造を条件とした新しい3次元分子のスコアベース生成モデルであるVoxBindを提案する。 我々のアプローチは分子を3次元原子密度格子として表現し、学習と生成に3次元ボクセル除去ネットワークを活用する。 神経経験的ベイズ形式(Saremi & Hyvarinen, 2019)を条件設定に拡張し、2段階の手順で構造条件分子を生成する。 i)学習スコア関数と学習スコア関数を用いたアンダーダムLangevin MCMCを用いたガウス平滑条件分布のサンプルノイズ分子 (II) 単段脱ノイズによるノイズサンプルからクリーン分子を推定する。 現在の最先端と比較すると、我々のモデルは訓練が簡単で、サンプルからかなり速くなり、サイリコのベンチマークでより優れた結果が得られる。 コードはhttps://github.com/genentech/voxbind/で公開されている。

We present VoxBind, a new score-based generative model for 3D molecules conditioned on protein structures. Our approach represents molecules as 3D atomic density grids and leverages a 3D voxel-denoising network for learning and generation. We extend the neural empirical Bayes formalism (Saremi & Hyvarinen, 2019) to the conditional setting and generate structure-conditioned molecules with a two-step procedure: (i) sample noisy molecules from the Gaussian-smoothed conditional distribution with underdamped Langevin MCMC using the learned score function and (ii) estimate clean molecules from the noisy samples with single-step denoising. Compared to the current state of the art, our model is simpler to train, significantly faster to sample from, and achieves better results on extensive in silico benchmarks -- the generated molecules are more diverse, exhibit fewer steric clashes, and bind with higher affinity to protein pockets. The code is available at https://github.com/genentech/voxbind/.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 確率的な1ステップ生成のための特徴学習

Characteristic Learning for Provable One Step Generation ( http://arxiv.org/abs/2405.05512v3 )

ライセンス: Link先を確認
Zhao Ding, Chenguang Duan, Yuling Jiao, Ruoxuan Li, Jerry Zhijian Yang, Pingwen Zhang, (参考訳) 本稿では,GAN(Generative Adversarial Networks)におけるサンプリング効率とフローベースモデルの安定した性能を組み合わせた,新しい一段階生成モデルである特徴生成器を提案する。 我々のモデルは、確率密度輸送を通常の微分方程式(ODE)で記述できる特性によって駆動される。 具体的には、非パラメトリック回帰を用いて速度場を推定し、Euler法を用いて確率フローODEを解き、特性に対する一連の離散近似を生成する。 次に、深層ニューラルネットワークを用いてこれらの特性に適合し、先行分布を目標分布へ効果的にプッシュするワンステップマッピングを確実にする。 理論的には, 速度マッチング, オイラー離散化, 特性適合の誤差を分析し, 2-ワッサーシュタイン距離における特性発生器の非漸近収束速度を確立する。 私たちの知る限りでは、これはシミュレーションなしの1ステップ生成モデルに対する最初の徹底的な分析である。 さらに,本研究では,前処理におけるフローベース生成モデルの誤差解析を改良する。 提案手法を合成データセットと実データセットの両方に適用し,ニューラルネットワークの単一評価で特徴生成器が高次品質を実現することを示す。

We propose the characteristic generator, a novel one-step generative model that combines the efficiency of sampling in Generative Adversarial Networks (GANs) with the stable performance of flow-based models. Our model is driven by characteristics, along which the probability density transport can be described by ordinary differential equations (ODEs). Specifically, We estimate the velocity field through nonparametric regression and utilize Euler method to solve the probability flow ODE, generating a series of discrete approximations to the characteristics. We then use a deep neural network to fit these characteristics, ensuring a one-step mapping that effectively pushes the prior distribution towards the target distribution. In the theoretical aspect, we analyze the errors in velocity matching, Euler discretization, and characteristic fitting to establish a non-asymptotic convergence rate for the characteristic generator in 2-Wasserstein distance. To the best of our knowledge, this is the first thorough analysis for simulation-free one step generative models. Additionally, our analysis refines the error analysis of flow-based generative models in prior works. We apply our method on both synthetic and real datasets, and the results demonstrate that the characteristic generator achieves high generation quality with just a single evaluation of neural network.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 雑音ラベル学習のための部分レベルラベルを用いた雑音クラス後部推定

Estimating Noisy Class Posterior with Part-level Labels for Noisy Label Learning ( http://arxiv.org/abs/2405.05714v2 )

ライセンス: Link先を確認
Rui Zhao, Bin Shi, Jianfei Ruan, Tianze Pan, Bo Dong, (参考訳) ノイズのあるラベル学習において、ノイズのあるクラス後端の推定は、クリーンなクラス後端と遷移行列を推定する基盤を形成するため、一貫した分類器を開発する上で基本的な役割を果たす。 既存の手法は通常、ノイズのあるラベルを持つ分類モデルを訓練することで、ノイズの多いクラス後部を学習する。 しかし、ラベルが正しくない場合、これらのモデルは、インスタンスの特性を反映しない特徴部分を過度に強調し、ノイズのあるクラス後部を推定する重大なエラーをもたらす可能性がある。 この問題に対処するため,本論文では,教師付き情報をパートレベルのラベルで強化し,様々な部分からよりリッチな情報に焦点を合わせることを奨励する。 具体的には,まず,各部位に関連付けられた部分レベルラベルを抽出し,各部位に特徴を分割する。 次に, ノイズレベルラベルと部分レベルラベルの関係をモデル化する, 単一から複数への遷移行列を提案する。 このフレームワークを部分レベルラベルで利用することにより、様々な部分の情報の統合をモデルに誘導し、最終的に分類性能を向上させることで、ノイズのあるクラス後部をより正確に学習することができる。 提案手法は理論的に健全であり,実験結果から合成および実世界の雑音評価において実験的に有効であることが示された。

In noisy label learning, estimating noisy class posteriors plays a fundamental role for developing consistent classifiers, as it forms the basis for estimating clean class posteriors and the transition matrix. Existing methods typically learn noisy class posteriors by training a classification model with noisy labels. However, when labels are incorrect, these models may be misled to overemphasize the feature parts that do not reflect the instance characteristics, resulting in significant errors in estimating noisy class posteriors. To address this issue, this paper proposes to augment the supervised information with part-level labels, encouraging the model to focus on and integrate richer information from various parts. Specifically, our method first partitions features into distinct parts by cropping instances, yielding part-level labels associated with these various parts. Subsequently, we introduce a novel single-to-multiple transition matrix to model the relationship between the noisy and part-level labels, which incorporates part-level labels into a classifier-consistent framework. Utilizing this framework with part-level labels, we can learn the noisy class posteriors more precisely by guiding the model to integrate information from various parts, ultimately improving the classification performance. Our method is theoretically sound, while experiments show that it is empirically effective in synthetic and real-world noisy benchmarks.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# USP:Long Context Generative AIのための統一シーケンス並列処理アプローチ

USP: A Unified Sequence Parallelism Approach for Long Context Generative AI ( http://arxiv.org/abs/2405.07719v5 )

ライセンス: Link先を確認
Jiarui Fang, Shangchun Zhao, (参考訳) 複数の計算装置にまたがって入力テンソルのシーケンス次元を分割するシーケンス並列性(SP)は、生成AIモデルの長いコンテキスト能力を解放する鍵となっている。 本稿では,最先端のSPアプローチであるDeepSpeed-UlyssesとRing-Attentionについて検討し,モデルアーキテクチャやネットワークハードウェアトポロジをより堅牢な統一SPアプローチを提案する。 本稿では,SPの通信・メモリコストと,データ/テンソル/ゼロ/ピペリン並列性を含む既存の並列性を比較し,SPを含むハイブリッド4次元並列性の設計におけるベストプラクティスについて議論する。 LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。 私たちのコードはhttps://github.com/feifeibear/long-context-attention.comで公開されています。

Sequence parallelism (SP), which divides the sequence dimension of input tensors across multiple computational devices, is becoming key to unlocking the long-context capabilities of generative AI models. This paper investigates the state-of-the-art SP approaches, i.e. DeepSpeed-Ulysses and Ring-Attention, and proposes a unified SP approach, which is more robust to transformer model architectures and network hardware topology. This paper compares the communication and memory cost of SP and existing parallelism, including data/tensor/zero/pipeline parallelism, and discusses the best practices for designing hybrid 4D parallelism involving SP. We achieved 47% MFU on two 8xA800 nodes using SP for the LLAMA3-8B model training using sequence length 208K. Our code is publicly available at https://github.com/feifeibear/long-context-attention.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 潜在拡散モデルによる脳波データからの自然音楽復号

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models ( http://arxiv.org/abs/2405.09062v3 )

ライセンス: Link先を確認
Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Luca Cosmo, Taketo Akama, (参考訳) 本稿では,脳波(EEG)記録から自然音楽の再構成を行うために,強力な生成モデル群である潜時拡散モデルを用いることの可能性について検討する。 MIDI生成曲やモノフォニック曲のような限られた音色を持つ単純な音楽とは異なり、ここでの焦点は様々な楽器、声、エフェクトを備えた複雑な音楽であり、ハーモニックや音色に富んでいる。 本研究は,非侵襲的な脳波データを用いて高品質な音楽再生を実現するための最初の試みであり,手作業による事前処理やチャネル選択を必要とせず,生データに直接エンドツーエンドのトレーニング手法を適用する。 我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。 また、生成されたトラックに基づいて楽曲分類を行う。 本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# ドメイン知識をゼロからトレーニングすることでドメインエキスパートをマッチングする

Matching domain experts by training from scratch on domain knowledge ( http://arxiv.org/abs/2405.09395v2 )

ライセンス: Link先を確認
Xiaoliang Luo, Guangzhi Sun, Bradley C. Love, (参考訳) 近年、大型言語モデル(LLM)は、神経科学実験の結果を予測する上で、人間の専門家より優れています(Luo et al , 2024)。 このパフォーマンスの基盤は何ですか? 1つの可能性として、特定の科学的文献における統計的パターンは、より広範な訓練によって生じる創発的な推論能力とは対照的に、LLMのパフォーマンスを損なうことである。 この可能性を評価するため、我々は13億個のドメイン固有知識のトークンを用いて比較的小さな124MパラメータGPT-2モデルを訓練した(次の単語予測)。 数兆のトークンで訓練された大型LLMよりも桁違いに小さいにもかかわらず、小さなモデルは神経科学の結果を予測する専門家レベルのパフォーマンスを達成した。 神経科学の文献で訓練された小さなモデルは、神経科学のテキストで特別に訓練されたトークン化剤を用いてスクラッチから訓練されたり、神経科学の文献で事前訓練されたGPT-2を微調整した時に成功した。 以上の結果から,ドメイン固有の自己回帰学習アプローチによって,専門家レベルのパフォーマンスが,小規模なLLMでも達成できる可能性が示唆された。

Recently, large language models (LLMs) have outperformed human experts in predicting the results of neuroscience experiments (Luo et al., 2024). What is the basis for this performance? One possibility is that statistical patterns in that specific scientific literature, as opposed to emergent reasoning abilities arising from broader training, underlie LLMs' performance. To evaluate this possibility, we trained (next word prediction) a relatively small 124M-parameter GPT-2 model on 1.3 billion tokens of domain-specific knowledge. Despite being orders of magnitude smaller than larger LLMs trained on trillions of tokens, small models achieved expert-level performance in predicting neuroscience results. Small models trained on the neuroscience literature succeeded when they were trained from scratch using a tokenizer specifically trained on neuroscience text or when the neuroscience literature was used to finetune a pretrained GPT-2. Our results indicate that expert-level performance may be attained by even small LLMs through domain-specific, auto-regressive training approaches.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 自然言語がSim2Realギャップの橋渡しに役立つ

Natural Language Can Help Bridge the Sim2Real Gap ( http://arxiv.org/abs/2405.10020v2 )

ライセンス: Link先を確認
Albert Yu, Adeline Foote, Raymond Mooney, Roberto Martín-Martín, (参考訳) イメージコンディショニングされたロボットポリシーを学ぶ上での大きな課題は、低レベル制御による視覚的表現を取得することである。 画像空間の高次元性のため、優れた視覚表現を学ぶには、かなりの量の視覚的データが必要である。 しかし、現実世界で学ぶ場合、データは高価である。 Sim2Realは、現実のターゲットドメインにおけるデータ不足を克服するために、シミュレータを使用して、ターゲットタスクと密接に関連する大量の安価なデータを収集する、有望なパラダイムである。 しかし、ドメインが非常に視覚的に異なる場合、画像条件のポリシーをsimからrealに転送することは困難である。 そこで本研究では,課題関連セマンティクスをキャプチャする領域間の統一信号として,画像の自然言語記述を用いる手法を提案する。 我々の重要な洞察は、異なる領域からの2つの画像観察が類似した言語でラベル付けされている場合、このポリシーは両方の画像に対して同様の行動分布を予測するべきであるということである。 画像エンコーダを訓練して、シムや実画像の記述間の言語記述や距離を予測することは、ドメイン不変の画像表現の学習に役立つ有用なデータ効率の事前学習ステップとなることを実証する。 次に、このイメージエンコーダを、大量のシミュレートされた実演と少数の実演に基づいて同時にトレーニングされたILポリシーのバックボーンとして使用することができる。 従来のsim2real手法とCLIPやR3Mのような強力な視覚言語事前学習ベースラインを25~40%向上させる。 追加のビデオや資料はhttps://robin-lab.cs.utexas.edu/lang4sim2real/を参照。

The main challenge in learning image-conditioned robotic policies is acquiring a visual representation conducive to low-level control. Due to the high dimensionality of the image space, learning a good visual representation requires a considerable amount of visual data. However, when learning in the real world, data is expensive. Sim2Real is a promising paradigm for overcoming data scarcity in the real-world target domain by using a simulator to collect large amounts of cheap data closely related to the target task. However, it is difficult to transfer an image-conditioned policy from sim to real when the domains are very visually dissimilar. To bridge the sim2real visual gap, we propose using natural language descriptions of images as a unifying signal across domains that captures the underlying task-relevant semantics. Our key insight is that if two image observations from different domains are labeled with similar language, the policy should predict similar action distributions for both images. We demonstrate that training the image encoder to predict the language description or the distance between descriptions of a sim or real image serves as a useful, data-efficient pretraining step that helps learn a domain-invariant image representation. We can then use this image encoder as the backbone of an IL policy trained simultaneously on a large amount of simulated and a handful of real demonstrations. Our approach outperforms widely used prior sim2real methods and strong vision-language pretraining baselines like CLIP and R3M by 25 to 40%. See additional videos and materials at https://robin-lab.cs.utexas.edu/lang4sim2real/.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# アスファルト舗装の機能性能に対する保守政策の長期的影響評価のための因果推論手法

Causal inference approach to appraise long-term effects of maintenance policy on functional performance of asphalt pavements ( http://arxiv.org/abs/2405.10329v2 )

ライセンス: Link先を確認
Lingyun You, Nanning Guo, Zhengwu Long, Fusong Wang, Chundi Si, Aboelkasim Diab, (参考訳) 最も一般的な交通インフラであるアスファルト舗装は、繰り返しの交通負荷や連続的な気候周期によるストレスやひずみによる機能的または構造的損傷による交通安全上の深刻な問題を引き起こす傾向がある。 インフラネットワークの品質や高いサービス性は、国家の都市化と産業発展に不可欠である。 アスファルト舗装の優れた機能舗装性能を維持し, 寿命を延ばすためには, 維持方針の下での舗装の長期性能を評価し, 舗装条件に基づいて好適な選択肢を選択する必要がある。 保守政策を評価する上での大きな課題は、車両負荷の不確実性の制御と、気候環境における凍結ソーサイクルの障害による結果評価の有効な治療を行うことである。 本研究では,従来の因果構造モデルと潜在的結果モデルフレームワークを組み合わせた新たな因果推論手法を提案する。 3つの根本的な問題に注意が向けられた。 1)環境負荷下における変数前の因果関係の検出(因果構造同定) 2 共変量以外の結果に対する治療の直接的な因果効果(因果効果の特定)及び 3)因果関係の感度解析 その結果, 本手法は, 予防的維持治療の効果を正確に評価し, 異なる予防的維持アプローチの機能を十分に発揮するための維持時間を評価できることが示唆された。 この枠組みは、政策立案者が舗装の適切な保守戦略を開発するのに役立つ。

Asphalt pavements as the most prevalent transportation infrastructure, are prone to serious traffic safety problems due to functional or structural damage caused by stresses or strains imposed through repeated traffic loads and continuous climatic cycles. The good quality or high serviceability of infrastructure networks is vital to the urbanization and industrial development of nations. In order to maintain good functional pavement performance and extend the service life of asphalt pavements, the long-term performance of pavements under maintenance policies needs to be evaluated and favorable options selected based on the condition of the pavement. A major challenge in evaluating maintenance policies is to produce valid treatments for the outcome assessment under the control of uncertainty of vehicle loads and the disturbance of freeze-thaw cycles in the climatic environment. In this study, a novel causal inference approach combining a classical causal structural model and a potential outcome model framework is proposed to appraise the long-term effects of four preventive maintenance treatments for longitudinal cracking over a 5-year period of upkeep. Three fundamental issues were brought to our attention: 1) detection of causal relationships prior to variables under environmental loading (identification of causal structure); 2) obtaining direct causal effects of treatment on outcomes excluding covariates (identification of causal effects); and 3) sensitivity analysis of causal relationships. The results show that the method can accurately evaluate the effect of preventive maintenance treatments and assess the maintenance time to cater well for the functional performance of different preventive maintenance approaches. This framework could help policymakers to develop appropriate maintenance strategies for pavements.
翻訳日:2024-07-04 07:09:19 公開日:2024-07-02
# 観察的スケーリング法則と言語モデルの性能予測可能性

Observational Scaling Laws and the Predictability of Language Model Performance ( http://arxiv.org/abs/2405.10938v2 )

ライセンス: Link先を確認
Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto, (参考訳) 言語モデルのパフォーマンスがスケールによってどのように変化するかを理解することは、ベンチマークとアルゴリズム開発にとって非常に重要です。 スケーリング法則は、この理解を構築するためのアプローチのひとつですが、さまざまなスケールでモデルをトレーニングする必要性は、その使用を制限しています。 モデルトレーニングを回避し,約80の公開モデルからスケーリング法則を構築する,代替的,観察的なアプローチを提案する。 複数のモデルファミリから単一のスケーリング法則を構築することは、トレーニングの計算効率と能力に大きなバリエーションがあるため、難しい。 しかし,これらの変動は,言語モデルの性能が低次元能力空間の関数であるような,単純で一般化されたスケーリング法則と一致している。 提案手法は,複数の創発現象がスムーズでシグモダルな挙動を辿り,小さなモデルから予測可能であること,GPT-4のようなモデルにおけるエージェント性能がより単純な非エージェントベンチマークから正確に予測可能であること,そして,言語モデル能力の向上に伴い,Chain-of-ThoughtやSelf-Consistencyといった後学習介入の影響を予測する方法を示す。

Understanding how language model performance varies with scale is critical to benchmark and algorithm development. Scaling laws are one approach to building this understanding, but the requirement of training models across many different scales has limited their use. We propose an alternative, observational approach that bypasses model training and instead builds scaling laws from ~80 publically available models. Building a single scaling law from multiple model families is challenging due to large variations in their training compute efficiencies and capabilities. However, we show that these variations are consistent with a simple, generalized scaling law where language model performance is a function of a low-dimensional capability space, and model families only vary in their efficiency in converting training compute to capabilities. Using this approach, we show the surprising predictability of complex scaling phenomena: we show that several emergent phenomena follow a smooth, sigmoidal behavior and are predictable from small models; we show that the agent performance of models such as GPT-4 can be precisely predicted from simpler non-agentic benchmarks; and we show how to predict the impact of post-training interventions like Chain-of-Thought and Self-Consistency as language model capabilities continue to improve.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# C3L:コントラスト学習によるコンテンツ関連視覚言語指導データ生成

C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning ( http://arxiv.org/abs/2405.12752v2 )

ライセンス: Link先を確認
Ji Ma, Wei Suo, Peng Wang, Yanning Zhang, (参考訳) VLIT(Vision-Language Instruction Tuning)は、LVLM(Large Vision-Language Models)の重要なトレーニングフェーズである。 オープンソースのLVLMの改善により、研究者たちは、オープンソースのLVLMを使用してVLITデータを生成するようになり、大きな進歩を遂げた。 しかし、このようなデータ生成アプローチは以下の課題によってボトルネックとなる。 1) マルチモーダルモデルは事前の言語知識の影響を受けやすいため, 直接LVLMを用いてVLITデータを生成すると, 生成したデータと画像間の低コンテンツ関連性が必然的に生じる。 2) VLITデータの生成能力を向上させるため, 従来の手法では, 生成能力を高めるための追加のトレーニングフェーズが組み込まれている。 このプロセスは、モデルが目に見えない入力(すなわち「露出バイアス」問題)に一般化するのを損なう。 本稿では,コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。 具体的には、画像インストラクション対応スコアS(I2C)を演算することで、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。 さらに,LVLMのVLITデータ生成能力をさらに向上するために,コントラスト学習モジュールを導入する。 4つのベンチマークで多数の自動測定を行った結果,本手法の有効性が示された。

Vision-Language Instruction Tuning (VLIT) is a critical training phase for Large Vision-Language Models (LVLMs). With the improving capabilities of open-source LVLMs, researchers have increasingly turned to generate VLIT data by using open-source LVLMs and achieved significant progress. However, such data generation approaches are bottlenecked by the following challenges: 1) Since multi-modal models tend to be influenced by prior language knowledge, directly using LVLMs to generate VLIT data would inevitably lead to low content relevance between generated data and images. 2) To improve the ability of the models to generate VLIT data, previous methods have incorporated an additional training phase to boost the generative capacity. This process hurts the generalization of the models to unseen inputs (i.e., "exposure bias" problem). In this paper, we propose a new Content Correlated VLIT data generation via Contrastive Learning (C3L). Specifically, we design a new content relevance module which enhances the content relevance between VLIT data and images by computing Image Instruction Correspondence Scores S(I2C). Moreover, a contrastive learning module is introduced to further boost the VLIT data generation capability of the LVLMs. A large number of automatic measures on four benchmarks show the effectiveness of our method.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# DyGPrompt: 動的グラフの学習機能と時間プロンプト

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs ( http://arxiv.org/abs/2405.13937v4 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Xinming Zhang, (参考訳) 動的グラフは実世界で広く普及し、様々な分野にわたるオブジェクト間の動的関係をモデル化する。 動的グラフモデリングでは、動的グラフニューラルネットワーク(DGNN)が主流の手法として登場し、一般的にリンク予測タスクで事前訓練され、ノード分類などの下流タスクの目的との大きなギャップを残している。 ギャップを埋めるために、グラフ上では、プロンプトベースの学習が注目を集めている。 しかし、既存の取り組みは静的グラフに重点を置いており、動的グラフの進化を無視している。 本稿では,動的グラフモデリングのための新しい事前学習および促進フレームワークであるDyGPromptを提案する。 まず,タスクの目的と,事前学習タスクと下流タスクの動的変動のギャップに対処する2つのプロンプトを設計する。 第2に,ノードと時間の特徴が相互に特徴付けされていることを認識し,下流タスクにおけるノード時間パターンの進化をモデル化するための2つの条件ネットを提案する。 最後に、DyGPromptを3つの公開データセットに関する広範な実験により徹底的に評価、分析する。

Dynamic graphs are pervasive in the real world, modeling dynamic relations between objects across various fields. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique, which are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs. However, existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DyGPrompt, a novel pre-training and prompting framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and dynamic variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DyGPrompt through extensive experiments on three public datasets.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# Cocktail: LLM生成ドキュメント統合による総合的な情報検索ベンチマーク

Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration ( http://arxiv.org/abs/2405.16546v2 )

ライセンス: Link先を確認
Sunhao Dai, Weihao Liu, Yuqi Zhou, Liang Pang, Rongju Ruan, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen, (参考訳) LLM(Large Language Models)の普及により、インターネット上のAIGC(AIGC)が流入し、情報検索システム(IR)のコーパスが人間のみの書き起こしからLLM生成コンテンツとの共存へと変化した。 このAIGCのIRシステムへの影響は、研究者のための専用のベンチマークが欠如していることから、未解決の問題である。 本稿では,LLM時代の混在データランドスケープにおけるIRモデル評価に適した総合ベンチマークであるCocktailを紹介する。 Cocktailは16の多様なデータセットで構成されており、さまざまなテキスト検索タスクやドメインに対して、人間の書き起こしとLLM生成コーパスが混在している。 さらに,LLMに含まれるデータセット情報から潜在的なバイアスを回避するため,最近のイベントからクエリを抽出したNQ-UTDという最新のデータセットも導入する。 Cocktailのベンチマークデータセットに対して1,000以上の最先端の検索モデルを評価する実験を行うことで、ニューラルネットワークモデルにおけるランク付け性能とソースバイアスとの明確なトレードオフを明らかにし、将来のIRシステム設計におけるバランスのとれたアプローチの必要性を強調します。 我々は,Cocktail が LLM 時代のIR 研究の基盤となることを願っている。すべてのデータとコードは \url{https://github.com/KID-22/Cocktail} で公開されている。

The proliferation of Large Language Models (LLMs) has led to an influx of AI-generated content (AIGC) on the internet, transforming the corpus of Information Retrieval (IR) systems from solely human-written to a coexistence with LLM-generated content. The impact of this surge in AIGC on IR systems remains an open question, with the primary challenge being the lack of a dedicated benchmark for researchers. In this paper, we introduce Cocktail, a comprehensive benchmark tailored for evaluating IR models in this mixed-sourced data landscape of the LLM era. Cocktail consists of 16 diverse datasets with mixed human-written and LLM-generated corpora across various text retrieval tasks and domains. Additionally, to avoid the potential bias from previously included dataset information in LLMs, we also introduce an up-to-date dataset, named NQ-UTD, with queries derived from recent events. Through conducting over 1,000 experiments to assess state-of-the-art retrieval models against the benchmarked datasets in Cocktail, we uncover a clear trade-off between ranking performance and source bias in neural retrieval models, highlighting the necessity for a balanced approach in designing future IR systems. We hope Cocktail can serve as a foundational resource for IR research in the LLM era, with all data and code publicly available at \url{https://github.com/KID-22/Cocktail}.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# TEII:言語間感情検出のための大規模モデルによる思考・説明・対話・反復

TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection ( http://arxiv.org/abs/2405.17129v2 )

ライセンス: Link先を確認
Long Cheng, Qihao Shao, Christine Zhao, Sheng Bi, Gina-Anne Levow, (参考訳) 言語間感情検出により,グローバルな傾向,世論,社会現象を大規模に分析することができる。 我々は,感情検出サブタスクの評価セットでF1スコア0.6046を達成し,言語間感情検出(EXALT)共有タスクの説明可能性に参加した。 我々のシステムは0.16F1スコアの絶対値でベースラインを上回り、競合するシステムの中では2位にランクインした。 我々は,Large Language Model (LLM) モデルに対する微調整,ゼロショット学習,および少数ショット学習,および非LLM技術に対する埋め込み型 BiLSTM と KNN を用いた実験を行った。 さらに,マルチイテレーションエージェントワークフロー (Multi-Iteration Agentic Workflow) とマルチバイナリ分類エージェントワークフロー (Multi-Binary-Classifier Agentic Workflow) という2つの新しい手法を導入した。 LLMに基づくアプローチは多言語感情検出に優れた性能を示した。 さらに、実験されたモデルをすべて組み合わせたアンサンブルは、どの単一のアプローチよりも高いF1スコアを得た。

Cross-lingual emotion detection allows us to analyze global trends, public opinion, and social phenomena at scale. We participated in the Explainability of Cross-lingual Emotion Detection (EXALT) shared task, achieving an F1-score of 0.6046 on the evaluation set for the emotion detection sub-task. Our system outperformed the baseline by more than 0.16 F1-score absolute, and ranked second amongst competing systems. We conducted experiments using fine-tuning, zero-shot learning, and few-shot learning for Large Language Model (LLM)-based models as well as embedding-based BiLSTM and KNN for non-LLM-based techniques. Additionally, we introduced two novel methods: the Multi-Iteration Agentic Workflow and the Multi-Binary-Classifier Agentic Workflow. We found that LLM-based approaches provided good performance on multilingual emotion detection. Furthermore, ensembles combining all our experimented models yielded higher F1-scores than any single approach alone.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# ベイズニューラルネットワークにおける構造的部分確率性

Structured Partial Stochasticity in Bayesian Neural Networks ( http://arxiv.org/abs/2405.17666v2 )

ライセンス: Link先を確認
Tommy Rochussen, (参考訳) ベイズニューラルネットワークの後部分布は、同じネットワーク機能に対応する多くのモードを持つ。 このようなモードの多さにより、近似推論手法の作業が困難になる可能性がある。 近年の研究では、ベイズニューラルネットワークにおける近似推論に対する部分確率性の利点が実証されている。 本稿では,ニューロン置換対称性を除去する重みの決定論的サブセットを選択するための構造的手法を提案する。 大幅に単純化された後続分布により,既存の近似推論方式の性能は大幅に向上した。

Bayesian neural network posterior distributions have a great number of modes that correspond to the same network function. The abundance of such modes can make it difficult for approximate inference methods to do their job. Recent work has demonstrated the benefits of partial stochasticity for approximate inference in Bayesian neural networks; inference can be less costly and performance can sometimes be improved. I propose a structured way to select the deterministic subset of weights that removes neuron permutation symmetries, and therefore the corresponding redundant posterior modes. With a drastically simplified posterior distribution, the performance of existing approximate inference schemes is found to be greatly improved.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# フィールドトラップにおけるモスキート卵の自動計数と分類

Automatic Counting and Classification of Mosquito Eggs in Field Traps ( http://arxiv.org/abs/2405.20656v4 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello, David Almenar, Jesus Lopez-Ballester, (参考訳) 蚊が卵を挿入するフィールドトラップの解析は、不妊虫技術(SIT)が適切に機能していることを確認するのに不可欠である。 これは、ハッチした卵の数は、不妊オスが野生の卵と競合していないことを示唆している可能性があるためである。 現在、トラップの研究は顕微鏡で手作業で行われており、非常に時間がかかり、人的ミスを起こしやすい。 本稿では,自動トラップサーベイを提案する。 この目的のために、異なる重なり合う写真を取得するスラットを自動的にスキャンする装置が設計された。 その後、画像はMask-RCNNニューラルネットワークによって分析され、卵を分割し、それらを2つのクラス(フルまたはハッチ)に分類する。

The analysis of the field traps where the mosquitoes insert their eggs is vital to check that the sterile insect technique (SIT) is working properly. This is because the number of hatched eggs may indicate that the sterile males are not competing with the wild ones. Nowadays, the study of the traps is done manually by microscope and is very time-consuming and prone to human error. This paper presents an automatic trap survey. For this purpose, a device has been designed that automatically scans the slat obtaining different overlapping photos. Subsequently, the images are analyzed by a Mask-RCNN neural network that segments the eggs and classifies them into 2 classes: full or hatch
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# 不足データ問題としてのゼロインフレ--プロキシベースのアプローチ

Zero Inflation as a Missing Data Problem: a Proxy-based Approach ( http://arxiv.org/abs/2406.00549v2 )

ライセンス: Link先を確認
Trung Phung, Jaron J. R. Lee, Opeyemi Oladapo-Shittu, Eili Y. Klein, Ayse Pinar Gurses, Susan M. Hannum, Kimberly Weems, Jill A. Marsteller, Sara E. Cosgrove, Sara C. Keller, Ilya Shpitser, (参考訳) 共通型のゼロインフレドデータは、データ記録規則(欠落と推定される結果)やデータ記録装置の詳細(例えば遺伝子発現データにおける人工ゼロ)により、ある真の値を誤ってゼロに置き換える。 既存のゼロインフレードデータの方法は、過剰なゼロを明示的に表すパラメトリック混合モデルによって観測されたデータの可能性に適合するか、またはインプットされた値によって過剰なゼロを置き換えることを目指している。 解析の目的が真のデータ実現を知ることに依存する場合、観測された零点がどれで、どの点が膨らんでいるのかを正確に決定することは困難であるため、ゼロ膨らませたデータの特定の課題は識別可能である。 本稿では、ゼロ膨らませたデータを、ゼロが記録されるたびに、潜在的に検閲された変数の可観測性インジケータ自体が観測されないような、一般的なタイプの欠落データ問題とみなす。 追加の仮定なしでは、ゼロインフレード変数を含むターゲットパラメータが特定されないことを示す。 しかし,黒木とパールの効果回復手法の修正により,指標と指標の関係が分かっていれば,指標の発見と推定が可能となる。 この関係が不明な場合、本手法は感度解析のための部分的識別戦略を導出する。 具体的には、特定のプロキシとインデックスの関係のみが、観測されたデータ分布と互換性があることを示す。 我々は、あるモデルにおいて鋭い分類結果の場合に、この関係について解析的境界を与える。 より複雑な場合、鋭い数値境界は Duarte et al [2023] の手法で計算できる。 本手法をシミュレーション研究および中央線関連血液ストリーム感染症(CLABSIs)へのデータ応用により概説した。

A common type of zero-inflated data has certain true values incorrectly replaced by zeros due to data recording conventions (rare outcomes assumed to be absent) or details of data recording equipment (e.g. artificial zeros in gene expression data). Existing methods for zero-inflated data either fit the observed data likelihood via parametric mixture models that explicitly represent excess zeros, or aim to replace excess zeros by imputed values. If the goal of the analysis relies on knowing true data realizations, a particular challenge with zero-inflated data is identifiability, since it is difficult to correctly determine which observed zeros are real and which are inflated. This paper views zero-inflated data as a general type of missing data problem, where the observability indicator for a potentially censored variable is itself unobserved whenever a zero is recorded. We show that, without additional assumptions, target parameters involving a zero-inflated variable are not identified. However, if a proxy of the missingness indicator is observed, a modification of the effect restoration approach of Kuroki and Pearl allows identification and estimation, given the proxy-indicator relationship is known. If this relationship is unknown, our approach yields a partial identification strategy for sensitivity analysis. Specifically, we show that only certain proxy-indicator relationships are compatible with the observed data distribution. We give an analytic bound for this relationship in cases with a categorical outcome, which is sharp in certain models. For more complex cases, sharp numerical bounds may be computed using methods in Duarte et al.[2023]. We illustrate our method via simulation studies and a data application on central line-associated bloodstream infections (CLABSIs).
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# LexMatcher: LLMを用いた機械翻訳のための辞書中心のデータ収集

LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation ( http://arxiv.org/abs/2406.01441v2 )

ライセンス: Link先を確認
Yongjing Yin, Jiali Zeng, Yafu Li, Fandong Meng, Yue Zhang, (参考訳) 機械翻訳のためのオープンソースの大規模言語モデル(LLM)の微調整が最近注目され、従来のニューラルネットワーク翻訳からデータ中心の研究へとシフトした。 しかし、機械翻訳における微調整のためのデータ収集の領域は、いまだに未探索である。 本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動される、単純で効果的なデータキュレーション手法であるLexMatcherを提案する。 構築工程は、既存のコーパスからのデータ検索と、多文語の頻繁な感覚を補うデータ拡張とを含む。 提案手法は,LLaMA2をベースモデルとして,WMT2022テストセットの確立したベースラインよりも優れ,単語感覚の曖昧さや専門用語の翻訳に関わるタスクにおいて,優れた性能を示す。 これらの結果は、LxMatcherがLLMベースの機械翻訳の強化に有効であることを示す。 コード、データ、モデルはhttps://github.com/ARIES-LM/Lexmatcher-MT.gitで公開されている。

The fine-tuning of open-source large language models (LLMs) for machine translation has recently received considerable attention, marking a shift towards data-centric research from traditional neural machine translation. However, the area of data collection for instruction fine-tuning in machine translation remains relatively underexplored. In this paper, we present LexMatcher, a simple yet effective method for data curation, the design of which is driven by the coverage of senses found in bilingual dictionaries. The construction process comprises data retrieval from an existing corpus and data augmentation that supplements the infrequent senses of polysemous words. Utilizing LLaMA2 as our base model, our approach outperforms the established baselines on the WMT2022 test sets and also exhibits remarkable performance in tasks related to word sense disambiguation and specialized terminology translation. These results underscore the effectiveness of LexMatcher in enhancing LLM-based machine translation. The code, data, and models are available at https://github.com/ARIES-LM/Lexmatcher-MT.git.
翻訳日:2024-07-04 06:59:27 公開日:2024-07-02
# 単一の量子クエリを持つRSAモジュールに対する$\varphi(N)$の計算

Computing $\varphi(N)$ for an RSA module with a single quantum query ( http://arxiv.org/abs/2406.04061v3 )

ライセンス: Link先を確認
Luis Víctor Dieulefait, Jorge Urróz, (参考訳) 本稿では RSA モジュール $N$ に対して、ランダムに選択された整数の順序変調 $N$ を入力として、多項式時間アルゴリズムで $\varphi(N)$ を計算する。 このアルゴリズムは、最大公約数の計算、2つの乗算、1つの除算のみで構成されている。 このアルゴリズムは、少なくとも1-\frac{C}{N^{1/2}}$の確率で動作する。

In this paper we give a polynomial time algorithm to compute $\varphi(N)$ for an RSA module $N$ using as input the order modulo $N$ of a randomly chosen integer. The algorithm consists only on a computation of a greatest common divisor, two multiplications and a division. The algorithm works with a probability of at least $1-\frac{C}{N^{1/2}}$.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# Vision-LSTM: ジェネリックビジョンバックボーンとしてのxLSTM

Vision-LSTM: xLSTM as Generic Vision Backbone ( http://arxiv.org/abs/2406.04303v2 )

ライセンス: Link先を確認
Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter, (参考訳) トランスフォーマーは、自然言語処理に最初に導入されたにもかかわらず、コンピュータビジョンの一般的なバックボーンとして広く使われている。 最近、Long Short-Term Memory (LSTM) が拡張され、拡張性のあるアーキテクチャ xLSTM が拡張され、指数的ゲーティングと並列化可能な行列メモリ構造によって長期にわたるLSTMの制限を克服した。 本稿では, xLSTM ビルディングブロックをコンピュータビジョンに適用した Vision-LSTM (ViL) を紹介する。 ViLはxLSTMブロックのスタックで構成されており、奇異ブロックはパッチトークンのシーケンスを上から下へ処理し、ブロックも下から上へと処理する。 実験によると、ViLはコンピュータビジョンアーキテクチャのための新しい一般的なバックボーンとして、さらにデプロイされることを約束している。

Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# GLAD:教師なし異常検出のためのグローバルおよび局所適応拡散モデルによるより良い再構成を目指して

GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2406.07487v2 )

ライセンス: Link先を確認
Hang Yao, Ming Liu, Haolin Wang, Zhicun Yin, Zifei Yan, Xiaopeng Hong, Wangmeng Zuo, (参考訳) 拡散モデルは教師なし異常検出タスクにおいて優れた性能を示した。 拡散モデルは、通常のデータのみを用いて訓練されているため、特定のノイズを加えたテスト画像の通常の画像を再構成する傾向がある。 しかしながら、これらの手法は全ての潜在的な異常を等しく扱い、2つの主要な問題を引き起こす可能性がある。 世界的視点から見ると、異なる異常による画像再構成の難しさは不均一である。 そこで, 拡散モデルから抽出した画像内容と先行値との差を評価することにより, サンプル毎に, 同一設定を使わずに, サンプル毎に特定の認知ステップを予測することを提案する。 局所的な見地からすると、異常領域の再構成は、同じ画像であっても通常の領域と異なる。 理論的には、拡散モデルは各ステップのノイズを予測し、典型的には標準ガウス分布に従う。 しかし、異常と潜在的な正規分布の違いにより、異常領域の予測ノイズは標準ガウス分布から必然的に逸脱する。 そこで本研究では,標準ガウス分布の限界を突破するよう拡散モデルに促すために,学習中に合成異常サンプルを導入し,推論中に空間適応型特徴融合方式を用いることを提案する。 本稿では,非教師付き異常検出のためのグローバルかつ局所的な適応拡散モデル(GLAD)を提案する。 一般に使用されている3つの異常検出データセット (MVTec-AD, MPDD, VisA) と私たちが統合したプリント基板データセット (PCB-Bank) を用いて, 提案手法の有効性を示した。

Diffusion models have shown superior performance on unsupervised anomaly detection tasks. Since trained with normal data only, diffusion models tend to reconstruct normal counterparts of test images with certain noises added. However, these methods treat all potential anomalies equally, which may cause two main problems. From the global perspective, the difficulty of reconstructing images with different anomalies is uneven. Therefore, instead of utilizing the same setting for all samples, we propose to predict a particular denoising step for each sample by evaluating the difference between image contents and the priors extracted from diffusion models. From the local perspective, reconstructing abnormal regions differs from normal areas even in the same image. Theoretically, the diffusion model predicts a noise for each step, typically following a standard Gaussian distribution. However, due to the difference between the anomaly and its potential normal counterpart, the predicted noise in abnormal regions will inevitably deviate from the standard Gaussian distribution. To this end, we propose introducing synthetic abnormal samples in training to encourage the diffusion models to break through the limitation of standard Gaussian distribution, and a spatial-adaptive feature fusion scheme is utilized during inference. With the above modifications, we propose a global and local adaptive diffusion model (abbreviated to GLAD) for unsupervised anomaly detection, which introduces appealing flexibility and achieves anomaly-free reconstruction while retaining as much normal information as possible. Extensive experiments are conducted on three commonly used anomaly detection datasets (MVTec-AD, MPDD, and VisA) and a printed circuit board dataset (PCB-Bank) we integrated, showing the effectiveness of the proposed method.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# MuirBench:ロバストなマルチイメージ理解のための総合ベンチマーク

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding ( http://arxiv.org/abs/2406.09411v2 )

ライセンス: Link先を確認
Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen, (参考訳) マルチモーダルLLMの堅牢なマルチイメージ理解機能に焦点を当てた総合ベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例:シーン理解、順序付け)で構成され、それは10のカテゴリのマルチイメージ関係(例:マルチビュー、時間的関係)を含んでいる。 11,264のイメージと2,600の多重選択質問を含むMuirBenchは、ペア方式で作成される。 その結果, GPT-4o や Gemini Pro などの高性能モデルでも MuirBench の精度は68.0% と 49.3% であることがわかった。 シングルイメージで訓練されたオープンソースのマルチモーダルLLMは、33.3%未満の精度で、マルチイメージの質問にほとんど一般化できない。 これらの結果は、コミュニティが単一のイメージを超えて見えるマルチモーダル LLM を開発することを奨励する上で、MuirBench の重要性を強調し、今後の改善の道筋を示唆している。

We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# 等角予測を用いた深部分類器の証拠不確かさ集合

Evidential Uncertainty Sets in Deep Classifiers Using Conformal Prediction ( http://arxiv.org/abs/2406.10787v2 )

ライセンス: Link先を確認
Hamed Karimi, Reza Samavi, (参考訳) 本稿では,画像分類器に対して,共形予測セットを生成するためのEvidential Conformal Prediction (ECP)法を提案する。 本手法は,DNN分類器のモデル不確かさを定量化する手法として,Evidential Deep Learning (EDL) のルーツを持つ非整合スコア関数に基づいて設計されている。 対象ラベルのロジット値から導かれるエビデンスを用いて、非整合スコア関数の成分を計算する。 実験により,ECP は実ラベルのカバレッジを維持しつつ,CP のセットサイズと適応性の観点から,最先端の3 つの手法より優れていることが示された。

In this paper, we propose Evidential Conformal Prediction (ECP) method for image classifiers to generate the conformal prediction sets. Our method is designed based on a non-conformity score function that has its roots in Evidential Deep Learning (EDL) as a method of quantifying model (epistemic) uncertainty in DNN classifiers. We use evidence that are derived from the logit values of target labels to compute the components of our non-conformity score function: the heuristic notion of uncertainty in CP, uncertainty surprisal, and expected utility. Our extensive experimental evaluation demonstrates that ECP outperforms three state-of-the-art methods for generating CP sets, in terms of their set sizes and adaptivity while maintaining the coverage of true labels.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# ステレオマッチングにおける厳密な反復的相違

Rectified Iterative Disparity for Stereo Matching ( http://arxiv.org/abs/2406.10943v2 )

ライセンス: Link先を確認
Weiqing Xiao, (参考訳) 不確実性と反復に基づく手法はステレオマッチングにおいて大きな成功を収めた。 しかし、既存の不確実性推定手法では、単一の画像と対応する相違を入力とし、推定ネットワークにより高い要求を課す。 本稿では,コストボリュームに基づく不確実性推定(UEC)を提案する。 画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。 次に,不確実性に基づく不確実性評価,不確実性に基づく不確実性補正(UDR)と不確実性に基づく不確実性更新条件(UDC)の2つの手法を提案する。 これらの2つの方法は、余分なパラメータを加えることなく反復的アプローチの差分更新プロセスを最適化する。 さらに,小量の異方性更新の精度を著しく向上する異方性補正損失を提案する。 提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。 SceneFlow、KITTI、Middlebury 2014、ETH3Dの実験結果は、DR-Stereoが非常に競争力のある異種推定性能を達成していることを示している。

Both uncertainty-assisted and iteration-based methods have achieved great success in stereo matching. However, existing uncertainty estimation methods take a single image and the corresponding disparity as input, which imposes higher demands on the estimation network. In this paper, we propose Cost volume-based disparity Uncertainty Estimation (UEC). Based on the rich similarity information in the cost volume coming from the image pairs, the proposed UEC can achieve competitive performance with low computational cost. Secondly, we propose two methods of uncertainty-assisted disparity estimation, Uncertainty-based Disparity Rectification (UDR) and Uncertainty-based Disparity update Conditioning (UDC). These two methods optimise the disparity update process of the iterative-based approach without adding extra parameters. In addition, we propose Disparity Rectification loss that significantly improves the accuracy of small amount of disparity updates. We present a high-performance stereo architecture, DR Stereo, which is a combination of the proposed methods. Experimental results from SceneFlow, KITTI, Middlebury 2014, and ETH3D show that DR-Stereo achieves very competitive disparity estimation performance.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# LLM-Oracle マシン

LLM-Oracle Machines ( http://arxiv.org/abs/2406.12213v2 )

ライセンス: Link先を確認
Jie Wang, (参考訳) 現代のAIアプリケーションは、大きな言語モデル(LLM)を利用して、自然言語処理タスクの知識と推論能力を活用している。 このアプローチは、オラクルチューリングマシン(OTM)の概念と類似している。 LLM-oracle Machine (LLM-OM) は, LLM のクラスタをオラクルとして利用することにより, OTM の拡張を提案する。 各LLMはブラックボックスとして機能し、その専門知識内でクエリに応答できるが、遅延がある。 LLM-OMの基本,拡張,障害回避,および$\epsilon$-faultの4つの変種を紹介する。 最初の2つは、既存のAIアプリケーションでよく見られる。 後者の2つは LLM の幻覚、偏見、矛盾に対処するために特別に設計されており、信頼性の高い結果を保証することを目的としている。

Contemporary AI applications leverage large language models (LLMs) to harness their knowledge and reasoning abilities for natural language processing tasks. This approach shares similarities with the concept of oracle Turing machines (OTMs). To capture the broader potential of these computations, including those not yet realized, we propose an extension to OTMs: the LLM-oracle machine (LLM-OM), by employing a cluster of LLMs as the oracle. Each LLM acts as a black box, capable of answering queries within its expertise, albeit with a delay. We introduce four variants of the LLM-OM: basic, augmented, fault-avoidance, and $\epsilon$-fault. The first two are commonly observed in existing AI applications. The latter two are specifically designed to address the challenges of LLM hallucinations, biases, and inconsistencies, aiming to ensure reliable outcomes.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# QOG:言語モデルに基づくクエクションとオプション生成

QOG:Question and Options Generation based on Language Model ( http://arxiv.org/abs/2406.12381v2 )

ライセンス: Link先を確認
Jincheng Zhou, (参考訳) 質問-オプション生成(QOG)は、与えられたコンテキストの一連の質問-オプションペアを生成するタスクである。 このタスクには、微調整された大規模モデル、情報検索、教育用複数選択質問の自動生成など、さまざまな応用がある。 本稿では,細調整シーケンス・ツー・シーケンス言語モデル(LM)に基づく3つの異なる手法を用いてQOGモデルを開発する。 実験により、エンドツーエンドのQOGモデルは、トレーニングと推論の両方において計算効率が良く、安定であり、他の手法よりも優れていることが示された。 さらに,我々のQOGモデルは,大規模言語モデルであるLlama 3-8Bと比較して,QOGタスクにおいて競合することを示す。

Question-Options Generation (QOG) is a task that involves generating a set of question-options pairs given context. This task has various applications, including fine-tuning large models, information retrieval, and automated multiple-choice question generation for education. In this paper, we develop QOG models using three different methods based on fine-tuning sequence-to-sequence language models (LMs). Experiments demonstrate that the end-to-end QOG model is computationally efficient and stable during both training and inference, outperforming other methods. Furthermore, our analysis indicates that our QOG models are competitive on the QOG task compared to the large language model Llama 3-8B.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# 審査員の判断:LCMにおけるアライメントと脆弱性の評価

Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges ( http://arxiv.org/abs/2406.12624v2 )

ライセンス: Link先を確認
Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes, (参考訳) LLM-as-a-judgeパラダイムは、人間の評価に関連するスケーラビリティの課題に対して、大きな言語モデル(LLM)を評価するアプローチとして、急速に注目を集めています。 しかし、このパラダイムの強みと弱み、そしてそれが保持する潜在的なバイアスについて、まだ多くのオープンな疑問がある。 本稿では,審査員として機能する多種多様なLLMの性能に関する総合的研究について述べる。 我々は,LLMの客観的知識推論のベンチマークとしてTriviaQAを活用し,高いアノテーション間合意が得られた人間のアノテーションとともに評価する。 私たちの研究には、9つの審査モデルと9つの試験テイカーモデルが含まれています。 審査員モデルのアライメントを、異なるモデルサイズ、家族、および審査員のプロンプトで評価する。 その結果,コーエンのカッパを単純なパーセンテージ合意とは対照的にアライメントの指標として用いることの重要性を再検討し,高いパーセンテージの審査員が依然として極めて異なるスコアを割り当てることができることを示した。 Llama-370B と GPT-4 Turbo はどちらも人間に優れたアライメントを持つが,評価試験のテイカーモデルでは,最大34ポイントのアライメントを有するJiceLM-7B とLexical judge Contains の双方で優れていた。 エラー分析や,命令長や待ち時間バイアスの影響など,さまざまな研究を通じて,今後,LCMを裁判官として活用するための貴重な教訓を提供していきたいと考えています。

Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges. We leverage TriviaQA as a benchmark for assessing objective knowledge reasoning of LLMs and evaluate them alongside human annotations which we found to have a high inter-annotator agreement. Our study includes 9 judge models and 9 exam taker models -- both base and instruction-tuned. We assess the judge model's alignment across different model sizes, families, and judge prompts. Among other results, our research rediscovers the importance of using Cohen's kappa as a metric of alignment as opposed to simple percent agreement, showing that judges with high percent agreement can still assign vastly different scores. We find that both Llama-3 70B and GPT-4 Turbo have an excellent alignment with humans, but in terms of ranking exam taker models, they are outperformed by both JudgeLM-7B and the lexical judge Contains, which have up to 34 points lower human alignment. Through error analysis and various other studies, including the effects of instruction length and leniency bias, we hope to provide valuable lessons for using LLMs as judges in the future.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# Let Guidelines Guide You: A Prescriptive Guideline-Centered Data Annotation Methodology

Let Guidelines Guide You: A Prescriptive Guideline-Centered Data Annotation Methodology ( http://arxiv.org/abs/2406.14099v2 )

ライセンス: Link先を確認
Federico Ruggeri, Eleonora Misino, Arianna Muti, Katerina Korre, Paolo Torroni, Alberto Barrón-Cedeño, (参考訳) 本稿では,各データサンプルに関連付けられたガイドラインの報告に焦点をあてた新しいデータアノテーション手法であるガイドライン中心アノテーションプロセスを紹介する。 標準的な規範的アノテーションプロセスの主な3つの制約を特定し,アノテーションプロセスにおける情報の損失を減らし,ガイドラインの遵守を確実にすることで,ガイドライン中心の方法論がそれらを克服する方法について述べる。 さらに,複数のタスクにまたがるアノテートデータを,単一のアノテートプロセスのコストで再利用する方法について論じる。

We introduce the Guideline-Centered annotation process, a novel data annotation methodology focused on reporting the annotation guidelines associated with each data sample. We identify three main limitations of the standard prescriptive annotation process and describe how the Guideline-Centered methodology overcomes them by reducing the loss of information in the annotation process and ensuring adherence to guidelines. Additionally, we discuss how the Guideline-Centered enables the reuse of annotated data across multiple tasks at the cost of a single human-annotation process.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# 機械学習研究における再現性--概観,バリア,ドライバ

Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers ( http://arxiv.org/abs/2406.14325v2 )

ライセンス: Link先を確認
Harald Semmelrock, Tony Ross-Hellauer, Simone Kopeinik, Dieter Theiler, Armin Haberl, Stefan Thalmann, Dominik Kowald, (参考訳) 様々な分野の研究は、現在、成果の再現性に関する課題を経験している。 この問題は、機械学習(ML)の研究でも広く用いられている。 この問題は、例えば、未発表のデータや/またはソースコードとMLトレーニング条件の感度が原因である。 MLプラットフォームの使用など、この問題に対処するためのさまざまなソリューションが提案されているが、ML主導の研究における再現性のレベルは相変わらず不満足である。 そこで本稿では,ML駆動型研究の再現性について,主に3つの目的について論じる。 一 研究にMLを適用したときの再現性に関する障壁を特定し、異なる種類の再現性(説明、コード、データ及び実験再現性)の障壁を分類すること。 (二)ML再現性を支えるツール、プラクティス、介入等の潜在的なドライバについて議論し、技術主導のドライバ、手続き的なドライバ、および認識と教育に関連するドライバーを区別すること。 3) ドライバをバリアにマッピングする。 本研究は,ML再現性を支援するためのさまざまなソリューションの採用について,洞察を提供し,意思決定プロセスに貢献することを期待している。

Research in various fields is currently experiencing challenges regarding the reproducibility of results. This problem is also prevalent in machine learning (ML) research. The issue arises, for example, due to unpublished data and/or source code and the sensitivity of ML training conditions. Although different solutions have been proposed to address this issue, such as using ML platforms, the level of reproducibility in ML-driven research remains unsatisfactory. Therefore, in this article, we discuss the reproducibility of ML-driven research with three main aims: (i) identifying the barriers to reproducibility when applying ML in research as well as categorize the barriers to different types of reproducibility (description, code, data, and experiment reproducibility), (ii) discussing potential drivers such as tools, practices, and interventions that support ML reproducibility, as well as distinguish between technology-driven drivers, procedural drivers, and drivers related to awareness and education, and (iii) mapping the drivers to the barriers. With this work, we hope to provide insights and to contribute to the decision-making process regarding the adoption of different solutions to support ML reproducibility.
翻訳日:2024-07-04 06:49:41 公開日:2024-07-02
# ImageFlowNet:不規則にサンプリングされた縦断的医用画像による疾患進行のマルチスケール軌跡の予測

ImageFlowNet: Forecasting Multiscale Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images ( http://arxiv.org/abs/2406.14794v2 )

ライセンス: Link先を確認
Chen Liu, Ke Xu, Liangbo L. Shen, Guillaume Huguet, Zilong Wang, Alexander Tong, Danilo Bzdok, Jay Stewart, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy, (参考訳) 画像から病気の進行を予測することは、臨床的意思決定の聖杯である。 しかし, この課題は, 高次元性, 時空間性, サンプリング不規則性により複雑である。 既存の手法では、しばしば手作りの特徴を抽出し、このベクトル空間で時系列解析を行うことで、画像内の豊富な空間情報が失われる。 これらの課題を克服するために、我々は、ニューラルネットワークとSDEを用いて共同埋め込み空間におけるマルチスケール表現を進化させ、画像領域における病気の進行をモデル化する、潜時空間流れ場を学習する新しいフレームワークであるImageFlowNetを紹介した。 特に、ImageFlowNetは、患者のコホートを組み合わせて、患者サンプル間で情報を伝達できるように、マルチスケールの関節表現空間を学習する。 ダイナミクスはその後、進行のもっともらしい軌跡を提供し、SDEは同じ出発点から別の軌跡を提供する。 我々は、ODEの定式化を支援し、高レベルの視覚的特徴、潜在空間の組織、軌道の滑らかさを含む正規化を動機付ける理論的洞察を提供する。 次に、網膜の地理的萎縮、多発性硬化症、グリオ芽腫の進行を示す3つの縦断的医用画像データセットを用いて、画像FlowNetの有効性を実証的に評価した。

The forecasting of disease progression from images is a holy grail for clinical decision making. However, this task is complicated by the inherent high dimensionality, temporal sparsity and sampling irregularity in longitudinal image acquisitions. Existing methods often rely on extracting hand-crafted features and performing time-series analysis in this vector space, leading to a loss of rich spatial information within the images. To overcome these challenges, we introduce ImageFlowNet, a novel framework that learns latent-space flow fields that evolve multiscale representations in joint embedding spaces using neural ODEs and SDEs to model disease progression in the image domain. Notably, ImageFlowNet learns multiscale joint representation spaces by combining cohorts of patients together so that information can be transferred between the patient samples. The dynamics then provide plausible trajectories of progression, with the SDE providing alternative trajectories from the same starting point. We provide theoretical insights that support our formulation of ODEs, and motivate our regularizations involving high-level visual features, latent space organization, and trajectory smoothness. We then demonstrate ImageFlowNet's effectiveness through empirical evaluations on three longitudinal medical image datasets depicting progression in retinal geographic atrophy, multiple sclerosis, and glioblastoma.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# PPGデータによる血管年齢推定への深い不均衡 : 心血管健康のための新しいバイオマーカー

Deep Imbalanced Regression to Estimate Vascular Age from PPG Data: a Novel Digital Biomarker for Cardiovascular Health ( http://arxiv.org/abs/2406.14953v2 )

ライセンス: Link先を確認
Guangkun Nie, Qinghao Zhao, Gongzheng Tang, Jun Li, Shenda Hong, (参考訳) Photoplethysmography(PPG)は、人間の血行動態をモニタリングする重要なツールとして登場しており、近年の研究は、深層学習による血管の老化を評価する可能性を強調している。 しかし、現実の年齢分布は、しばしば不均衡であり、ディープラーニングモデルにとって重要な課題となっている。 本稿では,離散損失関数(Dist Loss)と呼ばれる新しい,シンプルで効果的な損失関数を導入し,不均衡な回帰問題に対処する。 広義の英国バイオバンクデータセット(n=502,389)にDist Lossを組み込んだ1次元畳み込みニューラルネットワーク(Net1D)をトレーニングし,PPG信号から血管年齢を推定し,心血管の健康を特徴付ける効果を検証した。 モデルの性能は40%のホールドアウトテストセットで検証され、特にサンプルサイズが小さい地域では最先端の結果が得られた。 さらに,10歳未満,10歳以上,10歳以上という予測的血管年齢と年代年齢の差から,人口を3つのサブグループに分けた。 死亡, 冠状動脈疾患, 心不全など, 最大10年以上の経過観察期間において, 予測血管年齢といくつかの心血管イベントとの関係について検討した。 以上の結果より, 予測血管年齢は, 個人の心血管状態を反映する有意な可能性が示唆された。 私たちのコードはhttps://github.com/Ngk03/AI-vascular-age.comで公開されます。

Photoplethysmography (PPG) is emerging as a crucial tool for monitoring human hemodynamics, with recent studies highlighting its potential in assessing vascular aging through deep learning. However, real-world age distributions are often imbalanced, posing significant challenges for deep learning models. In this paper, we introduce a novel, simple, and effective loss function named the Dist Loss to address deep imbalanced regression tasks. We trained a one-dimensional convolutional neural network (Net1D) incorporating the Dist Loss on the extensive UK Biobank dataset (n=502,389) to estimate vascular age from PPG signals and validate its efficacy in characterizing cardiovascular health. The model's performance was validated on a 40% held-out test set, achieving state-of-the-art results, especially in regions with small sample sizes. Furthermore, we divided the population into three subgroups based on the difference between predicted vascular age and chronological age: less than -10 years, between -10 and 10 years, and greater than 10 years. We analyzed the relationship between predicted vascular age and several cardiovascular events over a follow-up period of up to 10 years, including death, coronary heart disease, and heart failure. Our results indicate that the predicted vascular age has significant potential to reflect an individual's cardiovascular health status. Our code will be available at https://github.com/Ngk03/AI-vascular-age.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 大規模言語モデルは認知的不協和性を制限するか? : 回答と回答の相違について

Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers ( http://arxiv.org/abs/2406.14986v2 )

ライセンス: Link先を確認
Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux, Julien Audiffren, (参考訳) Prompting and Multiple Choices Questions (MCQ) は、操作や評価の容易さから、LLM(Large Language Models)の能力を評価するために好まれるアプローチとなっている。 このような実験的な評価は、LSMが因果推論を行ったり、不確実性を把握する能力に向けられている。 本稿では,これらの能力が調整プロンプトの外部で測定可能かどうかについて検討し,これらの問題を直接テキスト補完(LCM)の基盤として再構成することでMCQについて検討する。 この目的を達成するために、複数の可能な結果を持つシナリオを定義し、次のトークン予測(Revealed Belief)において、それらの結果に対して計算した確率分布をプロンプト(ステートド・アンサー)することで、LCMが生成した予測と比較する。 以上の結果から,LSMの回答は,彼らの回答とは大きく異なることが示唆され,その信念が多くのシナリオや成果をもたらす可能性があるという複数のバイアスや誤表現が示唆された。 テキスト補完はLLMの中核にあるため、これらの結果は、共通評価手法は部分的な図のみを提供するものであり、それらの能力の程度と性質を評価するためにはより多くの研究が必要であることを示唆している。

Prompting and Multiple Choices Questions (MCQ) have become the preferred approach to assess the capabilities of Large Language Models (LLMs), due to their ease of manipulation and evaluation. Such experimental appraisals have pointed toward the LLMs' apparent ability to perform causal reasoning or to grasp uncertainty. In this paper, we investigate whether these abilities are measurable outside of tailored prompting and MCQ by reformulating these issues as direct text completion - the foundation of LLMs. To achieve this goal, we define scenarios with multiple possible outcomes and we compare the prediction made by the LLM through prompting (their Stated Answer) to the probability distributions they compute over these outcomes during next token prediction (their Revealed Belief). Our findings suggest that the Revealed Belief of LLMs significantly differs from their Stated Answer and hint at multiple biases and misrepresentations that their beliefs may yield in many scenarios and outcomes. As text completion is at the core of LLMs, these results suggest that common evaluation methods may only provide a partial picture and that more research is needed to assess the extent and nature of their capabilities.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# Fusing Audio and Metadata Embeddingsは言語ベースのオーディオ検索を改善する

Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval ( http://arxiv.org/abs/2406.15897v2 )

ライセンス: Link先を確認
Paul Primus, Gerhard Widmer, (参考訳) 生音声信号とテキスト記述とを一致させるには、音声の内容と記述の意味を理解する必要がある。 本稿では,音声メタデータを利用したハイブリッド検索システムについて検討する。 我々は,キーワードや自然言語記述などの音声記録に付随するメタデータを実験し,音声とメタデータを融合するための後期・中期融合戦略について検討した。 キーワードメタデータとレイトフュージョンを用いたハイブリッド手法により,コンテンツベースベースラインでの検索性能を2.36pp,3.69pp。 ClothoV2ベンチマークとAudioCapsベンチマークのmAP@10。

Matching raw audio signals with textual descriptions requires understanding the audio's content and the description's semantics and then drawing connections between the two modalities. This paper investigates a hybrid retrieval system that utilizes audio metadata as an additional clue to understand the content of audio signals before matching them with textual queries. We experimented with metadata often attached to audio recordings, such as keywords and natural-language descriptions, and we investigated late and mid-level fusion strategies to merge audio and metadata. Our hybrid approach with keyword metadata and late fusion improved the retrieval performance over a content-based baseline by 2.36 and 3.69 pp. mAP@10 on the ClothoV2 and AudioCaps benchmarks, respectively.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# LOGCAN++:リモートセンシング画像のセマンティックセグメンテーションのための適応型ローカル・グローバル・クラス・アウェアネットワーク

LOGCAN++: Adaptive Local-global class-aware network for semantic segmentation of remote sensing imagery ( http://arxiv.org/abs/2406.16502v2 )

ライセンス: Link先を確認
Xiaowen Ma, Rongrong Lian, Zhenkai Wu, Hongbo Guo, Mengting Ma, Sensen Wu, Zhenhong Du, Siyang Song, Wei Zhang, (参考訳) リモートセンシング画像は通常、複雑な背景、スケールと向きのバリエーション、およびクラス内の大きなばらつきによって特徴づけられる。 一般的なセマンティックセグメンテーション手法は上記の問題を十分に調査することができないため、リモートセンシング画像セグメンテーションの性能は限られている。 本稿では,グローバルクラス認識(GCA)モジュールと複数のローカルクラス認識(LCA)モジュールからなる,リモートセンシング画像用にカスタマイズされたセマンティックセマンティックセマンティックセマンティクスモデルであるLOGCAN++を提案する。 GCAモジュールは、クラスレベルのコンテキストモデリングのためのグローバル表現をキャプチャして、バックグラウンドノイズの干渉を低減する。 LCAモジュールは、大域的なクラス表現と間接的にピクセルを関連づける中間知覚要素として局所クラス表現を生成し、大規模なクラス内分散問題に対処することを目標としている。 特に,局所クラス表現の適応抽出のためのLCAモジュールにアフィン変換を導入し,リモートセンシング画像のスケールや方向の変動を効果的に許容する。 3つのベンチマークデータセットの大規模な実験により、我々のLOGCAN++は、現在の主流の汎用およびリモートセマンティックセマンティックセグメンテーションメソッドより優れており、スピードと精度のトレードオフがより良くなっています。 コードはhttps://github.com/xwmaxwma/rssegmentation.comで入手できる。

Remote sensing images usually characterized by complex backgrounds, scale and orientation variations, and large intra-class variance. General semantic segmentation methods usually fail to fully investigate the above issues, and thus their performances on remote sensing image segmentation are limited. In this paper, we propose our LOGCAN++, a semantic segmentation model customized for remote sensing images, which is made up of a Global Class Awareness (GCA) module and several Local Class Awareness (LCA) modules. The GCA module captures global representations for class-level context modeling to reduce the interference of background noise. The LCA module generates local class representations as intermediate perceptual elements to indirectly associate pixels with the global class representations, targeting at dealing with the large intra-class variance problem. In particular, we introduce affine transformations in the LCA module for adaptive extraction of local class representations to effectively tolerate scale and orientation variations in remotely sensed images. Extensive experiments on three benchmark datasets show that our LOGCAN++ outperforms current mainstream general and remote sensing semantic segmentation methods and achieves a better trade-off between speed and accuracy. Code is available at https://github.com/xwmaxwma/rssegmentation.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 文中に構造的要素が埋め込まれているか?

Are there identifiable structural parts in the sentence embedding whole? ( http://arxiv.org/abs/2406.16563v2 )

ライセンス: Link先を確認
Vivi Nastase, Paola Merlo, (参考訳) 変圧器モデルからの文の埋め込みは固定長ベクトルで多くの言語情報を符号化する。 これらの埋め込みは、分離可能な情報の重なり合う層から成り、また、チャンクに関する情報やその構造的・意味的性質などの特定の種類の情報を検出することができるという仮説を探求する。 本研究では,チャンク構造が既知の文と2つの言語知能データセットからなるデータセットを用いて,チャンクの検出と文法的数に依存し,それらの意味的役割,および学習中に構築されたタスクや内部表現のパフォーマンスの分析を通じて,それらの意味的役割を解明することを示す。

Sentence embeddings from transformer models encode in a fixed length vector much linguistic information. We explore the hypothesis that these embeddings consist of overlapping layers of information that can be separated, and on which specific types of information -- such as information about chunks and their structural and semantic properties -- can be detected. We show that this is the case using a dataset consisting of sentences with known chunk structure, and two linguistic intelligence datasets, solving which relies on detecting chunks and their grammatical number, and respectively, their semantic roles, and through analyses of the performance on the tasks and of the internal representations built during learning.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 非エルミートカスケード量子ラビ空洞における相駆動非定常超放射相転移

Phase driven unconventional superradiance phase transition in non-Hermitian cascaded quantum Rabi cavities ( http://arxiv.org/abs/2406.16576v2 )

ライセンス: Link先を確認
Shujie Cheng, Shuai-Peng Wang, G. D. M. Neto, Gao Xianlong, (参考訳) 本研究は,非エルミタン量子ラビ空洞の超放射相転移に寄与する相駆動対称性の破れについて検討する。 非ハーモニティ性は、原子と光学場の間の位相結合$\varphi$を介して導入される。 量子高調波発振器の熱力学限界では、観測値によって検証された超放射位相境界を解析的に導出する。 エルミート類似を持たない非伝統的な量子相転移は、$|\varphi|=\frac{\pi}{4}$または$|\varphi|=\frac{3\pi}{4}$において、相境界が空洞結合によって一意に決定されるとき、$\mathcal{J}=\frac{1}{2}$において原子-光子結合強度$g$とは独立に生じる。 他の$\varphi$の場合、位相境界は、エルミート系で観測されるシナリオと同様、$\mathcal{J}$と$g$の両方に依存する。 さらに, 臨界指数と普遍性クラスを決定することにより, 位相駆動型第1次および第2次超放射相転移を同定し, 第2次遷移の量子臨界度に着目した。 実験実現の可能性についても論じ、非エルミート超放射光量子相転移の研究を刺激することを目的としている。

This study investigates phase-driven symmetry breaking leading to superradiance phase transitions in cascaded non-Hermitian quantum Rabi cavities. Non-Hermiticity is introduced via the phase coupling $\varphi$ between the atom and the optical field. In the thermodynamic limit of the quantum harmonic oscillator, we analytically derive the superradiance phase boundary, validated by observables. An unconventional quantum phase transition without a Hermitian analogue arises when $|\varphi|=\frac{\pi}{4}$ or $|\varphi|=\frac{3\pi}{4}$, where the phase boundary is uniquely determined by the cavity coupling, at $\mathcal{J}=\frac{1}{2}$, independent of the atom-photon coupling strength $g$. For other $\varphi$, the phase boundary relies on both $\mathcal{J}$ and $g$, similar to the scenario observed in Hermitian systems. Furthermore, we identify phase-driven first- and second-order superradiance phase transitions, focusing on the quantum criticality of the second-order transition by determining the critical exponents and the universality class. The feasibility of experimental realization is also discussed, aiming to inspire further studies on non-Hermitian superradiance quantum phase transitions.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 大規模言語モデルを用いた化学空間の効率的な進化探索

Efficient Evolutionary Search Over Chemical Space with Large Language Models ( http://arxiv.org/abs/2406.16976v2 )

ライセンス: Link先を確認
Haorui Wang, Marta Skreta, Cher-Tian Ser, Wenhao Gao, Lingkai Kong, Felix Strieth-Kalthoff, Chenru Duan, Yuchen Zhuang, Yue Yu, Yanqiao Zhu, Yuanqi Du, Alán Aspuru-Guzik, Kirill Neklyudov, Chao Zhang, (参考訳) 最適化問題として定式化された分子発見は、最適化目的が微分不可能であるため、重要な計算課題を提示する。 進化的アルゴリズム(EA)は、しばしば分子発見におけるブラックボックスの目的を最適化するために、ランダムな突然変異とクロスオーバーを行い、多くの高価な客観的評価をもたらす。 本研究では,化学を意識した大規模言語モデル(LLM)をEAに組み込むことにより,この欠点を改善する。 すなわち,化学情報の大量コーパスに基づいて学習したLSMを用いて,EAにおけるクロスオーバーと突然変異操作を再設計する。 我々は、資産最適化、分子再分析、構造に基づく薬物設計を含む複数のタスクにおいて、商用およびオープンソースモデルおよびオープンソースモデルの両方について広範な実証研究を行い、LEMとEAを併用することにより、単一および多目的設定における全てのベースラインモデルよりも優れた性能が得られることを示した。 提案アルゴリズムは,最終的な解法の品質と収束速度の両方を改善し,必要な目的評価の回数を減らすことを実証する。 私たちのコードはhttp://github.com/zoom-wang112358/MOLLEOで利用可能です。

Molecular discovery, when formulated as an optimization problem, presents significant computational challenges because optimization objectives can be non-differentiable. Evolutionary Algorithms (EAs), often used to optimize black-box objectives in molecular discovery, traverse chemical space by performing random mutations and crossovers, leading to a large number of expensive objective evaluations. In this work, we ameliorate this shortcoming by incorporating chemistry-aware Large Language Models (LLMs) into EAs. Namely, we redesign crossover and mutation operations in EAs using LLMs trained on large corpora of chemical information. We perform extensive empirical studies on both commercial and open-source models on multiple tasks involving property optimization, molecular rediscovery, and structure-based drug design, demonstrating that the joint usage of LLMs with EAs yields superior performance over all baseline models across single- and multi-objective settings. We demonstrate that our algorithm improves both the quality of the final solution and convergence speed, thereby reducing the number of required objective evaluations. Our code is available at http://github.com/zoom-wang112358/MOLLEO
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 値に基づく深部強化学習におけるハイパーパラメータ選択の整合性について

On the consistency of hyper-parameter selection in value-based deep reinforcement learning ( http://arxiv.org/abs/2406.17523v2 )

ライセンス: Link先を確認
Johan Obando-Ceron, João G. M. Araújo, Aaron Courville, Pablo Samuel Castro, (参考訳) 深部強化学習(深部RL)は,アルゴリズム設計と高パラメータの慎重に選択することで,様々な領域で大きな成功を収めている。 アルゴリズムの改良は、しばしば以前の手法に基づく反復的な拡張の結果であり、一方、ハイパーパラメータの選択は、通常、従来の手法から継承されるか、提案手法のために特別に微調整される。 性能に重大な影響を与えるにもかかわらず、ハイパーパラメータの選択はアルゴリズムの進歩によってしばしば隠れている。 本稿では,様々なハイパーパラメータの一貫性と信頼性を定量化するための新しいスコアの導入を含む,価値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した広範な実証的研究を行う。 我々の発見は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立つだけでなく、異なるトレーニング体制間でどのチューニングが一貫性を持ち続けるかを明らかにするのにも役立ちます。

Deep reinforcement learning (deep RL) has achieved tremendous success on various domains through a combination of algorithmic design and careful selection of hyper-parameters. Algorithmic improvements are often the result of iterative enhancements built upon prior approaches, while hyper-parameter choices are typically inherited from previous methods or fine-tuned specifically for the proposed technique. Despite their crucial impact on performance, hyper-parameter choices are frequently overshadowed by algorithmic advancements. This paper conducts an extensive empirical study focusing on the reliability of hyper-parameter selection for value-based deep reinforcement learning agents, including the introduction of a new score to quantify the consistency and reliability of various hyper-parameters. Our findings not only help establish which hyper-parameters are most critical to tune, but also help clarify which tunings remain consistent across different training regimes.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 電子商取引検索におけるCTR予測のための軽量エンドツーエンドグラフ関心ネットワーク

Light-weight End-to-End Graph Interest Network for CTR Prediction in E-commerce Search ( http://arxiv.org/abs/2406.17745v2 )

ライセンス: Link先を確認
Pai Peng, Yunqing Jia, Ziqiang Zhou, Shuang Hong, Zichong Xiao, (参考訳) クリックスルーレート(CTR)予測は,eコマース検索におけるユーザエクスペリエンスと収益の改善に重要な影響を与える。 深層学習の発展に伴い,ユーザ行動やその他の情報から抽出されたグラフ構造を利用して,学習の埋め込みを支援するグラフベースの手法がよく利用される。 しかし、従来のグラフベースの手法のほとんどは主にレコメンデーションシナリオに重点を置いているため、そのグラフ構造は、クエリのシーケンシャル信号やクエリ-イム相関を無視して、ユーザの行動からアイテムのシーケンシャル情報に大きく依存する。 本稿では,ユーザの検索関心を効果的にマイニングし,過去の課題に取り組むために,ライトウェイト・エンド・エンド・エンド・グラフ・インテンシブ・ネットワーク(EGIN)という新しいアプローチを提案する。 (i)EGINは,検索システムからのクエリと項目の相関とシーケンシャル情報を利用して,eコマース検索におけるCTR予測を改善するヘテロジニアスグラフを構築する。 (II)EGINのグラフ埋め込み学習は、同じトレーニング入力を共有し、CTR予測と共同でトレーニングされており、エンドツーエンドのフレームワークが大規模検索システムにデプロイされるのを困難にしている。 提案するEGINは,問合せ項目のヘテロジニアスグラフ,軽量グラフサンプリング,多目的ネットワークという3つの部分から構成される。 提案した軽量グラフサンプリングにより,クエリと項目の相関とシーケンシャル情報を効率的に取得する。 この多目的ネットワークは、グラフ埋め込みを利用して、クエリとアイテム間の様々な類似性関係をキャプチャし、最終的なCTR予測を強化するように設計されている。 提案したEGINの有効性を実証するため,公立および工業用両方のデータセットについて広範な実験を行った。 同時に、グラフ学習のトレーニングコストは、メインのCTR予測タスクと比較して比較的低く、実用的な応用における効率性を確保することができる。

Click-through-rate (CTR) prediction has an essential impact on improving user experience and revenue in e-commerce search. With the development of deep learning, graph-based methods are well exploited to utilize graph structure extracted from user behaviors and other information to help embedding learning. However, most of the previous graph-based methods mainly focus on recommendation scenarios, and therefore their graph structures highly depend on item's sequential information from user behaviors, ignoring query's sequential signal and query-item correlation. In this paper, we propose a new approach named Light-weight End-to-End Graph Interest Network (EGIN) to effectively mine users' search interests and tackle previous challenges. (i) EGIN utilizes query and item's correlation and sequential information from the search system to build a heterogeneous graph for better CTR prediction in e-commerce search. (ii) EGIN's graph embedding learning shares the same training input and is jointly trained with CTR prediction, making the end-to-end framework effortless to deploy in large-scale search systems. The proposed EGIN is composed of three parts: query-item heterogeneous graph, light-weight graph sampling, and multi-interest network. The query-item heterogeneous graph captures correlation and sequential information of query and item efficiently by the proposed light-weight graph sampling. The multi-interest network is well designed to utilize graph embedding to capture various similarity relationships between query and item to enhance the final CTR prediction. We conduct extensive experiments on both public and industrial datasets to demonstrate the effectiveness of the proposed EGIN. At the same time, the training cost of graph learning is relatively low compared with the main CTR prediction task, ensuring efficiency in practical applications.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# 小結晶の接地状態と接地状態の分離

Fast Ground State to Ground State Separation of Small Ion Crystals ( http://arxiv.org/abs/2406.17750v2 )

ライセンス: Link先を確認
Tyler H. Guglielmo, Dietrich Leibfried, Stephen B. Libby, Daniel H. Slichter, (参考訳) 捕捉されたイオンの線形結晶を異なるサブセットに素早く分離することは、捕捉されたイオン量子コンピューティングアーキテクチャを実現する上で重要である。 我々は,同種結晶と混合種結晶のより小さな部分集合への分離を記述するのに使用できる一般的な理論的枠組みを紹介する。 この枠組みは二次ハミルトニアンの下でのガウス運動状態の進化の効率的な記述に依存しており、時間依存の応用ポテンシャルとイオンの相互クーロン反発の影響の下で量子進化を記述するために、イオンの古典的な運動方程式の特別な解のみを必要とする。 本研究では, 混合種3イオン結晶の分離に適した時間依存性応用電位について, クーロン反発による自由膨張と同様の時間スケールで示し, 結晶軸に沿った全てのモードが基底状態に近づき, 終了することを示す。 3つの分離された混合種イオンは、この分離過程の時間反転によってエネルギーのゲインなしで1つの井戸に保持される結晶に結合することができる。

Rapid separation of linear crystals of trapped ions into different subsets is critical for realizing trapped ion quantum computing architectures where ions are rearranged in trap arrays to achieve all-to-all connectivity between qubits. We introduce a general theoretical framework that can be used to describe the separation of same-species and mixed-species crystals into smaller subsets. The framework relies on an efficient description of the evolution of Gaussian motional states under quadratic Hamiltonians that only requires a special solution of the classical equations of motion of the ions to describe their quantum evolution under the influence of a time-dependent applied potential and the ions' mutual Coulomb repulsion. We provide time-dependent applied potentials suitable for separation of a mixed species three-ion crystal on timescales similar to that of free expansion driven by Coulomb repulsion, with all modes along the crystal axis starting and ending close to their ground states. Three separately-confined mixed species ions can be combined into a crystal held in a single well without energy gain by time-reversal of this separation process.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# レーティング予測のためのニューラル表現学習の解釈可能な代替 -- ユーザレビューの透過的潜在クラスモデリング

An Interpretable Alternative to Neural Representation Learning for Rating Prediction -- Transparent Latent Class Modeling of User Reviews ( http://arxiv.org/abs/2407.00063v2 )

ライセンス: Link先を確認
Giuseppe Serra, Peter Tino, Zhao Xu, Xin Yao, (参考訳) 現在、ニューラルネットワーク(NN)とディープラーニング(DL)技術は、レコメンダシステムを含む多くのアプリケーションで広く採用されている。 協調フィルタリング(CF)データのスパースで確率的な性質を考えると、最近の研究は、より単純でしばしば透過的なアルゴリズムよりも、ニューラルネットワークアプローチの効果的な改善を批判的に分析している。 これまでの結果、NNとDLモデルは多くのタスクにおいて従来のアルゴリズムよりも優れていた。 さらに、ニューラルベース手法のほとんどブラックボックスの性質を考えると、解釈可能な結果は自然に得られない。 この議論に続き、まず、レビュー情報に基づいて、トポロジカルにユーザおよび製品潜在クラスを編成する透明な確率モデルを提案する。 表現学習のための一般的なニューラルネットワーク技術とは対照的に、ユーザや製品の特徴をテキストベースの観点から理解するために、容易に検査できる統計的で視覚化しやすいツールが簡単に手に入る。 そして, 一般的な埋め込み手法の限界を考慮し, 推定解釈可能な量をモデル入力として, 評価予測タスクに用いる可能性を検討する。 近年の議論に寄与するため,テキストベースのニューラルネットワークと比較して,解釈可能性と予測性能の両面から評価を行った。 その結果、提案した潜在クラス表現は、人気があるが解釈が難しいアプローチと比較して、競争力のある予測性能が得られることを示した。

Nowadays, neural network (NN) and deep learning (DL) techniques are widely adopted in many applications, including recommender systems. Given the sparse and stochastic nature of collaborative filtering (CF) data, recent works have critically analyzed the effective improvement of neural-based approaches compared to simpler and often transparent algorithms for recommendation. Previous results showed that NN and DL models can be outperformed by traditional algorithms in many tasks. Moreover, given the largely black-box nature of neural-based methods, interpretable results are not naturally obtained. Following on this debate, we first present a transparent probabilistic model that topologically organizes user and product latent classes based on the review information. In contrast to popular neural techniques for representation learning, we readily obtain a statistical, visualization-friendly tool that can be easily inspected to understand user and product characteristics from a textual-based perspective. Then, given the limitations of common embedding techniques, we investigate the possibility of using the estimated interpretable quantities as model input for a rating prediction task. To contribute to the recent debates, we evaluate our results in terms of both capacity for interpretability and predictive performances in comparison with popular text-based neural approaches. The results demonstrate that the proposed latent class representations can yield competitive predictive performances, compared to popular, but difficult-to-interpret approaches.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# パーソナライズされたPageRankにおけるグラフ拡散と応用

Differentially Private Graph Diffusion with Applications in Personalized PageRanks ( http://arxiv.org/abs/2407.00077v2 )

ライセンス: Link先を確認
Rongzhe Wei, Eli Chien, Pan Li, (参考訳) グラフ間の実数値物質を反復的に伝播するグラフ拡散は、多くのグラフ/ネットワーク関連アプリケーションで使われている。 しかし、拡散ベクトルの放出は、金融ネットワークデータにおけるトランザクション情報などのデータ内のセンシティブなリンク情報を明らかにする可能性がある。 しかし、グラフデータのプライバシー保護は、その相互接続性のために難しい。 本研究は,雑音拡散イテレートを用いてエッジレベルの差分プライバシーを保証する新しいグラフ拡散フレームワークを提案する。 このアルゴリズムは拡散繰り返し毎にラプラスノイズを注入し、低次ノードによって誘導される高感度を緩和する度合いベースの閾値関数を採用する。 私たちのプライバシ損失分析は、PABI(Privacy Amplification by Iteration)に基づくもので、私たちの知る限り、PABIをLaplaceノイズで分析し、関連するアプリケーションを提供する最初の取り組みです。 Infinity-Wasserstein 距離追跡手法も導入し,プライバシリークの解析を厳格化し,PABI をより適用できるようにする。 ランキングタスクにパーソナライズされたページランク計算を適用して評価する。 実世界のネットワークデータを用いた実験は、厳密なプライバシー条件下での手法の優位性を実証している。

Graph diffusion, which iteratively propagates real-valued substances among the graph, is used in numerous graph/network-involved applications. However, releasing diffusion vectors may reveal sensitive linking information in the data such as transaction information in financial network data. However, protecting the privacy of graph data is challenging due to its interconnected nature. This work proposes a novel graph diffusion framework with edge-level differential privacy guarantees by using noisy diffusion iterates. The algorithm injects Laplace noise per diffusion iteration and adopts a degree-based thresholding function to mitigate the high sensitivity induced by low-degree nodes. Our privacy loss analysis is based on Privacy Amplification by Iteration (PABI), which to our best knowledge, is the first effort that analyzes PABI with Laplace noise and provides relevant applications. We also introduce a novel Infinity-Wasserstein distance tracking method, which tightens the analysis of privacy leakage and makes PABI more applicable in practice. We evaluate this framework by applying it to Personalized Pagerank computation for ranking tasks. Experiments on real-world network data demonstrate the superiority of our method under stringent privacy conditions.
翻訳日:2024-07-04 06:39:57 公開日:2024-07-02
# Mooncake: LLM実行のためのKVキャッシュ中心の分散アーキテクチャ

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving ( http://arxiv.org/abs/2407.00079v2 )

ライセンス: Link先を確認
Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu, (参考訳) ムーンケーキ(Mooncake)は、ムーンショットAIが提供するLLMサービスであるキミのサービスプラットフォームである。 プリフィルとデコードクラスタを分離するKVCache中心の非集約アーキテクチャを備えている。 また、GPUクラスタの未使用CPU、DRAM、SSDリソースを活用して、KVCacheの非集約キャッシュを実装している。 Mooncakeのコアとなるのは、KVCache中心のスケジューラで、レイテンシに関連するサービスレベルオブジェクト(SLO)を満たしながら、全体的な効率的なスループットを最大化する。 すべての要求が処理されると仮定する従来の研究とは異なり、Mooncakeは過負荷のシナリオのために課題に直面している。 これらを緩和するため,予測に基づく早期拒絶政策を開発した。 実験によると、Mooncakeは長いコンテキストのシナリオで優れている。 ベースライン法と比較して、MooncakeはSLOに固執しながらシミュレーションシナリオのスループットを最大525%向上させることができる。 実際のワークロード下では、Mooncakeの革新的なアーキテクチャにより、Kimiは75%以上のリクエストを処理することができる。

Mooncake is the serving platform for Kimi, a leading LLM service provided by Moonshot AI. It features a KVCache-centric disaggregated architecture that separates the prefill and decoding clusters. It also leverages the underutilized CPU, DRAM, and SSD resources of the GPU cluster to implement a disaggregated cache of KVCache. The core of Mooncake is its KVCache-centric scheduler, which balances maximizing overall effective throughput while meeting latency-related Service Level Objectives (SLOs). Unlike traditional studies that assume all requests will be processed, Mooncake faces challenges due to highly overloaded scenarios. To mitigate these, we developed a prediction-based early rejection policy. Experiments show that Mooncake excels in long-context scenarios. Compared to the baseline method, Mooncake can achieve up to a 525% increase in throughput in certain simulated scenarios while adhering to SLOs. Under real workloads, Mooncake's innovative architecture enables Kimi to handle 75% more requests.
翻訳日:2024-07-04 06:30:11 公開日:2024-07-02
# 複数の医療モダリティにまたがる合成データのための生成AI:最近の展開と課題の体系的レビュー

Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges ( http://arxiv.org/abs/2407.00116v2 )

ライセンス: Link先を確認
Mahmoud Ibrahim, Yasmina Al Khalil, Sina Amirrajab, Chang Sun, Marcel Breeuwer, Josien Pluim, Bart Elen, Gokhan Ertaylan, Michel Dumontier, (参考訳) 本稿では, 画像, マンモグラフィ, 超音波, CT, MRI, X線) , テキスト, 時系列, 表層データ (EHR) など, 様々な医療データ型を合成するために用いられる生成モデル (GAN, VAEs, DMs, LLMs) を総合的に検討した。 これまでの狭義のレビューとは異なり、我々の研究は幅広い医療データモダリティを包含し、様々な生成モデルを探究している。 我々の検索戦略は、2021年1月から2023年11月までの最近の研究に焦点を当てた、Scopus、PubMed、ArXivなどのデータベースをクエリする。 この期間は、これまで広く報道されてきたガン以外の最近の進歩を強調している。 本調査は,(1) 合成の応用と目的,(2) 生成技術,(3) 評価方法の3つの重要な側面から考察した。 臨床に有効な合成の応用を強調し、様々な臨床要件に対処するための合成データの可能性を実証する。 分類ラベルやセグメンテーションマスク,画像翻訳を取り入れた条件付きモデルが一般的である一方で,臨床知識や患者固有の文脈の活用にはギャップがあり,よりパーソナライズされた合成アプローチの必要性が示唆され,医療データの特異な特徴に対する生成的アプローチの調整の重要性が強調されている。 さらに、下流の医療AIモデルの検証や評価など、強化以上の合成データを使用することには、大きなギャップがある。 この調査は、医療画像に合わせた標準化された評価手法の欠如が臨床応用の障壁であることを明らかにし、オープンネスとコラボレーションを促進するための詳細な評価アプローチ、ベンチマーク、および比較研究の必要性を強調した。

This paper presents a comprehensive systematic review of generative models (GANs, VAEs, DMs, and LLMs) used to synthesize various medical data types, including imaging (dermoscopic, mammographic, ultrasound, CT, MRI, and X-ray), text, time-series, and tabular data (EHR). Unlike previous narrowly focused reviews, our study encompasses a broad array of medical data modalities and explores various generative models. Our search strategy queries databases such as Scopus, PubMed, and ArXiv, focusing on recent works from January 2021 to November 2023, excluding reviews and perspectives. This period emphasizes recent advancements beyond GANs, which have been extensively covered previously. The survey reveals insights from three key aspects: (1) Synthesis applications and purpose of synthesis, (2) generation techniques, and (3) evaluation methods. It highlights clinically valid synthesis applications, demonstrating the potential of synthetic data to tackle diverse clinical requirements. While conditional models incorporating class labels, segmentation masks and image translations are prevalent, there is a gap in utilizing prior clinical knowledge and patient-specific context, suggesting a need for more personalized synthesis approaches and emphasizing the importance of tailoring generative approaches to the unique characteristics of medical data. Additionally, there is a significant gap in using synthetic data beyond augmentation, such as for validation and evaluation of downstream medical AI models. The survey uncovers that the lack of standardized evaluation methodologies tailored to medical images is a barrier to clinical application, underscoring the need for in-depth evaluation approaches, benchmarking, and comparative studies to promote openness and collaboration.
翻訳日:2024-07-04 06:20:13 公開日:2024-07-02
# ユニバーサルメッシュ運動ネットワークを目指して

Towards Universal Mesh Movement Networks ( http://arxiv.org/abs/2407.00382v2 )

ライセンス: Link先を確認
Mingrui Zhang, Chunyang Wang, Stephan Kramer, Joseph G. Wallwork, Siyi Li, Jiancheng Liu, Xiang Chen, Matthew D. Piggott, (参考訳) 複素偏微分方程式(PDE)を正確かつ効率的に解くことは、すべての科学・工学分野において必須かつ困難な問題である。 メッシュ運動法は、メッシュの全体の自由度を増大させることなく、数値解の精度を向上させる能力を提供する。 従来の高度なメッシュ移動法は非常に高価であり、複雑な境界測地でシナリオを扱うのに苦労する。 しかし、既存の学習ベースの手法では、異なるPDEタイプや境界幾何学が与えられた場合、スクラッチから再学習する必要があるため、適用性が制限され、しばしば逆要素の形で堅牢性の問題に悩まされる。 本稿では,異なるサイズ分布と構造を持つメッシュを非侵襲的かつゼロショットで移動させることで,異なるPDEタイプや境界測地に適用可能な解法として,Universal Mesh Movement Network (UM2N)を提案する。 UM2Nは、機能を抽出するためのグラフトランスフォーマー(GT)エンコーダと、メッシュを動かすためのグラフアテンションネットワーク(GAT)ベースのデコーダで構成される。 本研究では, 実世界の津波シミュレーション事例とともに, 対流法とナビエ・ストークス法に基づく実例について検討した。 提案手法は,上記のベンチマークを用いて,既存の学習に基づくメッシュ移動法よりも優れる。 従来のモンジェ・アンプ型PDE解法と比較して,本手法はメッシュ運動を著しく加速するだけでなく,従来の手法が失敗するシナリオにおいても有効であることを示す。 私たちのプロジェクトページはhttps://erizmr.github.io/UM2N/です。

Solving complex Partial Differential Equations (PDEs) accurately and efficiently is an essential and challenging problem in all scientific and engineering disciplines. Mesh movement methods provide the capability to improve the accuracy of the numerical solution without increasing the overall mesh degree of freedom count. Conventional sophisticated mesh movement methods are extremely expensive and struggle to handle scenarios with complex boundary geometries. However, existing learning-based methods require re-training from scratch given a different PDE type or boundary geometry, which limits their applicability, and also often suffer from robustness issues in the form of inverted elements. In this paper, we introduce the Universal Mesh Movement Network (UM2N), which -- once trained -- can be applied in a non-intrusive, zero-shot manner to move meshes with different size distributions and structures, for solvers applicable to different PDE types and boundary geometries. UM2N consists of a Graph Transformer (GT) encoder for extracting features and a Graph Attention Network (GAT) based decoder for moving the mesh. We evaluate our method on advection and Navier-Stokes based examples, as well as a real-world tsunami simulation case. Our method outperforms existing learning-based mesh movement methods in terms of the benchmarks described above. In comparison to the conventional sophisticated Monge-Amp\`ere PDE-solver based method, our approach not only significantly accelerates mesh movement, but also proves effective in scenarios where the conventional method fails. Our project page is at https://erizmr.github.io/UM2N/.
翻訳日:2024-07-04 03:25:29 公開日:2024-07-02
# 腎腫瘍におけるAI年齢の相違 : 欠陥評価のための新しいパラメータ

AI Age Discrepancy: A Novel Parameter for Frailty Assessment in Kidney Tumor Patients ( http://arxiv.org/abs/2407.00438v2 )

ライセンス: Link先を確認
Rikhil Seshadri, Jayant Siva, Angelica Bartholomew, Clara Goebel, Gabriel Wallerstein-King, Beatriz López Morato, Nicholas Heller, Jason Scovell, Rebecca Campbell, Andrew Wood, Michal Ozery-Flato, Vesna Barros, Maria Gabrani, Michal Rosen-Zvi, Resha Tejpaul, Vidhyalakshmi Ramesh, Nikolaos Papanikolopoulos, Subodh Regmi, Ryan Ward, Robert Abouassaly, Steven C. Campbell, Erick Remer, Christopher Weight, (参考訳) 腎臓がんは世界的な健康上の問題であり、外科的結果の最適化には患者欠陥の正確な評価が不可欠である。 本稿では, 術前CT画像の機械学習解析から得られた新しい指標であるAI Age Discrepancyについて, 腎癌患者の重症度と術後リスクの指標として紹介する。 2023年のKidney tumor Segmentation(KiTS)チャレンジデータセットから得られた599人の患者の振り返り調査では、AIの年齢差は、確立された要因によらず、長期入院と総合生存率の低下と著しく関連していることがわかった。 このことは、AIエイジの不一致が患者の弱さに関する貴重な洞察を与え、腎臓がん治療における臨床的意思決定を知らせる可能性があることを示唆している。

Kidney cancer is a global health concern, and accurate assessment of patient frailty is crucial for optimizing surgical outcomes. This paper introduces AI Age Discrepancy, a novel metric derived from machine learning analysis of preoperative abdominal CT scans, as a potential indicator of frailty and postoperative risk in kidney cancer patients. This retrospective study of 599 patients from the 2023 Kidney Tumor Segmentation (KiTS) challenge dataset found that a higher AI Age Discrepancy is significantly associated with longer hospital stays and lower overall survival rates, independent of established factors. This suggests that AI Age Discrepancy may provide valuable insights into patient frailty and could thus inform clinical decision-making in kidney cancer treatment.
翻訳日:2024-07-04 03:15:45 公開日:2024-07-02
# SpeechBrain 1.0によるオープンソースの会話AI

Open-Source Conversational AI with SpeechBrain 1.0 ( http://arxiv.org/abs/2407.00463v2 )

ライセンス: Link先を確認
Mirco Ravanelli, Titouan Parcollet, Adel Moumen, Sylvain de Langen, Cem Subakan, Peter Plantinga, Yingzhi Wang, Pooneh Mousavi, Luca Della Libera, Artem Ploujnikov, Francesco Paissan, Davide Borra, Salah Zaiem, Zeyu Zhao, Shucong Zhang, Georgios Karakasidis, Sung-Lin Yeh, Aku Rouhe, Rudolf Braun, Florian Mai, Juan Zuluaga-Gomez, Seyed Mahed Mousavi, Andreas Nautsch, Xuechen Liu, Sangeet Sagar, Jarod Duret, Salima Mdhaffar, Gaelle Laperriere, Renato De Mori, Yannick Esteve, (参考訳) SpeechBrainは、PyTorchをベースとしたオープンソースの会話型AIツールキットで、音声認識、音声強調、話者認識、音声合成など、特に音声処理タスクに重点を置いている。 事前トレーニングされたモデルと、トレーニングに必要なコードとアルゴリズムの完全な“レシピ”の両方をリリースすることで、透明性と複製性を促進する。 本稿では,SpeechBrain 1.0について述べる。このツールキットは,200以上の音声,音声,言語処理タスクのレシピと,Hugging Faceで利用可能な100以上のモデルを備えている。 SpeechBrain 1.0では、多様な学習モダリティ、Large Language Model(LLM)統合、新しいモデル、タスク、モダリティとともに高度なデコード戦略をサポートする新しい技術が導入されている。 また、新しいベンチマークレポジトリが含まれており、研究者がさまざまなタスクでモデルを評価するための統一されたプラットフォームを提供する。

SpeechBrain is an open-source Conversational AI toolkit based on PyTorch, focused particularly on speech processing tasks such as speech recognition, speech enhancement, speaker recognition, text-to-speech, and much more. It promotes transparency and replicability by releasing both the pre-trained models and the complete "recipes" of code and algorithms required for training them. This paper presents SpeechBrain 1.0, a significant milestone in the evolution of the toolkit, which now has over 200 recipes for speech, audio, and language processing tasks, and more than 100 models available on Hugging Face. SpeechBrain 1.0 introduces new technologies to support diverse learning modalities, Large Language Model (LLM) integration, and advanced decoding strategies, along with novel models, tasks, and modalities. It also includes a new benchmark repository, offering researchers a unified platform for evaluating models across diverse tasks
翻訳日:2024-07-04 03:06:00 公開日:2024-07-02
# 低損失アルミナ圧電オプトメカニカル光回路を用いたCMOSファブリック紫外光変調器

CMOS-fabricated ultraviolet light modulators using low-loss alumina piezo-optomechanical photonic circuits ( http://arxiv.org/abs/2407.00469v2 )

ライセンス: Link先を確認
Roman Shugayev, Daniel Dominguez, Andrew Leenheer, Bethany Little, Matthew N. H. Chow, Nicholas Karl, Matt Koppa, Michael Gehl, Yuan-Yu Jau, Matt Eichenfield, (参考訳) モノリシック集積型窒化アルミニウム圧電アクチュエータと強く結合したアルミナ導波路を用いて, CMOSを用いた紫外・青色波長用圧電光学集積回路プラットフォームを試作した。 低導波路損失は少なくとも320nmまで測定され、1.6dB/cmに達する。 これにより、圧電励起MEMSカンチレバー位相シフト器を320nmまで高減衰率30dBのブロードバンド振幅変調器を実演できる。 さらに,320nmと420nmで高い劣化と低損失を同時に行うことができる変調器を設計・実証し,複数の異なる波長の制御を同時に行うことで,プラットフォームの汎用性を実証する。 また,4.7E5と27.5MHz/Vの調整率を有する狭帯域共振式レーストラック変調器の試作を行った。 これらの結果は、UVフォトニクス、量子科学、センシング、分光学における様々な新しい応用の扉を開く必要がある。

We demonstrate a CMOS-foundry-fabricated piezo-optomechanical photonic integrated circuit platform for ultraviolet and blue wavelengths, using alumina waveguides that are strongly mechanically coupled to monolithically integrated aluminum nitride piezoelectric actuators. Low waveguide losses are measured down to at least 320 nm, where we achieve 1.6 dB/cm. This allows us to demonstrate broadband amplitude modulators based on piezoelectrically actuated MEMS cantilever phase-shifters down to 320 nm, with a high extinction ratio of 30 dB. We further demonstrate the versatility of the platform by designing and demonstrating a modulator that can work with high extinction and low loss at 320 nm and 420 nm, simultaneously, demonstrating control of multiple, disparate wavelengths in one device. We also demonstrate narrow-band resonant racetrack modulators with quality factors of 4.7E5 and a tuning rate of 27.5 MHz/V. These results should open doors for a range of novel applications in UV photonics, quantum science, sensing and spectroscopy.
翻訳日:2024-07-04 03:06:00 公開日:2024-07-02
# Divide and Conquer: 多段階ニューラルネットワーク正規微分方程式を用いたカオス力学系の学習

Divide And Conquer: Learning Chaotic Dynamical Systems With Multistep Penalty Neural Ordinary Differential Equations ( http://arxiv.org/abs/2407.00568v2 )

ライセンス: Link先を確認
Dibyajyoti Chakraborty, Seung Whan Chung, Romit Maulik, (参考訳) 高次元力学系の予測は、地球科学や工学など、様々な分野における根本的な課題である。 ニューラルネットワークと数値解法を組み合わせたニューラル正規微分方程式(NODE)は、複雑な非線形力学系を予測するための有望なアルゴリズムとして登場した。 しかし、NODEトレーニングに使用される古典的手法はカオス力学系の学習には効果がない。 本研究では,カオス力学系の堅牢な学習を可能にする新しいNODE学習手法を提案する。 本手法は,非凸性および爆発的勾配のカオス力学に関する課題に対処する。 このようなシステムからのトレーニングデータトラジェクトリは、重複しない複数の時間ウィンドウに分割される。 トレーニングデータからのずれに加えて、最適化損失項は、予測された時間窓間の軌道の不連続をさらに罰する。 ウィンドウサイズは、システムの最も速いリアプノフ時間スケールに基づいて選択される。 マルチステップペナルティ(MP)法はローレンツ方程式で最初に示され、損失景観の改善を図り、最適化収束を加速させる。 MP法は、計算コストを大幅に削減した最小二乗影と同様の方法でカオスシステムを最適化することができる。 提案アルゴリズムはMultistep Penalty NODE(MP-NODE)と呼ばれ,倉本-シヴァシンスキー方程式や2次元コルモゴロフ流などのカオス系に適用した。 MP-NODEは、短期軌道予測だけでなく、これらの力学のカオス的性質の指標となる不変統計に対して、このようなカオスシステムに対して実行可能な性能を提供する。

Forecasting high-dimensional dynamical systems is a fundamental challenge in various fields, such as the geosciences and engineering. Neural Ordinary Differential Equations (NODEs), which combine the power of neural networks and numerical solvers, have emerged as a promising algorithm for forecasting complex nonlinear dynamical systems. However, classical techniques used for NODE training are ineffective for learning chaotic dynamical systems. In this work, we propose a novel NODE-training approach that allows for robust learning of chaotic dynamical systems. Our method addresses the challenges of non-convexity and exploding gradients associated with underlying chaotic dynamics. Training data trajectories from such systems are split into multiple, non-overlapping time windows. In addition to the deviation from the training data, the optimization loss term further penalizes the discontinuities of the predicted trajectory between the time windows. The window size is selected based on the fastest Lyapunov time scale of the system. Multi-step penalty(MP) method is first demonstrated on Lorenz equation, to illustrate how it improves the loss landscape and thereby accelerating the optimization convergence. MP method can optimize chaotic systems in a manner similar to least-squares shadowing with significantly lower computational costs. Our proposed algorithm, denoted the Multistep Penalty NODE(MP-NODE), is applied to chaotic systems such as the Kuramoto-Sivashinsky equation and the two-dimensional Kolmogorov flow. It is observed that MP-NODE provide viable performance for such chaotic systems, not only for short-term trajectory predictions but also for invariant statistics that are hallmarks of the chaotic nature of these dynamics.
翻訳日:2024-07-04 02:36:46 公開日:2024-07-02
# ステップ制御DPO: 数学的推論のためのステップワイズエラーの活用

Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning ( http://arxiv.org/abs/2407.00782v2 )

ライセンス: Link先を確認
Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li, (参考訳) 直接選好最適化(DPO)は、推論やアライメントといった下流タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。 本研究では,特定のステップでエラーを発生させる数学的推論論理の負のサンプルを作成することで,段階的エラー監視を自動的に行う手法であるステップ制御型DPO(SCDPO)を提案する。 これらのサンプルをDPOトレーニングに適用することにより、SCDPOは推論エラーを理解し、正確な推論ステップを出力するようにモデルを整合させることができる。 我々は,SCDPOをコード統合とチェーン・オブ・思想の両ソリューションに適用し,既存のSFTモデルと2つのモデルを含む3つの異なるSFTモデルにおいて,単純なDPOと比較して連続的に性能を向上することを示した。 SCDPOとDPOのクレジット割り当ての質的解析は、数理解における誤りの同定におけるSCDPOの有効性を示す。 次に、SCDPOをInternLM2-20Bモデルに適用し、その結果、GSM8Kで88.5%、MATHで58.1%の高得点を達成し、他のオープンソースLCMに匹敵する20Bモデルを得る。

Direct Preference Optimization (DPO) has proven effective at improving the performance of large language models (LLMs) on downstream tasks such as reasoning and alignment. In this work, we propose Step-Controlled DPO (SCDPO), a method for automatically providing stepwise error supervision by creating negative samples of mathematical reasoning rationales that start making errors at a specified step. By applying these samples in DPO training, SCDPO can better align the model to understand reasoning errors and output accurate reasoning steps. We apply SCDPO to both code-integrated and chain-of-thought solutions, empirically showing that it consistently improves the performance compared to naive DPO on three different SFT models, including one existing SFT model and two models we finetuned. Qualitative analysis of the credit assignment of SCDPO and DPO demonstrates the effectiveness of SCDPO at identifying errors in mathematical solutions. We then apply SCDPO to an InternLM2-20B model, resulting in a 20B model that achieves high scores of 88.5% on GSM8K and 58.1% on MATH, rivaling all other open-source LLMs, showing the great potential of our method.
翻訳日:2024-07-04 01:37:22 公開日:2024-07-02
# 何千もの言語に対するロバストな音声表現学習に向けて

Towards Robust Speech Representation Learning for Thousands of Languages ( http://arxiv.org/abs/2407.00837v2 )

ライセンス: Link先を確認
William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe, (参考訳) 自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。 しかし、モデルは世界の7000以上の言語をサポートするには程遠い。 我々は,4057言語にまたがる100万時間以上のデータをトレーニングし,SSLモデルの言語カバレッジを4倍に拡張するユニバーサル音声用言語エンコーダXEUSを提案する。 既存の公開コーパスから100万時間、4057言語から新たに作成された7400時間以上のコーパスを合わせて公開します。 多言語音声データの多様な条件に対処するため、従来のSSLマスクによる予測アプローチを新しい派生目標で強化し、ロバスト性を高めた。 我々はXEUSをいくつかのベンチマークで評価し、様々なタスクにおける最先端(SOTA)SSLモデルよりも一貫して優れるか、同等の結果が得られることを示した。 XEUSはML-SUPERBベンチマークに新しいSOTAを設定し、MMS 1Bとw2v-BERT 2.0 v2をそれぞれ0.8%と4.4%で上回っている。 チェックポイント、コード、データはhttps://www.wavlab.org/activities/2024/xeus/にある。

Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.
翻訳日:2024-07-04 01:27:27 公開日:2024-07-02
# ランダムウェイトと学習バイアスを持つニューラルネットワークの表現性

Expressivity of Neural Networks with Random Weights and Learned Biases ( http://arxiv.org/abs/2407.00957v2 )

ライセンス: Link先を確認
Ezekiel Williams, Avery Hee-Woon Ryoo, Thomas Jiralerspong, Alexandre Payeur, Matthew G. Perich, Luca Mazzucato, Guillaume Lajoie, (参考訳) トレーニングされた重みとバイアスを持つニューラルネットワークに対するランドマーク普遍関数近似の結果は、ニューラルネットワークを人工知能(AI)と神経科学の学習モデルとしてユビキタスに活用するための鍵となった。 最近の研究は、任意の関数が同様にランダムに初期化されたネットワーク内でパラメータの小さな部分集合、例えば出力重み付けをチューニングすることで学習できることを示し、普遍近似の境界を押し上げている。 バイアスは、トニック入力やアクティベーションしきい値などのニューラルネットワークの単位出力を調整する生物学的に妥当なメカニズムとして解釈できるという事実から、バイアスのみを最適化したランダムな重みを持つニューラルネットワークの表現性について検討する。 ランダムな重みを固定したフィードフォワードニューラルネットワークが、バイアスのみを学習することによって複数のタスクを実行することができることを示す理論的および数値的なエビデンスを提供する。 さらに,リカレントニューラルネットワークによる動的系軌跡の予測に等価な結果が得られることを示す。 我々の結果は神経科学に関係しており、シナプス重みを変更せずに動的に行動に関連のある変化が起こる可能性を示し、AIにもバイアス微調整や単位マスキングといったマルチタスク手法に光を当てている。

Landmark universal function approximation results for neural networks with trained weights and biases provided impetus for the ubiquitous use of neural networks as learning models in Artificial Intelligence (AI) and neuroscience. Recent work has pushed the bounds of universal approximation by showing that arbitrary functions can similarly be learned by tuning smaller subsets of parameters, for example the output weights, within randomly initialized networks. Motivated by the fact that biases can be interpreted as biologically plausible mechanisms for adjusting unit outputs in neural networks, such as tonic inputs or activation thresholds, we investigate the expressivity of neural networks with random weights where only biases are optimized. We provide theoretical and numerical evidence demonstrating that feedforward neural networks with fixed random weights can be trained to perform multiple tasks by learning biases only. We further show that an equivalent result holds for recurrent neural networks predicting dynamical system trajectories. Our results are relevant to neuroscience, where they demonstrate the potential for behaviourally relevant changes in dynamics without modifying synaptic weights, as well as for AI, where they shed light on multi-task methods such as bias fine-tuning and unit masking.
翻訳日:2024-07-04 00:46:07 公開日:2024-07-02
# 組込みプロンプトチューニング : 医用画像に対する事前訓練モデルの校正強化に向けて

Embedded Prompt Tuning: Towards Enhanced Calibration of Pretrained Models for Medical Images ( http://arxiv.org/abs/2407.01003v2 )

ライセンス: Link先を確認
Wenqiang Zu, Shenghao Xie, Qing Zhao, Guoqi Li, Lei Ma, (参考訳) 大規模なデータに基づいて事前訓練された基礎モデルは、様々な自然画像下流タスクで成功するために広く目撃されている。 パラメータ効率のよい微調整法(PEFT)は、計算オーバーヘッドを減らすためにパラメータのごく一部だけを更新することで基礎モデルを新しい領域に適応させることを目的としている。 しかし,これらのPEFT法の有効性,特に医療画像解析のようなクロスドメイン・ショット・シナリオでは,十分に検討されていない。 本研究では,基礎モデルを医療画像分類タスクに適応させる際のPEFTの性能に関する研究を円滑に進める。 さらに、主流のプロンプトチューニング手法であるTransformerアーキテクチャ上でのプロンプトの導入方法や近似機能の制限を軽減するため、プロンプトトークンを拡張チャネルに埋め込んだ組込みプロンプトチューニング(EPT)手法を提案する。 また, 基礎モデルの特徴空間分布には, 事前学習過程における異常があり, 即時チューニングは, この負の影響を緩和するのに有効であることがわかった。 この現象を説明するために,プロンプトチューニングは分布校正器である。 EPTに含まれるパッチワイズスケーリングと特徴分離操作を解析してそれをサポートする。 実験の結果,EPTは数発の医用画像分類タスクにおいて,最先端の微調整手法よりも優れており,高い競争時間で微調整処理を完了し,EPTが有効なPEFT法であることが示唆された。 ソースコードはgithub.com/zuwenqiang/EPTで入手できる。

Foundation models pre-trained on large-scale data have been widely witnessed to achieve success in various natural imaging downstream tasks. Parameter-efficient fine-tuning (PEFT) methods aim to adapt foundation models to new domains by updating only a small portion of parameters in order to reduce computational overhead. However, the effectiveness of these PEFT methods, especially in cross-domain few-shot scenarios, e.g., medical image analysis, has not been fully explored. In this work, we facilitate the study of the performance of PEFT when adapting foundation models to medical image classification tasks. Furthermore, to alleviate the limitations of prompt introducing ways and approximation capabilities on Transformer architectures of mainstream prompt tuning methods, we propose the Embedded Prompt Tuning (EPT) method by embedding prompt tokens into the expanded channels. We also find that there are anomalies in the feature space distribution of foundation models during pre-training process, and prompt tuning can help mitigate this negative impact. To explain this phenomenon, we also introduce a novel perspective to understand prompt tuning: Prompt tuning is a distribution calibrator. And we support it by analyzing patch-wise scaling and feature separation operations contained in EPT. Our experiments show that EPT outperforms several state-of-the-art fine-tuning methods by a significant margin on few-shot medical image classification tasks, and completes the fine-tuning process within highly competitive time, indicating EPT is an effective PEFT method. The source code is available at github.com/zuwenqiang/EPT.
翻訳日:2024-07-04 00:25:59 公開日:2024-07-02
# Swish-T : ニューラルネットワーク性能向上のためのTanh Biasを用いたSwish Activationの強化

Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance ( http://arxiv.org/abs/2407.01012v2 )

ライセンス: Link先を確認
Youngmin Seo, Jinha Kim, Unsang Park, (参考訳) 既存の非単調活性化関数 Swish の強化である Swish-T family を提案する。 Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。 この修正によってSwish-Tの亜種が生成され、それぞれ異なるタスクに優れ、アプリケーションコンテキストに応じて特定の利点を示すように設計されている。 タンのバイアスは、最初のトレーニング段階でより広い負の値を受け入れることができ、元のスウィッシュよりもスムーズな非単調曲線を提供する。 最終的に、Swish-T$_{\textbf{C}}$関数を提案するが、Swish-TとSwish-T$_{\textbf{B}}$は、Swish-T$_{\textbf{C}}$の副産物である。 さらに,非パラメトリック関数としてSwish-T$_{\textbf{C}}$を使用することで高い性能が得られることを示す。 Swish-Tファミリーの優位性は、MNIST、Fashion MNIST、SVHN、CIFAR-10、CIFAR-100など、様々なモデルやベンチマークデータセットで実証されている。 コードは"https://github.com/ictseoyoungmin/Swish-T-pytorch"で公開されている。

We propose the Swish-T family, an enhancement of the existing non-monotonic activation function Swish. Swish-T is defined by adding a Tanh bias to the original Swish function. This modification creates a family of Swish-T variants, each designed to excel in different tasks, showcasing specific advantages depending on the application context. The Tanh bias allows for broader acceptance of negative values during initial training stages, offering a smoother non-monotonic curve than the original Swish. We ultimately propose the Swish-T$_{\textbf{C}}$ function, while Swish-T and Swish-T$_{\textbf{B}}$, byproducts of Swish-T$_{\textbf{C}}$, also demonstrate satisfactory performance. Furthermore, our ablation study shows that using Swish-T$_{\textbf{C}}$ as a non-parametric function can still achieve high performance. The superiority of the Swish-T family has been empirically demonstrated across various models and benchmark datasets, including MNIST, Fashion MNIST, SVHN, CIFAR-10, and CIFAR-100. The code is publicly available at "https://github.com/ictseoyoungmin/Swish-T-pytorch".
翻訳日:2024-07-04 00:25:59 公開日:2024-07-02
# カテゴリーから見たインテリジェンスのためのコーディング

Coding for Intelligence from the Perspective of Category ( http://arxiv.org/abs/2407.01017v2 )

ライセンス: Link先を確認
Wenhan Yang, Zixuan Hu, Lilang Lin, Jiaying Liu, Ling-Yu Duan, (参考訳) データ圧縮と再構成、インテリジェンスを対象とする符号化は、しばしば抽象的な計算レベルでモデル学習と予測に中心を置いていると見なされる。 最近の傾向は、特にディープラーニングモデルがこれらの2つのカテゴリをより良い確率モデリングに役立てる場合、これらの2つの分野の潜在的な均一性を示している。 認知心理学の基本的な原則に着想を得て、統一的な視点からよりよく理解し、記述するために、私たちはカテゴリー理論の観点から知性のためのコーディングという新しい問題を定式化します。 理想的な符号化の存在、実用的な符号化の存在、一般化を促進するコンパクト性という3つの公理に基づいて、我々は既存の方法論を理解するための一般的な枠組みを導出する。 このフレームワークは、特定の派生した最小記述長(MDL)最適化問題を幅広い範囲から解決する上での課題と重要な要素を特定し、コーディングのアイデア/ツールで複数のタスク/アプリケーションを扱うためのよりインテリジェントなシステムを構築する機会を提供する。 これらの要素を中心に、我々は、データ、モデル、タスクの観点から、MDL問題をより包括的な方法で最適化するための最近のプロセスを体系的にレビューし、CfI技術ルートに対するそれらの影響を明らかにする。 その後、我々はCfIを満たすための新しい手法の道を示し、予備的な実験的証拠を提供する。 最後に、今後の方向性と今後の課題についても論じる。 この議論は、我々の理論が、機能学習における近年の実践と相互に相関する大きな基礎モデルに関する多くの現象や洞察を明らかにすることができることを示している。

Coding, which targets compressing and reconstructing data, and intelligence, often regarded at an abstract computational level as being centered around model learning and prediction, interweave recently to give birth to a series of significant progress. The recent trends demonstrate the potential homogeneity of these two fields, especially when deep-learning models aid these two categories for better probability modeling. For better understanding and describing from a unified perspective, inspired by the basic generally recognized principles in cognitive psychology, we formulate a novel problem of Coding for Intelligence from the category theory view. Based on the three axioms: existence of ideal coding, existence of practical coding, and compactness promoting generalization, we derive a general framework to understand existing methodologies, namely that, coding captures the intrinsic relationships of objects as much as possible, while ignoring information irrelevant to downstream tasks. This framework helps identify the challenges and essential elements in solving the specific derived Minimal Description Length (MDL) optimization problem from a broader range, providing opportunities to build a more intelligent system for handling multiple tasks/applications with coding ideas/tools. Centering on those elements, we systematically review recent processes of towards optimizing the MDL problem in more comprehensive ways from data, model, and task perspectives, and reveal their impacts on the potential CfI technical routes. After that, we also present new technique paths to fulfill CfI and provide potential solutions with preliminary experimental evidence. Last, further directions and remaining issues are discussed as well. The discussion shows our theory can reveal many phenomena and insights about large foundation models, which mutually corroborate with recent practices in feature learning.
翻訳日:2024-07-04 00:25:59 公開日:2024-07-02
# マルチビュークラスタリングのためのマルチレベル信頼性誘導

Multi-level Reliable Guidance for Unpaired Multi-view Clustering ( http://arxiv.org/abs/2407.01247v2 )

ライセンス: Link先を確認
Like Xin, Wanqi Yang, Lei Wang, Ming Yang, (参考訳) 本稿では,複数視点にまたがる無ペア観測サンプルを用いた効果的な共同クラスタリングを実現することを目的とした,無ペア多視点クラスタリング(UMC)の課題に対処する。 一般的に、従来の不完全なマルチビュークラスタリング(IMC)手法は、ビュー間の相補的な情報を取得するためにペア化されたサンプルに依存することが多い。 しかし、UMCではペアサンプルが存在しないため、この戦略は実用的ではない。 ビュー全体にわたって一貫したクラスタ構造を保存することでこの問題に対処しようとする研究者もいるが、最初のトレーニング中に境界サンプルや不確実なクラスタ構造に対して、これらのクラスタ構造の信頼性をしばしば無視する。 そこで我々は,マルチレベルクラスタリングを活用して,インナービュー,クロスビュー,コモンビューにまたがる信頼性の高いクラスタ構造を学習する,MRG-UMC (Multi-level Reliable Guidance for UMC) と呼ばれる手法を提案する。 具体的には、各ビューにおいて、マルチレベルクラスタリングは、さまざまなレベルにわたる信頼できるクラスタ構造を育み、クラスタリングエラーを低減する。 クロスビュー学習では、信頼性の高いビューガイダンスは、他のビューにおけるクラスタ構造の信頼性を高める。 同様に、マルチレベルフレームワーク内では、共通のビューの組み入れは、異なるビューの整合を助長し、クラスタリングエラーとクラスタ構造の不確実性を低減します。 最後に, 広範囲な実験によって証明されたように, UMC法は20種類の最先端手法と比較して, 大幅な効率向上を示した。

In this paper, we address the challenging problem of unpaired multi-view clustering (UMC), aiming to perform effective joint clustering using unpaired observed samples across multiple views. Commonly, traditional incomplete multi-view clustering (IMC) methods often depend on paired samples to capture complementary information between views. However, the strategy becomes impractical in UMC due to the absence of paired samples. Although some researchers have attempted to tackle the issue by preserving consistent cluster structures across views, they frequently neglect the confidence of these cluster structures, especially for boundary samples and uncertain cluster structures during the initial training. Therefore, we propose a method called Multi-level Reliable Guidance for UMC (MRG-UMC), which leverages multi-level clustering to aid in learning a trustworthy cluster structure across inner-view, cross-view, and common-view, respectively. Specifically, within each view, multi-level clustering fosters a trustworthy cluster structure across different levels and reduces clustering error. In cross-view learning, reliable view guidance enhances the confidence of the cluster structures in other views. Similarly, within the multi-level framework, the incorporation of a common view aids in aligning different views, thereby reducing the clustering error and uncertainty of cluster structure. Finally, as evidenced by extensive experiments, our method for UMC demonstrates significant efficiency improvements compared to 20 state-of-the-art methods.
翻訳日:2024-07-03 21:39:54 公開日:2024-07-02
# 橋梁せん断予測のための物理インフォームドディープラーニングフレームワークの導入

Introducing a Physics-informed Deep Learning Framework for Bridge Scour Prediction ( http://arxiv.org/abs/2407.01258v2 )

ライセンス: Link先を確認
Negin Yousefpour, Bo Wang, (参考訳) 本稿では,深層学習を用いたせん断予測のためのハイブリッド物理データ駆動型フレームワークSPINNを紹介する。 SPINNは、過去の監視データに基づいて開発され、物理に基づく経験方程式を補助的損失成分としてニューラルネットワークに統合する。 LSTM、CNN、NLinearの3つのアーキテクチャをベースデータ駆動モデルとして組み込んだ。 さまざまなベースモデルとブリッジのパフォーマンスが異なるにも関わらず、SPINNは全体として純粋なデータ駆動モデルよりも優れていた。 いくつかの橋梁の場合、SPINNは予測エラーを最大50%削減した。 本研究では,地域内の複数の橋にまたがるデータセットの集約によって訓練されたブリッジクラスタの汎用モデルについても検討した。 純粋なデータ駆動モデルは、主にこのアプローチ、特に限られたデータを持つブリッジの恩恵を受けました。 しかし、橋梁固有のSPINNは、ほぼ全てのケーススタディにおいて一般的なSPINNよりも正確な予測を提供した。 また,SPINNから導出される時間依存経験方程式は,最大せん断深さを推定する上で妥当な精度を示し,HEC-18と比較してより正確な予測が可能であった。 SPINNと純粋深層学習モデルと従来のHEC-18方程式を比較すると、シュガー予測精度が大幅に向上したことがわかる。 本研究は, 橋梁設計と保守のために, ハイブリッド物理機械学習手法を適用可能な方法である。

This paper introduces scour physics-informed neural networks (SPINNs), a hybrid physics-data-driven framework for bridge scour prediction using deep learning. SPINNs are developed based on historical scour monitoring data and integrate physics-based empirical equations into neural networks as supplementary loss components. We incorporated three architectures: LSTM, CNN, and NLinear as the base data-driven model. Despite varying performance across different base models and bridges, SPINNs overall outperformed pure data-driven models. In some bridge cases, SPINN reduced forecasting errors by up to 50 percent. In this study, we also explored general models for bridge clusters, trained by aggregating datasets across multiple bridges in a region. The pure data-driven models mostly benefited from this approach, in particular bridges with limited data. However, bridge-specific SPINNs provided more accurate predictions than general SPINNs for almost all case studies. Also, the time-dependent empirical equations derived from SPINNs showed reasonable accuracy in estimating maximum scour depth, providing more accurate predictions compared to HEC-18. Comparing both SPINNs and pure deep learning models with traditional HEC-18 equation indicates substantial improvements in scour prediction accuracy. This study can pave the way for hybrid physics-machine learning methodologies to be implemented for bridge scour design and maintenance.
翻訳日:2024-07-03 21:39:54 公開日:2024-07-02
# ゼロショットNERの定義とガイドラインによるプロンプトの強化

Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER ( http://arxiv.org/abs/2407.01272v2 )

ライセンス: Link先を確認
Andrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini, (参考訳) 近年,名前付きエンティティ認識(NER)のためのLLM(Large Language Models)がいくつか出現している。 従来のNERアプローチと比較して、これらのモデルは強力な一般化能力を持つ。 既存のLLMは主にドメイン外分布におけるゼロショットのNERに焦点を当てており、テストセットと高いあるいは完全に重複する多数のエンティティクラスに微調整されている。 そこで本研究では,より少ない例でモデルを指示し,定義とガイドラインに富んだプロンプトを活用することによって,これまで見てきたようなエンティティタグに対処するアプローチであるSLIMERを提案する。 実験では、特に目に見えない名前付きエンティティをラベル付けする場合、定義とガイドラインがより良いパフォーマンス、より速く、より堅牢な学習をもたらすことを示した。 さらに、SLIMERは、タグセットの縮小を訓練しながら、ドメイン外ゼロショットNERにおける最先端のアプローチと互換性がある。

Recently, several specialized instruction-tuned Large Language Models (LLMs) for Named Entity Recognition (NER) have emerged. Compared to traditional NER approaches, these models have strong generalization capabilities. Existing LLMs mainly focus on zero-shot NER in out-of-domain distributions, being fine-tuned on an extensive number of entity classes that often highly or completely overlap with test sets. In this work instead, we propose SLIMER, an approach designed to tackle never-seen-before named entity tags by instructing the model on fewer examples, and by leveraging a prompt enriched with definition and guidelines. Experiments demonstrate that definition and guidelines yield better performance, faster and more robust learning, particularly when labelling unseen Named Entities. Furthermore, SLIMER performs comparably to state-of-the-art approaches in out-of-domain zero-shot NER, while being trained on a reduced tag set.
翻訳日:2024-07-03 21:30:10 公開日:2024-07-02
# 実践可能な授業評価のための大規模言語モデルの導入 : 講師へのフィードバック

Leveraging Large Language Models for Actionable Course Evaluation Student Feedback to Lecturers ( http://arxiv.org/abs/2407.01274v2 )

ライセンス: Link先を確認
Mike Zhang, Euan D Lindsay, Frederik Bode Thorbensen, Danny Bøgsted Poulsen, Johannes Bjerva, (参考訳) 学期末の授業評価は、教育実践に関する学生へのフィードバックを提供するための支配的なメカニズムである。 しかし、大規模なクラスでは、フィードバックの量は、この目的のためにこれらのツールを実用的でないものにしている。 本稿では,これらの調査回答から学生のフィードバックの事実的,実行可能な,適切な要約を合成するための,オープンソースの生成AIの利用について検討する。 セットアップでは,コンピュータサイエンス科の75科以上を対象に,742名の学生が回答した。 各コースについて,授業評価項目と動作可能な項目の要約を合成する。 この結果から,教室環境における教育実践の促進に期待できる道筋が明らかとなった。 私たちの貢献は、教師に対する洞察力のあるフィードバックを生み出すために生成的AIを使用することの可能性を示すことであり、それによって教育者の開発を支援するための費用対効果の手段を提供する。 本研究は総合的に,授業環境における教師の現実的,行動的,適切なフィードバックを生み出すために,生成的AIを使用する可能性を強調している。

End of semester student evaluations of teaching are the dominant mechanism for providing feedback to academics on their teaching practice. For large classes, however, the volume of feedback makes these tools impractical for this purpose. This paper explores the use of open-source generative AI to synthesise factual, actionable and appropriate summaries of student feedback from these survey responses. In our setup, we have 742 student responses ranging over 75 courses in a Computer Science department. For each course, we synthesise a summary of the course evaluations and actionable items for the instructor. Our results reveal a promising avenue for enhancing teaching practices in the classroom setting. Our contribution lies in demonstrating the feasibility of using generative AI to produce insightful feedback for teachers, thus providing a cost-effective means to support educators' development. Overall, our work highlights the possibility of using generative AI to produce factual, actionable, and appropriate feedback for teachers in the classroom setting.
翻訳日:2024-07-03 21:30:10 公開日:2024-07-02
# Blind Image Super-Resolution における完全劣化の保存

Preserving Full Degradation Details for Blind Image Super-Resolution ( http://arxiv.org/abs/2407.01299v2 )

ライセンス: Link先を確認
Hongda Liu, Longguang Wang, Ye Zhang, Kaiwen Xue, Shunbo Zhou, Yulan Guo, (参考訳) 画像超解像の性能は、特にブラインド条件下での劣化情報の精度に大きく依存する。 実世界のシナリオでは真の劣化モデルがないため、以前の手法はバッチ内の異なる劣化を区別することで、異なる表現を学習する。 しかし、最も顕著な劣化差は、微妙な違いが捨てられるような表現の学習のショートカットを与えるかもしれない。 本稿では,劣化した低分解能画像(LR)を再現することで,劣化表現を学習する手法を提案する。 復調器に入力LR画像の再構成を誘導することにより、その表現に全劣化情報をエンコードすることができる。 さらに, 境界制約を導入することにより, 劣化表現の学習を容易にするためのエネルギー距離損失を開発する。 実験により, 精度が高く, 強靭な劣化情報を抽出できることが確認された。 さらに、合成画像と実画像の両方において、我々のReDSRがブラインドSRタスクの最先端性能を達成することを示す。

The performance of image super-resolution relies heavily on the accuracy of degradation information, especially under blind settings. Due to absence of true degradation models in real-world scenarios, previous methods learn distinct representations by distinguishing different degradations in a batch. However, the most significant degradation differences may provide shortcuts for the learning of representations such that subtle difference may be discarded. In this paper, we propose an alternative to learn degradation representations through reproducing degraded low-resolution (LR) images. By guiding the degrader to reconstruct input LR images, full degradation information can be encoded into the representations. In addition, we develop an energy distance loss to facilitate the learning of the degradation representations by introducing a bounded constraint. Experiments show that our representations can extract accurate and highly robust degradation information. Moreover, evaluations on both synthetic and real images demonstrate that our ReDSR achieves state-of-the-art performance for the blind SR tasks.
翻訳日:2024-07-03 21:20:18 公開日:2024-07-02
# 拡散強制: フルシーケンス拡散を伴う次世代予測

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion ( http://arxiv.org/abs/2407.01392v2 )

ライセンス: Link先を確認
Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann, (参考訳) 本稿では,拡散モデルを用いて一組のトークンに独立したノイズレベルを付与する新たな訓練パラダイムである拡散強制(Diffusion Forcing)を提案する。 因果的次トーケン予測モデルを訓練して、過去のトークンを完全に拡散させることなく、1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。 提案手法は,変数長生成などの次トーケン予測モデルの長所と,サンプリングを望ましい軌道に誘導する機能などのフルシーケンス拡散モデルの長所を組み合わせる。 提案手法は,(1)ビデオなどの連続トークンのロールアウトシーケンス,(2)ベースラインのばらつき,(2)Diffusion Forcingの可変水平および因果アーキテクチャから一意に利益を得る新しいサンプリングとガイドスキーム,などの追加機能を提供し,意思決定や計画作業において顕著なパフォーマンス向上をもたらす。 実験的な成功に加えて,本手法は真の関節分布から引き出された全てのトークン列の確率の変動的下限を最適化することが証明された。 プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing/

This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing's variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing/
翻訳日:2024-07-03 21:00:48 公開日:2024-07-02
# HyperLoader: シーケンスラベリングのためのマルチタスク変換器にハイパーネットワークベースのLoRAとアダプタ層を統合する

HyperLoader: Integrating Hypernetwork-Based LoRA and Adapter Layers into Multi-Task Transformers for Sequence Labelling ( http://arxiv.org/abs/2407.01411v2 )

ライセンス: Link先を確認
Jesus-German Ortiz-Barajas, Helena Gomez-Adorno, Thamar Solorio, (参考訳) マルチタスク設定におけるパラメータ効率の異なる微調整手法を組み合わせたシンプルな手法であるHyperLoaderを提案する。 この目的を達成するために、我々のモデルはハイパーネットワークを用いて、タスク、トランスフォーマー層、およびこの層内のその位置に基づいて、これらのモジュールの重みを生成する。 提案手法は,タスク固有の知識を生成重みにカプセル化することでタスクの干渉問題を低減しつつ,タスクの構造を把握し,マルチタスク学習の利点と,パラメータ効率の異なる手法を組み合わせることで,全タスクのチューニング性能を向上する利点を組み合わせたものである。 我々は、HyperLoaderが、ほとんどのデータセットで以前のアプローチより優れており、高リソースおよび低リソースのシナリオにおけるタスク間での最高の平均パフォーマンスが得られるという実証的な証拠を提供する。

We present HyperLoader, a simple approach that combines different parameter-efficient fine-tuning methods in a multi-task setting. To achieve this goal, our model uses a hypernetwork to generate the weights of these modules based on the task, the transformer layer, and its position within this layer. Our method combines the benefits of multi-task learning by capturing the structure of all tasks while reducing the task interference problem by encapsulating the task-specific knowledge in the generated weights and the benefits of combining different parameter-efficient methods to outperform full-fine tuning. We provide empirical evidence that HyperLoader outperforms previous approaches in most datasets and obtains the best average performance across tasks in high-resource and low-resource scenarios.
翻訳日:2024-07-03 20:51:04 公開日:2024-07-02
# ColPali:ビジョン言語モデルによる効率的なドキュメント検索

ColPali: Efficient Document Retrieval with Vision Language Models ( http://arxiv.org/abs/2407.01449v2 )

ライセンス: Link先を確認
Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Gautier Viaud, Céline Hudelot, Pierre Colombo, (参考訳) ドキュメントは、表、図形、ページレイアウト、フォントだけでなく、テキストを介して情報を伝達する視覚的に豊かな構造である。 現代の文書検索システムは、クエリとテキストのマッチングにおいて強力な性能を示すが、視覚的手がかりを効果的に活用することは困難であり、検索拡張生成のような実用的な文書検索アプリケーションではその性能を損なう。 視覚的にリッチな文書検索に関する現在のシステムをベンチマークするために、複数のドメイン、言語、設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。 現代のシステムの本質的な欠点は、新しい検索モデルアーキテクチャであるColPaliの導入を動機付けている。ColPaliは、最近のビジョン言語モデルの文書理解機能を活用して、文書ページの画像のみから高品質なコンテキスト化された埋め込みを生成する。 ColPaliは、遅延インタラクションマッチング機構と組み合わせて、現代的なドキュメント検索パイプラインよりも大幅に高速でエンドツーエンドのトレーニングが可能である。

Documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit visual cues efficiently, hindering their performance on practical document retrieval applications such as Retrieval Augmented Generation. To benchmark current systems on visually rich document retrieval, we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of various page-level retrieving tasks spanning multiple domains, languages, and settings. The inherent shortcomings of modern systems motivate the introduction of a new retrieval model architecture, ColPali, which leverages the document understanding capabilities of recent Vision Language Models to produce high-quality contextualized embeddings solely from images of document pages. Combined with a late interaction matching mechanism, ColPali largely outperforms modern document retrieval pipelines while being drastically faster and end-to-end trainable.
翻訳日:2024-07-03 20:41:15 公開日:2024-07-02
# 契約強化学習:目に見えない手で腕を引っ張る

Contractual Reinforcement Learning: Pulling Arms with Invisible Hands ( http://arxiv.org/abs/2407.01458v2 )

ライセンス: Link先を確認
Jibang Wu, Siyu Chen, Mengdi Wang, Huazheng Wang, Haifeng Xu, (参考訳) エージェンシーの問題は、学習者がコンテンツ作成やデータ収集を指示できない、今日の大規模な機械学習タスクに現れます。 本研究では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。 この問題は「emph{contractual reinforcement learning}」と呼ばれ、マルコフ決定過程の古典的なモデルから自然に生じ、学習主は次の状態の実現に起因した支払い規則の集合を通じて、エージェントの共通の利益のためにエージェントの行動方針に最適に影響を及ぼそうとする。 計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。 学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解消し,複雑性解析を効率化し,効率的な探索アルゴリズムを構築する。 いくつかの自然問題に対して、我々は $\tilde{O}(\sqrt{T})$ regret を確実に達成する調整された探索アルゴリズムを設計する。 また,オンライン契約設計における既存の解析を軽度な技術的仮定で改善する一般問題に対して,$\tilde{O}(T^{2/3})$のアルゴリズムを提案する。

The agency problem emerges in today's large scale machine learning tasks, where the learners are unable to direct content creation or enforce data collection. In this work, we propose a theoretical framework for aligning economic interests of different stakeholders in the online learning problems through contract design. The problem, termed \emph{contractual reinforcement learning}, naturally arises from the classic model of Markov decision processes, where a learning principal seeks to optimally influence the agent's action policy for their common interests through a set of payment rules contingent on the realization of next state. For the planning problem, we design an efficient dynamic programming algorithm to determine the optimal contracts against the far-sighted agent. For the learning problem, we introduce a generic design of no-regret learning algorithms to untangle the challenges from robust design of contracts to the balance of exploration and exploitation, reducing the complexity analysis to the construction of efficient search algorithms. For several natural classes of problems, we design tailored search algorithms that provably achieve $\tilde{O}(\sqrt{T})$ regret. We also present an algorithm with $\tilde{O}(T^{2/3})$ for the general problem that improves the existing analysis in online contract design with mild technical assumptions.
翻訳日:2024-07-03 20:31:31 公開日:2024-07-02
# 推論機能を備えた3次元視覚グラウンドの実現

Empowering 3D Visual Grounding with Reasoning Capabilities ( http://arxiv.org/abs/2407.01525v2 )

ライセンス: Link先を確認
Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu, (参考訳) 3次元の視覚的グラウンドリングでは大きな進歩があったが、現在のモデルでは、グラウンド化のために明示的なテキスト記述に依存しており、暗黙の指示から人間の意図を推論する能力が欠如している。 我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入し、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問応答位置ペアを提供する。 さらに,マルチモーダル大言語モデル(MLLM)による視覚中心推論モジュールと3次元接地モジュールから構成されるReGround3Dを設計し,拡張された幾何学的手法や3次元シーンの細部の詳細を振り返って,正確な物体位置を求める。 提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。 提案手法の有効性を検証したベンチマーク実験を行った。

Although great progress has been made in 3D visual grounding, current models still rely on explicit textual descriptions for grounding and lack the ability to reason human intentions from implicit instructions. We propose a new task called 3D reasoning grounding and introduce a new benchmark ScanReason which provides over 10K question-answer-location pairs from five reasoning types that require the synerization of reasoning and grounding. We further design our approach, ReGround3D, composed of the visual-centric reasoning module empowered by Multi-modal Large Language Model (MLLM) and the 3D grounding module to obtain accurate object locations by looking back to the enhanced geometry and fine-grained details from the 3D scenes. A chain-of-grounding mechanism is proposed to further boost the performance with interleaved reasoning and grounding steps during inference. Extensive experiments on the proposed benchmark validate the effectiveness of our proposed approach.
翻訳日:2024-07-03 20:11:58 公開日:2024-07-02
# xLSTM-UNetは、視覚LSTM(ViL)を用いた効果的な2次元および3次元医用画像分割バックボーンであり、Mamba Counterpartより優れている

xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart ( http://arxiv.org/abs/2407.01530v2 )

ライセンス: Link先を確認
Tianrun Chen, Chaotao Ding, Lanyun Zhu, Tao Xu, Deyi Ji, Yan Wang, Ying Zang, Zejian Li, (参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、バイオメディカルなイメージセグメンテーションにおいて重要な役割を担っている。 これらの課題を克服するために、我々はまず、医療画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。 xLSTMは最近、Long Short-Term Memory (LSTM) ネットワークの後継として提案され、Mamba in Neural Language Processing (NLP)や画像分類(ViL実装で示されている)のようなTransformersやState Space Models (SSM)よりも優れた性能を示している。 そこで,xLSTM-UNetは,バイオメディカルイメージセグメンテーション領域の成功の延長を図った。 畳み込み層の局所的特徴抽出強度とxLSTMの長距離依存性キャプチャ能力を統合することで、xLSTM-UNetは包括的な画像解析のための堅牢なソリューションを提供する。 実験によりxLSTM-UNetの有効性を検証した。 以上の結果から,XLSTM-UNetは,腹部MRIの臓器,内視鏡画像の器具,顕微鏡画像の細胞を含む生体領域の複数のデータセットにおいて,CNNベース,トランスフォーマーベース,マンバベースセグメンテーションネットワークの性能を一貫して上回っていることが明らかとなった。 総合的な実験により, この技術報告は, 2次元および3次元の生体画像解析におけるxLSTMアーキテクチャの可能性を強調した。 コード、モデル、データセットはhttp://tianrun-chen.github.io/xLSTM-UNet/で公開されている。

Convolutional Neural Networks (CNNs) and Vision Transformers (ViT) have been pivotal in biomedical image segmentation, yet their ability to manage long-range dependencies remains constrained by inherent locality and computational overhead. To overcome these challenges, in this technical report, we first propose xLSTM-UNet, a UNet structured deep learning neural network that leverages Vision-LSTM (xLSTM) as its backbone for medical image segmentation. xLSTM is a recently proposed as the successor of Long Short-Term Memory (LSTM) networks and have demonstrated superior performance compared to Transformers and State Space Models (SSMs) like Mamba in Neural Language Processing (NLP) and image classification (as demonstrated in Vision-LSTM, or ViL implementation). Here, xLSTM-UNet we designed extend the success in biomedical image segmentation domain. By integrating the local feature extraction strengths of convolutional layers with the long-range dependency capturing abilities of xLSTM, xLSTM-UNet offers a robust solution for comprehensive image analysis. We validate the efficacy of xLSTM-UNet through experiments. Our findings demonstrate that xLSTM-UNet consistently surpasses the performance of leading CNN-based, Transformer-based, and Mamba-based segmentation networks in multiple datasets in biomedical segmentation including organs in abdomen MRI, instruments in endoscopic images, and cells in microscopic images. With comprehensive experiments performed, this technical report highlights the potential of xLSTM-based architectures in advancing biomedical image analysis in both 2D and 3D. The code, models, and datasets are publicly available at http://tianrun-chen.github.io/xLSTM-UNet/
翻訳日:2024-07-03 20:11:58 公開日:2024-07-02
# VSP:VLMにおける空間計画課題における知覚と推論の二重課題の評価

VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs ( http://arxiv.org/abs/2407.01863v1 )

ライセンス: Link先を確認
Qiucheng Wu, Handong Zhao, Michael Saxon, Trung Bui, William Yang Wang, Yang Zhang, Shiyu Chang, (参考訳) 視覚言語モデル(VLM)は、従来のLM機能を画像処理システムと統合した、エキサイティングな言語モデル(LM)である。 しかし、これらの能力が組み合わさる方法は必ずしも直感的ではなく、直接の捜査を保証しているわけではない。 視覚的な空間計画 - オブジェクトの空間的配置を理解し、視覚的なシーンで望ましい結果を達成するためのアクション計画を考案する能力である。 本研究では,そのベンチマークであるVSPを紹介する。 1)これらのモデルにおける空間計画能力の評価と評価 2)視覚計画課題を知覚や推論を含む細粒度のサブタスクに分解し,これらのサブタスクにおけるLMの能力を測定する。 評価の結果,オープンソースのVLMとプライベートなVLMは,簡単な空間計画タスクの効果的な計画作成に失敗していることがわかった。 きめ細かい分析課題の評価により、モデルの視覚的知覚と推論能力のボトルネックの根本的な欠陥が明らかになり、一般的な空間計画課題におけるそれらのパフォーマンスが悪化したことが説明される。 我々の研究は空間計画におけるVLMの能力向上に向けた今後の方向性を照らしている。 私たちのベンチマークはhttps://github.com/UCSB-NLP-Chang/Visual-Spatial-Planningで公開されています。

Vision language models (VLMs) are an exciting emerging class of language models (LMs) that have merged classic LM capabilities with those of image processing systems. However, the ways that these capabilities combine are not always intuitive and warrant direct investigation. One understudied capability in VLMs is visual spatial planning -- the ability to comprehend the spatial arrangements of objects and devise action plans to achieve desired outcomes in visual scenes. In our study, we introduce VSP, a benchmark that 1) evaluates the spatial planning capability in these models in general, and 2) breaks down the visual planning task into finer-grained sub-tasks, including perception and reasoning, and measure the LMs capabilities in these sub-tasks. Our evaluation shows that both open-source and private VLMs fail to generate effective plans for even simple spatial planning tasks. Evaluations on the fine-grained analytical tasks further reveal fundamental deficiencies in the models' visual perception and bottlenecks in reasoning abilities, explaining their worse performance in the general spatial planning tasks. Our work illuminates future directions for improving VLMs' abilities in spatial planning. Our benchmark is publicly available at https://github.com/UCSB-NLP-Chang/Visual-Spatial-Planning.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# 改良型YOLOv8に基づく逸脱運転行動の目標検出法に関する研究

Research on target detection method of distracted driving behavior based on improved YOLOv8 ( http://arxiv.org/abs/2407.01864v1 )

ライセンス: Link先を確認
Shiquan Shen, Zhizhong Wu, Pan Zhang, (参考訳) 深層学習技術の発達に伴い、注意をそらした運転行動の検出と分類はより正確である必要がある。 既存のディープラーニングベースの手法は、計算集約的でパラメータ冗長であり、実用的な応用における効率と精度を制限している。 そこで本研究では,BOTNetモジュール,GAMアテンション機構,EIoU損失関数を統合することで,従来のYOLOv8モデルに基づく改良YOLOv8検出手法を提案する。 特徴抽出とマルチスケール特徴融合戦略を最適化することにより、トレーニングと推論のプロセスが簡素化され、検出精度と効率が大幅に向上する。 実験結果から, 精度99.4%の精度で検出速度, 精度ともに良好に動作し, 運転行動の特定・分類, タイムリーな警告, 運転安全性の向上を実現した。

With the development of deep learning technology, the detection and classification of distracted driving behaviour requires higher accuracy. Existing deep learning-based methods are computationally intensive and parameter redundant, limiting the efficiency and accuracy in practical applications. To solve this problem, this study proposes an improved YOLOv8 detection method based on the original YOLOv8 model by integrating the BoTNet module, GAM attention mechanism and EIoU loss function. By optimising the feature extraction and multi-scale feature fusion strategies, the training and inference processes are simplified, and the detection accuracy and efficiency are significantly improved. Experimental results show that the improved model performs well in both detection speed and accuracy, with an accuracy rate of 99.4%, and the model is smaller and easy to deploy, which is able to identify and classify distracted driving behaviours in real time, provide timely warnings, and enhance driving safety.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# Image-GS:2Dガウスによるコンテンツ適応画像表現

Image-GS: Content-Adaptive Image Representation via 2D Gaussians ( http://arxiv.org/abs/2407.01866v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Alexandr Kuznetsov, Akshay Jindal, Kenneth Chen, Anton Sochenov, Anton Kaplanyan, Qi Sun, (参考訳) ニューラルイメージ表現は、視覚データを保存、ストリーミング、レンダリングするための有望なテクニックとして最近登場した。 学習ベースのワークフローと組み合わせることで、これらの新しい表現は目覚ましい視覚的忠実さと記憶効率を示す。 しかし、既存のニューラルイメージ表現は、コンテンツ適応性や計算集約的な暗黙のモデルを持たず、明示的な均一なデータ構造に依存しており、リアルタイムグラフィックスアプリケーションへの採用を制限していることが多い。 近年のラディアンスフィールドレンダリングの進歩に触発されて,コンテンツ適応型画像表現である Image-GS を提案する。 異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。 Image-GSは、2Dガウスの集合を適応的に配置し、段階的に最適化することでターゲット画像に適合する。 画像-GSの一般化可能な効率性と忠実性は、近年のニューラルイメージ表現と、多様な画像集合上の業界標準テクスチャ圧縮機に対して検証される。 特に、メモリと計算の要求は2Dガウス数にのみ依存し、線形にスケールし、視覚的忠実度と実行時の効率のトレードオフを柔軟に制御する。 この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。

Neural image representations have recently emerged as a promising technique for storing, streaming, and rendering visual data. Coupled with learning-based workflows, these novel representations have demonstrated remarkable visual fidelity and memory efficiency. However, existing neural image representations often rely on explicit uniform data structures without content adaptivity or computation-intensive implicit models, limiting their adoption in real-time graphics applications. Inspired by recent advances in radiance field rendering, we propose Image-GS, a content-adaptive image representation. Using anisotropic 2D Gaussians as the basis, Image-GS shows high memory efficiency, supports fast random access, and offers a natural level of detail stack. Leveraging a tailored differentiable renderer, Image-GS fits a target image by adaptively allocating and progressively optimizing a set of 2D Gaussians. The generalizable efficiency and fidelity of Image-GS are validated against several recent neural image representations and industry-standard texture compressors on a diverse set of images. Notably, its memory and computation requirements solely depend on and linearly scale with the number of 2D Gaussians, providing flexible controls over the trade-off between visual fidelity and run-time efficiency. We hope this research offers insights for developing new applications that require adaptive quality and resource control, such as machine perception, asset streaming, and content generation.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# Papanicolaou-stainのオート蛍光は、AIによる口腔癌検出を改善

Let it shine: Autofluorescence of Papanicolaou-stain improves AI-based cytological oral cancer detection ( http://arxiv.org/abs/2407.01869v1 )

ライセンス: Link先を確認
Wenyi Lian, Joakim Lindblad, Christina Runow Stark, Jan-Michaél Hirsch, Nataša Sladoje, (参考訳) 口腔がんは世界的な健康問題である。 早期に検出すると治療できるが、後期には致命的になることが多い。 非侵襲的なブラシ生検や細胞診に移行した。 信頼性の高いコンピュータ支援法は、コスト効率と正確な細胞学的解析に不可欠であるが、詳細な細胞レベルのアノテーションが欠如していることはモデルの有効性を損なう。 本研究は,マルチモーダルイメージングとディープフュージョンを用いた,AIによる口腔癌検出の改善を目的とする。 健常者およびがん患者から採取したブラシ生検の,パパニコラオ染色液性細胞診スライドを解析するために,光電場と蛍光全身顕微鏡を併用した。 細胞学的アノテーションが限られているため,患者レベルのラベルのみを用いて,弱い教師付き深層学習アプローチを採用する。 我々は, 早期・後期・最近の3つの中間核融合手法を含む, 様々な多モード核融合戦略を評価する。 私たちの結果は以下のとおりです。 イ)パパニコラオ染色試料の蛍光イメージングは、相当な診断情報を提供する。 (ii)マルチモーダル融合は単一モーダル法よりも分類と癌検出の精度を高める。 中間核融合は研究手法の第一の方法である。 具体的には、コ・アテンション・フュージョン・ネットワーク(CAFNet)モデルは、F1スコアが83.34%、精度が91.79%で、タスクにおける人間のパフォーマンスを上回っている。 追加テストでは、マルチモーダル分析の利点を最適化するために、正確な画像登録の必要性を強調している。 本研究は, 深層学習とマルチモーダルイメージングを併用し, 早期非侵襲的口腔癌の検出, 診断精度の向上, 臨床ワークフローの合理化による細胞病理学の進歩を図る。 開発されたパイプラインは他の細胞学的設定にも適用できる。 私たちのコードとデータセットは、さらなる研究のためにオンラインで利用可能です。

Oral cancer is a global health challenge. It is treatable if detected early, but it is often fatal in late stages. There is a shift from the invasive and time-consuming tissue sampling and histological examination, toward non-invasive brush biopsies and cytological examination. Reliable computer-assisted methods are essential for cost-effective and accurate cytological analysis, but the lack of detailed cell-level annotations impairs model effectiveness. This study aims to improve AI-based oral cancer detection using multimodal imaging and deep fusion. We combine brightfield and fluorescence whole slide microscopy imaging to analyze Papanicolaou-stained liquid-based cytology slides of brush biopsies collected from both healthy and cancer patients. Due to limited cytological annotations, we utilize a weakly supervised deep learning approach using only patient-level labels. We evaluate various multimodal fusion strategies, including early, late, and three recent intermediate fusion methods. Our results show: (i) fluorescence imaging of Papanicolaou-stained samples provides substantial diagnostic information; (ii) multimodal fusion enhances classification and cancer detection accuracy over single-modality methods. Intermediate fusion is the leading method among the studied approaches. Specifically, the Co-Attention Fusion Network (CAFNet) model excels with an F1 score of 83.34% and accuracy of 91.79%, surpassing human performance on the task. Additional tests highlight the need for precise image registration to optimize multimodal analysis benefits. This study advances cytopathology by combining deep learning and multimodal imaging to enhance early, non-invasive detection of oral cancer, improving diagnostic accuracy and streamlining clinical workflows. The developed pipeline is also applicable in other cytological settings. Our codes and dataset are available online for further research.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# 原子ビデオ行動認識の参照

Referring Atomic Video Action Recognition ( http://arxiv.org/abs/2407.01872v1 )

ライセンス: Link先を確認
Kunyu Peng, Jia Fu, Kailun Yang, Di Wen, Yufan Chen, Ruiping Liu, Junwei Zheng, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg, (参考訳) 我々は,その人物のテキスト記述と映像データに基づいて,特定の人物の原子的行動を特定することを目的とした,RAVAR(Referring Atomic Video Action Recognition)というタスクを導入する。 このタスクは、従来の行動認識とローカライゼーションとは異なり、現在のすべての個人に対して予測が配信される。 対照的に、テキストで導かれる特定の個人の正しい原子行動を認識することに焦点をあてる。 このタスクを探索するために、個人を手動で注釈付きで記述した36,630のインスタンスを含むRefAVAデータセットを提示する。 強力な初期ベンチマークを確立するため,アトミックアクションローカライゼーション,ビデオ質問応答,テキストビデオ検索など,さまざまな領域のベースラインを実装し,検証する。 これらの既存手法がRAVARで実行されているため、RAVARの独特な課題に特化して、新たなクロスストリームアテンション駆動方式であるRefAtomNetを導入し、対象個人に対するテキスト参照表現を解釈し、この参照を利用して、空間的局所化を導出し、参照者に対する原子行動の予測を収集する。 主な要素は,(1)ビデオ,テキスト,新しい位置意味ストリームを接続するマルチストリームアーキテクチャ,(2)ストリーム間の最も関連性の高い情報を増幅するクロスストリームエージェントアテンションフュージョンとエージェントトークンフュージョンであり,RAVAR上の標準アテンションベースフュージョンを一貫して上回る。 広範囲にわたる実験は、記述された個人の行動を認識するためのRefAtomNetとそのビルディングブロックの有効性を実証している。 データセットとコードはhttps://github.com/KPeng9510/RAVARで公開される。

We introduce a new task called Referring Atomic Video Action Recognition (RAVAR), aimed at identifying atomic actions of a particular person based on a textual description and the video data of this person. This task differs from traditional action recognition and localization, where predictions are delivered for all present individuals. In contrast, we focus on recognizing the correct atomic action of a specific individual, guided by text. To explore this task, we present the RefAVA dataset, containing 36,630 instances with manually annotated textual descriptions of the individuals. To establish a strong initial benchmark, we implement and validate baselines from various domains, e.g., atomic action localization, video question answering, and text-video retrieval. Since these existing methods underperform on RAVAR, we introduce RefAtomNet -- a novel cross-stream attention-driven method specialized for the unique challenges of RAVAR: the need to interpret a textual referring expression for the targeted individual, utilize this reference to guide the spatial localization and harvest the prediction of the atomic actions for the referring person. The key ingredients are: (1) a multi-stream architecture that connects video, text, and a new location-semantic stream, and (2) cross-stream agent attention fusion and agent token fusion which amplify the most relevant information across these streams and consistently surpasses standard attention-based fusion on RAVAR. Extensive experiments demonstrate the effectiveness of RefAtomNet and its building blocks for recognizing the action of the described individual. The dataset and code will be made publicly available at https://github.com/KPeng9510/RAVAR.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# GPU-poorのための生成AI時代におけるテキストスコーリングの自動化

Automated Text Scoring in the Age of Generative AI for the GPU-poor ( http://arxiv.org/abs/2407.01873v1 )

ライセンス: Link先を確認
Christopher Michael Ormerod, Alexander Kwako, (参考訳) 自動テキストスコアリング(ATS)のためのジェネレーティブ言語モデル(GLM)に関する現在の研究は、アプリケーションプログラミングインタフェース(API)を介してプロプライエタリなモデルをクエリすることに集中しています。 しかし、このようなプラクティスは透明性とセキュリティに関する問題を引き起こし、これらの手法は効率性やカスタマイズ性にはほとんど影響を与えない。 近年、より小型のオープンソースモデルの普及に伴い、"GPU貧弱者"のために、控えめな、コンシューマグレードのハードウェアを備えたコンピュータでGLMを探索する選択肢がある。 本研究では,ATS 用オープンソース小型 GLM の性能と効率について検討した。 以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。 ATSに加えて、GLMにスコアの説明を促すことで、モデルがフィードバックを生成する能力を分析するための小さな一歩を踏み出した。 モデル生成によるフィードバックは、将来性を示しているが、ターゲットとするユースケースに焦点を当てた厳密な評価が必要である。

Current research on generative language models (GLMs) for automated text scoring (ATS) has focused almost exclusively on querying proprietary models via Application Programming Interfaces (APIs). Yet such practices raise issues around transparency and security, and these methods offer little in the way of efficiency or customizability. With the recent proliferation of smaller, open-source models, there is the option to explore GLMs with computers equipped with modest, consumer-grade hardware, that is, for the "GPU poor." In this study, we analyze the performance and efficiency of open-source, small-scale GLMs for ATS. Results show that GLMs can be fine-tuned to achieve adequate, though not state-of-the-art, performance. In addition to ATS, we take small steps towards analyzing models' capacity for generating feedback by prompting GLMs to explain their scores. Model-generated feedback shows promise, but requires more rigorous evaluation focused on targeted use cases.
翻訳日:2024-07-03 17:13:22 公開日:2024-07-02
# Spatio-Temporal Graphical Counterfactuals の概要

Spatio-Temporal Graphical Counterfactuals: An Overview ( http://arxiv.org/abs/2407.01875v1 )

ライセンス: Link先を確認
Mingyu Kang, Duxin Chen, Ziyuan Pu, Jianxi Gao, Wenwu Yu, (参考訳) 反現実的思考は、人工知能がデータから知識を学び、最終的には新しいシナリオのパフォーマンスを改善する上で、重要かつ難しいトピックである。 潜在的アウトカムモデルや構造因果モデルなど多くの研究が提案されている。 しかしながら、それらのモデリング、理論的基礎、応用アプローチは通常異なる。 さらに,複数単位間の空間的・時間的相互作用を考慮した時空間的反事実の推測には,グラフィカルなアプローチが欠如している。 そこで本研究では, 異なる反ファクトモデル, 理論, アプローチを比較検討し, さらに, 時空間の反ファクトを推定するための統一的なグラフィカル因果関係を構築することを目的とする。

Counterfactual thinking is a critical yet challenging topic for artificial intelligence to learn knowledge from data and ultimately improve their performances for new scenarios. Many research works, including Potential Outcome Model and Structural Causal Model, have been proposed to realize it. However, their modelings, theoretical foundations and application approaches are usually different. Moreover, there is a lack of graphical approach to infer spatio-temporal counterfactuals, that considers spatial and temporal interactions between multiple units. Thus, in this work, our aim is to investigate a survey to compare and discuss different counterfactual models, theories and approaches, and further build a unified graphical causal frameworks to infer the spatio-temporal counterfactuals.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 絶望を伴わない比較:世代分離性を考慮した信頼性の高い選好評価

Compare without Despair: Reliable Preference Evaluation with Generation Separability ( http://arxiv.org/abs/2407.01878v1 )

ライセンス: Link先を確認
Sayan Ghosh, Tejas Srinivasan, Swabha Swayamdipta, (参考訳) 一対の選好判断による生成言語の人間による評価は広範に行われている。 しかし、モデルペアから世代が非常に近い場合や、確率的復号化が世代の大きなバリエーションをもたらす場合など、一般的なシナリオでは、一貫性のない選好格付けが生じる。 テストインスタンスがペアの選好評価にどの程度適しているかを推定するメタ評価尺度であるセパビリティを導入することで、これらの課題に対処する。 候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。 実験の結果,高い分離性値を持つインスタンスは,人間と自動レーダの両方からより一貫した選好格付けが得られることがわかった。 さらに、分離可能性の分布は、モデルを比較する上でどのテストベンチマークがより価値があるかについての洞察を可能にする。 最後に、各テストインスタンスがLLMを確実にランク付けするのにどの程度適しているかを考慮し、分離性をELO評価に組み込む。 全体として、分離性は、人間とオートレーダの両方によるLCMの一貫性、効率的、堅牢な選好評価に影響を及ぼす。

Human evaluation of generated language through pairwise preference judgments is pervasive. However, under common scenarios, such as when generations from a model pair are very similar, or when stochastic decoding results in large variations in generations, it results in inconsistent preference ratings. We address these challenges by introducing a meta-evaluation measure, separability, which estimates how suitable a test instance is for pairwise preference evaluation. For a candidate test instance, separability samples multiple generations from a pair of models, and measures how distinguishable the two sets of generations are. Our experiments show that instances with high separability values yield more consistent preference ratings from both human- and auto-raters. Further, the distribution of separability allows insights into which test benchmarks are more valuable for comparing models. Finally, we incorporate separability into ELO ratings, accounting for how suitable each test instance might be for reliably ranking LLMs. Overall, separability has implications for consistent, efficient and robust preference evaluation of LLMs with both human- and auto-raters.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# EIT-1M:人間の視覚テキスト認識などのための100万個の脳波画像テキストペア

EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More ( http://arxiv.org/abs/2407.01884v1 )

ライセンス: Link先を確認
Xu Zheng, Ling Wang, Kanghao Chen, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang, (参考訳) 近年、脳波(EEG)信号は視覚的またはテキスト的刺激に脳活動をデコードし、マルチモーダルAIで物体認識を実現するために積極的に組み込まれている。 そのため、視覚的またはテキスト的な単一モーダル刺激からEEGベースのデータセットを構築することに注力してきた。 しかし、これらのデータセットは、カテゴリごとの脳波のエポックに制限を与え、参加者に提示される刺激の複雑な意味は、正確な脳活動の取得における品質と忠実さを損なう。 神経科学の研究は、脳波記録における視覚刺激とテキスト刺激の関係が、マルチモーダル情報を同時に処理し統合する脳の能力に関する貴重な洞察を与えることを明らかにした。 そこで我々は,100万以上のEEG-image-textペアを持つ,EIT-1Mという新しい大規模マルチモーダルデータセットを提案する。 我々のデータセットは、マルチモーダル情報の同時処理において、脳活動を反映する能力に優れている。 これを実現するために,60Kの自然画像とカテゴリー別テキストから視覚・テキスト刺激の交互配列を観察しながら,データペアを収集した。 一般的な意味カテゴリーは、参加者の脳からのより良い反応を引き出すためにも含まれる。 一方、データ多様性を保証するために、ブロックやセッション間の応答ベースの刺激タイミングと繰り返しが含まれる。 EIT-1Mの有効性を検証するため、さまざまなカテゴリや参加者のマルチモーダル刺激から収集した脳波データを、透明性のためのデータ品質スコアとともに詳細に分析する。 その妥当性を2つの課題に示す。 1【視覚的・テキスト的刺激の有無による脳波の認識】 2)脳波対視覚発生

Recently, electroencephalography (EEG) signals have been actively incorporated to decode brain activity to visual or textual stimuli and achieve object recognition in multi-modal AI. Accordingly, endeavors have been focused on building EEG-based datasets from visual or textual single-modal stimuli. However, these datasets offer limited EEG epochs per category, and the complex semantics of stimuli presented to participants compromise their quality and fidelity in capturing precise brain activity. The study in neuroscience unveils that the relationship between visual and textual stimulus in EEG recordings provides valuable insights into the brain's ability to process and integrate multi-modal information simultaneously. Inspired by this, we propose a novel large-scale multi-modal dataset, named EIT-1M, with over 1 million EEG-image-text pairs. Our dataset is superior in its capacity of reflecting brain activities in simultaneously processing multi-modal information. To achieve this, we collected data pairs while participants viewed alternating sequences of visual-textual stimuli from 60K natural images and category-specific texts. Common semantic categories are also included to elicit better reactions from participants' brains. Meanwhile, response-based stimulus timing and repetition across blocks and sessions are included to ensure data diversity. To verify the effectiveness of EIT-1M, we provide an in-depth analysis of EEG data captured from multi-modal stimuli across different categories and participants, along with data quality scores for transparency. We demonstrate its validity on two tasks: 1) EEG recognition from visual or textual stimuli or both and 2) EEG-to-visual generation.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 大規模言語モデルの知識蒸留に関する調査:方法,評価,応用

Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application ( http://arxiv.org/abs/2407.01885v1 )

ライセンス: Link先を確認
Chuanpeng Yang, Wang Lu, Yao Zhu, Yidong Wang, Qian Chen, Chenlong Gao, Bingjie Yan, Yiqiang Chen, (参考訳) 大規模言語モデル(LLM)は様々な領域で例外的な機能を示しており、学術と産業の両方から大きな関心を集めている。 優れた性能にもかかわらず、LLMのかなりのサイズと計算上の要求は、特に限られた資源を持つ環境での実践的な展開にかなりの困難をもたらす。 精度を維持しながら言語モデルを圧縮する努力は研究の焦点となっている。 様々な方法の中で、知識蒸留は、性能を著しく損なうことなく推論速度を向上する有効な手法として登場した。 本稿では, LLMに特化して開発された知識蒸留技術について, 方法, 評価, 適用の3つの側面から, 徹底的な調査を行った。 具体的には,これらの手法をWhite-box KDとBlack-box KDに分割し,それらの相違点をよりよく説明する。 さらに, 蒸留方法の違いによる評価課題と蒸留効果についても検討し, 今後の研究の方向性について検討した。 最新の進歩と実践的応用の深い理解を通じて、この調査は研究者に貴重な資源を提供し、この分野における継続的な進歩の道を開く。

Large Language Models (LLMs) have showcased exceptional capabilities in various domains, attracting significant interest from both academia and industry. Despite their impressive performance, the substantial size and computational demands of LLMs pose considerable challenges for practical deployment, particularly in environments with limited resources. The endeavor to compress language models while maintaining their accuracy has become a focal point of research. Among the various methods, knowledge distillation has emerged as an effective technique to enhance inference speed without greatly compromising performance. This paper presents a thorough survey from three aspects: method, evaluation, and application, exploring knowledge distillation techniques tailored specifically for LLMs. Specifically, we divide the methods into white-box KD and black-box KD to better illustrate their differences. Furthermore, we also explored the evaluation tasks and distillation effects between different distillation methods, and proposed directions for future research. Through in-depth understanding of the latest advancements and practical applications, this survey provides valuable resources for researchers, paving the way for sustained progress in this field.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# グラフ適応とスケーラビリティ学習のためのコア知識学習フレームワーク

Core Knowledge Learning Framework for Graph Adaptation and Scalability Learning ( http://arxiv.org/abs/2407.01886v1 )

ライセンス: Link先を確認
Bowen Zhang, Zhichao Huang, Genan Dai, Guangning Xu, Xiaomao Fan, Hu Huang, (参考訳) グラフ分類は、特にグラフベースのデータ領域における機械学習における重要な課題であり、ソーシャルネットワーク分析、レコメンデーションシステム、バイオインフォマティクスといった多くの現実世界のアプリケーションにおいて重要である。 その重要性にもかかわらず、グラフ分類は、多様な予測タスクへの適応、複数のターゲットドメイン間のトレーニング、小さなサンプル予測シナリオの処理など、いくつかのハードルに直面している。 現在の手法は、しばしば個別にこれらの課題に取り組み、全体的問題に対する全体論的アプローチを欠いた断片化されたソリューションに繋がる。 本稿では,上記の課題に対処するアルゴリズムを提案する。 本手法は,様々なタスクからの洞察を取り入れることで,グラフ分類における適応性,拡張性,一般化性を向上させることを目的とする。 基礎となる部分グラフがGNN予測において重要な役割を担っていると認識され、残りはタスク非関連である一方で、グラフ適応と拡張性学習のためのコア知識学習(\method{})フレームワークを導入している。 \method{}は、コアサブグラフ知識サブモジュール、グラフドメイン適応モジュール、下流タスクのための数ショット学習モジュールなど、いくつかの重要なモジュールから構成されている。 各モジュールは、ドメインシフト、ラベルの不整合、データの不足など、グラフ分類における特定の課題に取り組むように調整されている。 グラフ全体の中核部分グラフを学習することにより、タスク関連性に関する最も適切な機能に焦点を当てる。 その結果、モデル性能の向上、ドメイン適応性の向上、ドメインの変動に対する堅牢性の向上といった利点が得られた。 実験の結果, 最先端手法と比較して, 提案手法による性能向上が顕著であった。

Graph classification is a pivotal challenge in machine learning, especially within the realm of graph-based data, given its importance in numerous real-world applications such as social network analysis, recommendation systems, and bioinformatics. Despite its significance, graph classification faces several hurdles, including adapting to diverse prediction tasks, training across multiple target domains, and handling small-sample prediction scenarios. Current methods often tackle these challenges individually, leading to fragmented solutions that lack a holistic approach to the overarching problem. In this paper, we propose an algorithm aimed at addressing the aforementioned challenges. By incorporating insights from various types of tasks, our method aims to enhance adaptability, scalability, and generalizability in graph classification. Motivated by the recognition that the underlying subgraph plays a crucial role in GNN prediction, while the remainder is task-irrelevant, we introduce the Core Knowledge Learning (\method{}) framework for graph adaptation and scalability learning. \method{} comprises several key modules, including the core subgraph knowledge submodule, graph domain adaptation module, and few-shot learning module for downstream tasks. Each module is tailored to tackle specific challenges in graph classification, such as domain shift, label inconsistencies, and data scarcity. By learning the core subgraph of the entire graph, we focus on the most pertinent features for task relevance. Consequently, our method offers benefits such as improved model performance, increased domain adaptability, and enhanced robustness to domain variations. Experimental results demonstrate significant performance enhancements achieved by our method compared to state-of-the-art approaches.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# Beyond Numeric Awards: LLMエージェントによるインコンテキストデュエリングバンド

Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents ( http://arxiv.org/abs/2407.01887v1 )

ライセンス: Link先を確認
Fanzeng Xia, Hao Liu, Yisong Yue, Tongxin Li, (参考訳) インコンテキスト意思決定は,多言語モデル(LLM)が様々なシナリオで効果的に実証した,汎用人工知能の重要な能力である。 しかし、LLMは数値的な文脈を扱う際に問題に直面することが多く、環境によって生成される好みのフィードバックを通じて性能を評価することには注意が払われている。 本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLCMの性能について検討する。 GPT-3.5-Turbo, GPT-4, GPT-4-Turboを既存のDBアルゴリズムと比較し, LLMの性能評価を行った。 以上の結果から,LPM,特にGPT-4 Turboはコンドルセットの勝者を迅速に同定し,現状のアルゴリズムよりも弱い後悔度で優れた結果を得た。 それでも、LSMは明示的にそうするように指示しても収束に苦慮し、変化を促すのに敏感である。 これらの問題を克服するために,従来のDBアルゴリズムから継承した理論的保証と,LLMの文脈内決定能力の両面を活かしたIF-Enhanced LLMアルゴリズムを導入する。 このようなアルゴリズムの設計は、性能の堅牢性が重要な意思決定タスクに使用されるLCMの信頼性を高める方法に光を当てている。 IF強化LDMは, 弱い後悔と強い後悔の両方に対して理論的に保証されていることを示す。 IF強化LDMは雑音や逆方向のプロンプトでも頑健であることを確認した。

In-context decision-making is an important capability of artificial general intelligence, which Large Language Models (LLMs) have effectively demonstrated in various scenarios. However, LLMs often face challenges when dealing with numerical contexts, and limited attention has been paid to evaluating their performance through preference feedback generated by the environment. This paper investigates the performance of LLMs as decision-makers in the context of Dueling Bandits (DB). We first evaluate the performance of LLMs by comparing GPT-3.5-Turbo, GPT-4, and GPT-4-Turbo against established DB algorithms. Our results reveal that LLMs, particularly GPT-4 Turbo, quickly identify the Condorcet winner, thus outperforming existing state-of-the-art algorithms in terms of weak regret. Nevertheless, LLMs struggle to converge even when explicitly prompted to do so, and are sensitive to prompt variations. To overcome these issues, we introduce an LLM-augmented algorithm, IF-Enhanced LLM, which takes advantage of both in-context decision-making capabilities of LLMs and theoretical guarantees inherited from classic DB algorithms. The design of such an algorithm sheds light on how to enhance trustworthiness for LLMs used in decision-making tasks where performance robustness matters. We show that IF-Enhanced LLM has theoretical guarantees on both weak and strong regret. Our experimental results validate that IF-Enhanced LLM is robust even with noisy and adversarial prompts.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# PO-MSCKF:pose-only理論を用いた多状態制約カルマンフィルタ再構成による高能率視覚慣性オドメトリー

PO-MSCKF: An Efficient Visual-Inertial Odometry by Reconstructing the Multi-State Constrained Kalman Filter with the Pose-only Theory ( http://arxiv.org/abs/2407.01888v1 )

ライセンス: Link先を確認
Du Xueyu, Zhang Lilian, Liu Ruochen, Wang Maosong, Wu Wenqi, Mao Jun, (参考訳) ペイロード制約ロボットには視覚慣性オドメトリー(VIO)が不可欠である。 現代の最適化に基づくアルゴリズムは精度が優れているが、MSCKFベースのVIOアルゴリズムは効率的で一貫した性能を要求されている。 MSCKFは従来の多視点幾何に基づいて構築されているため、測定された残差は状態誤差だけでなく、特徴位置誤差にも関係している。 EKF融合を適用するには、観測モデルから特徴位置誤差を除去するプロジェクションプロセスが必要であり、モデルと精度の低下につながる可能性がある。 モデル一貫性を保ちながら効率的な視覚-慣性融合モデルを得るため,新しいpose-Only (PO)マルチビュー幾何記述を用いてMSCKF VIOを再構成することを提案する。 新たに構築したフィルタでは,PO再射残差をモデル化し,運動状態にのみ関連し,空間射影の要求を克服した。 さらに,新しいフィルタは特徴位置情報を一切必要とせず,3次元再構成手順による計算コストと線形化誤差を除去する。 提案手法は,複数のデータセットに対して総合的な実験を行い,精度の向上と課題列における一貫した性能を示す。

Efficient Visual-Inertial Odometry (VIO) is crucial for payload-constrained robots. Though modern optimization-based algorithms have achieved superior accuracy, the MSCKF-based VIO algorithms are still widely demanded for their efficient and consistent performance. As MSCKF is built upon the conventional multi-view geometry, the measured residuals are not only related to the state errors but also related to the feature position errors. To apply EKF fusion, a projection process is required to remove the feature position error from the observation model, which can lead to model and accuracy degradation. To obtain an efficient visual-inertial fusion model, while also preserving the model consistency, we propose to reconstruct the MSCKF VIO with the novel Pose-Only (PO) multi-view geometry description. In the newly constructed filter, we have modeled PO reprojection residuals, which are solely related to the motion states and thus overcome the requirements of space projection. Moreover, the new filter does not require any feature position information, which removes the computational cost and linearization errors brought in by the 3D reconstruction procedure. We have conducted comprehensive experiments on multiple datasets, where the proposed method has shown accuracy improvements and consistent performance in challenging sequences.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# GRASP:コモンセンス空間推論を評価するためのグリッドベースのベンチマーク

GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning ( http://arxiv.org/abs/2407.01892v1 )

ライセンス: Link先を確認
Zhisheng Tang, Mayank Kejriwal, (参考訳) 空間的推論は、人間の認識の重要な学部であり、多くの実践的応用があるが、純粋に言語に基づくものではなく、(最適ではなく)ソリューションを満たすためには、ある程度の計画段階を必要とする、中核的なコモンセンススキルの1つである。 既存のCSR(Commonsense Space Reasoning)のベンチマークでは、LLMの計画を直接評価するのではなく、LLM(Large Language Models)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。 本稿では,エージェントがエネルギー収集問題に対処する16,000のグリッド環境からなる,$\textbf{GRASP}$という大規模ベンチマークを構築した。 これらの環境には、160の異なるグリッド設定のそれぞれを使用してインスタンス化された100のグリッドインスタンスが含まれており、5つの異なるエネルギー分布、2つのエージェント開始位置、2つの異なる障害設定、および3種類のエージェント制約を含んでいる。 GPT-3.5-Turbo や GPT-4o といった高度な LLM と比較した。 実験結果から, これらの先進LLMでさえ, 常に満足な解を達成できないことが示唆された。

Spatial reasoning, an important faculty of human cognition with many practical applications, is one of the core commonsense skills that is not purely language-based and, for satisfying (as opposed to optimal) solutions, requires some minimum degree of planning. Existing benchmarks of Commonsense Spatial Reasoning (CSR) tend to evaluate how Large Language Models (LLMs) interpret text-based spatial descriptions rather than directly evaluate a plan produced by the LLM in response to a spatial reasoning scenario. In this paper, we construct a large-scale benchmark called $\textbf{GRASP}$, which consists of 16,000 grid-based environments where the agent is tasked with an energy collection problem. These environments include 100 grid instances instantiated using each of the 160 different grid settings, involving five different energy distributions, two modes of agent starting position, and two distinct obstacle configurations, as well as three kinds of agent constraints. Using GRASP, we compare classic baseline approaches, such as random walk and greedy search methods, with advanced LLMs like GPT-3.5-Turbo and GPT-4o. The experimental results indicate that even these advanced LLMs struggle to consistently achieve satisfactory solutions.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 脳-ye-Computerを用いたDimオブジェクト検出のための適応的モダリティバランスオンライン知識蒸留法

Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection ( http://arxiv.org/abs/2407.01894v1 )

ライセンス: Link先を確認
Zixing Li, Chao Yan, Zhen Lan, Dengqing Tang, Xiaojia Xiang, Han Zhou, Jun Lai, (参考訳) 高度な認知は、脳とコンピュータのインタフェースを用いてヒトの脳から抽出することができる。 これらのインターフェースを効率的な特徴抽出能力を持つコンピュータビジョン技術と統合することで、より堅牢で正確な航空機画像のターゲット検出を実現することができる。 しかし、既存のターゲット検出手法は主に同種データに焦点を合わせ、異種マルチモーダルデータに対する効率的で汎用的な処理能力に欠ける。 本稿では,まず,数発の撮影条件下での空中画像のための脳-眼-コンピュータによる物体検出システムを構築する。 本システムは,脳波における事象関連電位(ERP)信号を,視線追跡に基づくスローシリアル視覚提示(ESSVP)パラダイムを用いて検出し,眼球運動データと組み合わせて脳波画像データを構築する。 適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。 AMBOKDはマルチヘッドアテンションモジュールを使用して脳波と画像特徴を融合させ、包括的な機能を備えた新しいモダリティを確立する。 融合モダリティの性能と堅牢性を高めるため、エンド・ツー・エンドのオンライン知識蒸留により、モダリティ間の同時学習と相互学習が可能となる。 学習過程において, 重要度の重み付けを動的に調整し, 多モード平衡を確保するために, 適応的モダリティバランスモジュールを提案する。 本手法の有効性と優位性は,既存の最先端手法と比較することによって実証した。 さらに、実際のシナリオにおける公開データセットとシステム検証実験により、提案システムと設計手法の信頼性と実用性を示す。

Advanced cognition can be extracted from the human brain using brain-computer interfaces. Integrating these interfaces with computer vision techniques, which possess efficient feature extraction capabilities, can achieve more robust and accurate detection of dim targets in aerial images. However, existing target detection methods primarily concentrate on homogeneous data, lacking efficient and versatile processing capabilities for heterogeneous multimodal data. In this paper, we first build a brain-eye-computer based object detection system for aerial images under few-shot conditions. This system detects suspicious targets using region proposal networks, evokes the event-related potential (ERP) signal in electroencephalogram (EEG) through the eye-tracking-based slow serial visual presentation (ESSVP) paradigm, and constructs the EEG-image data pairs with eye movement data. Then, an adaptive modality balanced online knowledge distillation (AMBOKD) method is proposed to recognize dim objects with the EEG-image data. AMBOKD fuses EEG and image features using a multi-head attention module, establishing a new modality with comprehensive features. To enhance the performance and robust capability of the fusion modality, simultaneous training and mutual learning between modalities are enabled by end-to-end online knowledge distillation. During the learning process, an adaptive modality balancing module is proposed to ensure multimodal equilibrium by dynamically adjusting the weights of the importance and the training gradients across various modalities. The effectiveness and superiority of our method are demonstrated by comparing it with existing state-of-the-art methods. Additionally, experiments conducted on public datasets and system validations in real-world scenarios demonstrate the reliability and practicality of the proposed system and the designed method.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# LogEval: ログ分析における大規模言語モデルのための総合ベンチマークスイート

LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis ( http://arxiv.org/abs/2407.01896v1 )

ライセンス: Link先を確認
Tianyu Cui, Shiyu Ma, Ziang Chen, Tong Xiao, Shimin Tao, Yilun Liu, Shenglin Zhang, Duoming Lin, Changchang Liu, Yuzhe Cai, Weibin Meng, Yongqian Sun, Dan Pei, (参考訳) ログ分析は、特にAIOps(AIOps)の分野において、情報システムの秩序的で安定した運用を保証するために不可欠である。 大規模言語モデル(LLM)は自然言語処理タスクにおいて大きな可能性を証明している。 AIOpsドメインでは、異常検出、障害の根本原因分析、運用とメンテナンススクリプト生成、アラート情報の要約といったタスクに優れています。 しかし、ログ解析タスクにおける現在のLLMの性能は依然として不十分である。 このギャップに対処するために,様々なログ解析タスクにおけるLLMの機能を評価するために設計された総合ベンチマークスイートであるLogEvalを紹介した。 このベンチマークでは、ログ解析、ログ異常検出、ログ障害診断、ログ要約などのタスクをカバーしている。 LogEvalは4000の公開ログデータエントリを使用して各タスクを評価し、各タスクに対して15の異なるプロンプトを使用して、徹底的で公正な評価を保証する。 先行するLLMを厳格に評価することにより,LLM技術がログ解析性能に与える影響を実演し,自己整合性や少数の文脈学習といった側面に注目した。 また、モデル定量化、中国語-英語質問応答評価、素早い工学に関する知見についても論じる。 これらの知見は多言語環境におけるLLMの強みと弱み、および異なるプロンプト戦略の有効性について考察する。 ログ解析におけるLLMの性能を正確に測定し,総合的な評価を確実にするために,様々な評価手法が用いられている。 LogEvalsの評価から得られた洞察は、ログ分析タスクにおけるLLMの長所と短所を明らかにし、研究者や実践者にとって貴重なガイダンスを提供する。

Log analysis is crucial for ensuring the orderly and stable operation of information systems, particularly in the field of Artificial Intelligence for IT Operations (AIOps). Large Language Models (LLMs) have demonstrated significant potential in natural language processing tasks. In the AIOps domain, they excel in tasks such as anomaly detection, root cause analysis of faults, operations and maintenance script generation, and alert information summarization. However, the performance of current LLMs in log analysis tasks remains inadequately validated. To address this gap, we introduce LogEval, a comprehensive benchmark suite designed to evaluate the capabilities of LLMs in various log analysis tasks for the first time. This benchmark covers tasks such as log parsing, log anomaly detection, log fault diagnosis, and log summarization. LogEval evaluates each task using 4,000 publicly available log data entries and employs 15 different prompts for each task to ensure a thorough and fair assessment. By rigorously evaluating leading LLMs, we demonstrate the impact of various LLM technologies on log analysis performance, focusing on aspects such as self-consistency and few-shot contextual learning. We also discuss findings related to model quantification, Chinese-English question-answering evaluation, and prompt engineering. These findings provide insights into the strengths and weaknesses of LLMs in multilingual environments and the effectiveness of different prompt strategies. Various evaluation methods are employed for different tasks to accurately measure the performance of LLMs in log analysis, ensuring a comprehensive assessment. The insights gained from LogEvals evaluation reveal the strengths and limitations of LLMs in log analysis tasks, providing valuable guidance for researchers and practitioners.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 第2回SciCAPコンペティション2024開催報告

Proposal Report for the 2nd SciCAP Competition 2024 ( http://arxiv.org/abs/2407.01897v1 )

ライセンス: Link先を確認
Pengpeng Li, Tingmin Li, Jingyuan Wang, Boyuan Wang, Yang Yang, (参考訳) 本稿では,補助情報を用いた文書要約手法を提案する。 このアプローチは、長文内の特定の画像、表、付録に関する記述を効果的に要約する。 本実験は,高品質なOCRデータとオリジナルテキストから抽出した情報を有効利用することにより,記述対象に関するコンテンツを効率的に要約できることを実証する。 これらの結果に基づき,要約性能を向上させるために補助的分岐を付加することにより,人気テキスト生成モデルを改良した。 両カテゴリーで上位となった2024年のSciCAPコンペティションにおいて,長字幕と短字幕で4.33点,短字幕で4.66点を達成した。

In this paper, we propose a method for document summarization using auxiliary information. This approach effectively summarizes descriptions related to specific images, tables, and appendices within lengthy texts. Our experiments demonstrate that leveraging high-quality OCR data and initially extracted information from the original text enables efficient summarization of the content related to described objects. Based on these findings, we enhanced popular text generation model models by incorporating additional auxiliary branches to improve summarization performance. Our method achieved top scores of 4.33 and 4.66 in the long caption and short caption tracks, respectively, of the 2024 SciCAP competition, ranking highest in both categories.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# DRTのためのスコープ強化合成セマンティックパーシング

Scope-enhanced Compositional Semantic Parsing for DRT ( http://arxiv.org/abs/2407.01899v1 )

ライセンス: Link先を確認
Xiulin Yang, Jonas Groschwitz, Alexander Koller, Johan Bos, (参考訳) 談話表現理論(DRT)は、構造的なネストや変数結合を通じて複雑な意味論や談話現象をモデル化する能力によって、他の意味表現フレームワークと区別する。 Seq2seqモデルはDRT解析の最先端を保っているが、その正確さは文の複雑さによって低下し、よく形成されたDRT表現を生成するのに苦労することがある。 本稿では,DRTのための合成・ニューロシンボリック・セマンティック・パーサーであるAMSパーサーを紹介する。 それは量化器のスコープを予測するための新しいメカニズムに依存している。 本稿では, AMSパーサが良好な出力を確実に生成し, DRTパーサ, 特に複雑な文に対して良好に動作することを示す。

Discourse Representation Theory (DRT) distinguishes itself from other semantic representation frameworks by its ability to model complex semantic and discourse phenomena through structural nesting and variable binding. While seq2seq models hold the state of the art on DRT parsing, their accuracy degrades with the complexity of the sentence, and they sometimes struggle to produce well-formed DRT representations. We introduce the AMS parser, a compositional, neurosymbolic semantic parser for DRT. It rests on a novel mechanism for predicting quantifier scope. We show that the AMS parser reliably produces well-formed outputs and performs well on DRT parsing, especially on complex sentences.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# SoP: 自動脱獄攻撃で社会的ファシリテーションの力を解き放つ

SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack ( http://arxiv.org/abs/2407.01902v1 )

ライセンス: Link先を確認
Yan Yang, Zeguan Xiao, Xin Lu, Hongru Wang, Hailiang Huang, Guanhua Chen, Yun Chen, (参考訳) 大規模言語モデル(LLM)の広範な応用は、その潜在的な誤用に関する懸念を引き起こしている。 リリース前の人間の嗜好データと一致しているが、LSMは様々な悪意のある攻撃に対して脆弱である。 本稿では,LDMの安全性を高めるためのレッドチーム戦略を採用し,Jailbreakプロンプトを自動設計するためのシンプルで効果的なフレームワークであるSoPを導入する。 社会的ファシリテーションの概念にインスパイアされたSoPは、ターゲットLLMのガードレールをバイパスするために複数のジェイルブレイク文字を生成し、最適化する。 人間の専門知識によって作られた独自のLLMやシードジェイルブレイクテンプレートに依存する以前の作業とは異なり、SoPはシードジェイルブレイクテンプレートを使わずにオープンソースのLLMを使用して、コールドスタートシナリオでジェイルブレイクプロンプトを生成し、最適化することができる。 その結果, GPT-3.5-1106 と GPT-4 の安全アライメントを回避し, 攻撃成功率88%, 60%を達成できた。 さらに、異なるLSM間で生成されたテンプレートの転送可能性や悪意のある要求を抑えるとともに、SoPが設計したジェイルブレイク攻撃に対する防御戦略についても検討した。 コードはhttps://github.com/Yang-Yan-Yan-Yan/SoP.comで入手できる。

The widespread applications of large language models (LLMs) have brought about concerns regarding their potential misuse. Although aligned with human preference data before release, LLMs remain vulnerable to various malicious attacks. In this paper, we adopt a red-teaming strategy to enhance LLM safety and introduce SoP, a simple yet effective framework to design jailbreak prompts automatically. Inspired by the social facilitation concept, SoP generates and optimizes multiple jailbreak characters to bypass the guardrails of the target LLM. Different from previous work which relies on proprietary LLMs or seed jailbreak templates crafted by human expertise, SoP can generate and optimize the jailbreak prompt in a cold-start scenario using open-sourced LLMs without any seed jailbreak templates. Experimental results show that SoP achieves attack success rates of 88% and 60% in bypassing the safety alignment of GPT-3.5-1106 and GPT-4, respectively. Furthermore, we extensively evaluate the transferability of the generated templates across different LLMs and held-out malicious requests, while also exploring defense strategies against the jailbreak attack designed by SoP. Code is available at https://github.com/Yang-Yan-Yang-Yan/SoP.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 政策学習のためのテキスト認識拡散

Text-Aware Diffusion for Policy Learning ( http://arxiv.org/abs/2407.01903v1 )

ライセンス: Link先を確認
Calvin Luo, Mandy He, Zilai Zeng, Chen Sun, (参考訳) 特定の目標を達成するためにエージェントを訓練したり、望ましい行動を行うために、特に専門家のデモンストレーションが欠如している場合、強化学習によってしばしば達成される。 しかし、強化学習によって新しい目標や行動を支援するには、適切な報酬関数のアドホックな設計が必要であり、それはすぐに難解になる。 この課題に対処するため,本研究では,事前学習された凍結されたテキスト条件付き拡散モデルを用いて,高密度ゼロショット報酬信号をテキスト整合ポリシー学習のために計算する,TADPoLe(Text-Aware Diffusion for Policy Learning)を提案する。 大規模な事前学習型生成モデルは、テキスト整合性だけでなく、インターネット規模の学習データから要約した自然性の概念に則って行動する政策を監督できるような、豊富な事前学習を符号化する。 実験では,Humanoid と Dog の両環境において,TADPoLe が,自然言語によって規定される新たな目標達成と連続的な移動行動のポリシーを学習できることを実証した。 行動はゼロショットで学習され、基礎的な報酬や専門家によるデモンストレーションは行われず、人間の評価により質的にも自然である。 さらに,メタワールド環境におけるロボット操作タスクに適用した場合,TADPoLeが競争力を発揮することを示す。

Training an agent to achieve particular goals or perform desired behaviors is often accomplished through reinforcement learning, especially in the absence of expert demonstrations. However, supporting novel goals or behaviors through reinforcement learning requires the ad-hoc design of appropriate reward functions, which quickly becomes intractable. To address this challenge, we propose Text-Aware Diffusion for Policy Learning (TADPoLe), which uses a pretrained, frozen text-conditioned diffusion model to compute dense zero-shot reward signals for text-aligned policy learning. We hypothesize that large-scale pretrained generative models encode rich priors that can supervise a policy to behave not only in a text-aligned manner, but also in alignment with a notion of naturalness summarized from internet-scale training data. In our experiments, we demonstrate that TADPoLe is able to learn policies for novel goal-achievement and continuous locomotion behaviors specified by natural language, in both Humanoid and Dog environments. The behaviors are learned zero-shot without ground-truth rewards or expert demonstrations, and are qualitatively more natural according to human evaluation. We further show that TADPoLe performs competitively when applied to robotic manipulation tasks in the Meta-World environment.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# 二重条件付き拡散リファインメントによる複数クラス異常検出の強化

Enhancing Multi-Class Anomaly Detection via Diffusion Refinement with Dual Conditioning ( http://arxiv.org/abs/2407.01905v1 )

ライセンス: Link先を確認
Jiawei Zhan, Jinxiang Lai, Bin-Bin Gao, Jun Liu, Xiaochen Chen, Chengjie Wang, (参考訳) 正常サンプルのみを用いて異常サンプルを同定する手法である異常検出は、業界で広く関心を集めている。 既存の1モデル毎カテゴリの手法は、単一のカテゴリにフォーカスするため、限定的な一般化能力に苦しむことが多く、製品のバリエーションに遭遇しても失敗することがある。 近年の1モデルオールカテゴリ方式の特徴再構築手法は, 異常サンプルの再構成やぼやけた再構築といった課題に直面している。 本稿では,多クラス異常検出のための拡散モデルと変圧器を創造的に組み合わせる。 この手法は拡散を利用して精製のための高周波情報を取得し、逆拡散過程のサンプリング効率を維持しながら、ぼやけた再構成問題を大幅に軽減する。 タスクは画像に変化し、入力と出力の相関関係を切断し、"同一のショートカット"問題を緩和し、モデルが異常なサンプルを再構成しないようにする。 さらに、二重条件付きカテゴリー認識を導入し、逆拡散過程における予測と再構成の精度を確保し、対象カテゴリからの過度なずれを防止し、マルチクラス異常検出を効果的に実現する。 さらに、時空間融合は、異なる時間ステップとスケールで予測されるヒートマップを融合させ、マルチクラスの異常検出の性能を高めるためにも用いられる。 ベンチマークデータセットに対する広範囲な実験により,提案手法の優れた性能と例外的な多クラス異常検出能力が他の手法と比較して実証された。

Anomaly detection, the technique of identifying abnormal samples using only normal samples, has attracted widespread interest in industry. Existing one-model-per-category methods often struggle with limited generalization capabilities due to their focus on a single category, and can fail when encountering variations in product. Recent feature reconstruction methods, as representatives in one-model-all-categories schemes, face challenges including reconstructing anomalous samples and blurry reconstructions. In this paper, we creatively combine a diffusion model and a transformer for multi-class anomaly detection. This approach leverages diffusion to obtain high-frequency information for refinement, greatly alleviating the blurry reconstruction problem while maintaining the sampling efficiency of the reverse diffusion process. The task is transformed into image inpainting to disconnect the input-output correlation, thereby mitigating the "identical shortcuts" problem and avoiding the model from reconstructing anomalous samples. Besides, we introduce category-awareness using dual conditioning to ensure the accuracy of prediction and reconstruction in the reverse diffusion process, preventing excessive deviation from the target category, thus effectively enabling multi-class anomaly detection. Futhermore, Spatio-temporal fusion is also employed to fuse heatmaps predicted at different timesteps and scales, enhancing the performance of multi-class anomaly detection. Extensive experiments on benchmark datasets demonstrate the superior performance and exceptional multi-class anomaly detection capabilities of our proposed method compared to others.
翻訳日:2024-07-03 17:03:34 公開日:2024-07-02
# エキスパートが最後に耐える: スパースアーキテクチャの大規模言語モデルのためのエキスパート特化ファインチューニング

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models ( http://arxiv.org/abs/2407.01906v1 )

ライセンス: Link先を確認
Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu, (参考訳) パラメータ効率のよい微調整(PEFT)は、制約のあるリソースでLLM(Large Language Models)をカスタマイズするために不可欠である。 密構造LLMには様々なPEFT法があるが、スパース構造LLMのPEFT法はまだ未検討である。 本研究では,LLMのPEFT法とMixture-of-Experts (MoE) アーキテクチャを併用して検討し,その内容が主に3倍であることを示す。 2) 他の専門家やモジュールを凍結させながら下流タスクに最も関係のある専門家をチューニングするエキスパート特化ファインチューニング(ESFT)を提案し,実験結果から,本手法はチューニング効率を向上するだけでなく,フルパラメータファインチューニングの性能に匹敵する,あるいは超越することを示した。 (3)MoEアーキテクチャが専門的な微調整に与える影響をさらに分析する。 よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択することで、トレーニング効率と効果の両立を図っている。

Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# ICCV 2023パーセプションテストチャレンジの解決 -- 第6タスク -- グラウンドド・ビデオQA

The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA ( http://arxiv.org/abs/2407.01907v1 )

ライセンス: Link先を確認
Hailiang Zhang, Dian Chao, Zhihao Guan, Yang Yang, (参考訳) 本稿では,地上ビデオ質問応答ソリューションを提案する。 本研究により,ビデオ質問応答のための固定されたベースライン法は,視覚的グラウンドと物体追跡の2つの主要なステップを含むことが明らかとなった。 しかし、選択されたフレームが明確に識別可能なターゲットオブジェクトを欠いている可能性がある最初のステップで重要な課題が現れる。 さらに、単一の画像は「最初に注ぐ容器をトラックする」といった問題に対処できない。 まず,VALORモデルを利用して,映像情報に基づく質問に答える手法を提案する。 2) 回答された質問をそれぞれの回答にまとめる。 最後に、ターゲットのバウンディングボックスを生成するためにTubeDETRを使用します。

In this paper, we introduce a grounded video question-answering solution. Our research reveals that the fixed official baseline method for video question answering involves two main steps: visual grounding and object tracking. However, a significant challenge emerges during the initial step, where selected frames may lack clearly identifiable target objects. Furthermore, single images cannot address questions like "Track the container from which the person pours the first time." To tackle this issue, we propose an alternative two-stage approach:(1) First, we leverage the VALOR model to answer questions based on video information.(2) concatenate the answered questions with their respective answers. Finally, we employ TubeDETR to generate bounding boxes for the targets.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# ボイドフィリングを用いたDEM超解の確率微分方程式

Efficient Stochastic Differential Equation for DEM Super Resolution with Void Filling ( http://arxiv.org/abs/2407.01908v1 )

ライセンス: Link先を確認
Tongtong Zhang, Zongcheng Zuo, Yuanxiang Li, (参考訳) DEM(Digital Elevation Model)はリモートセンシングやフォトグラム計測において基本的な役割を担う。 DEMの品質を高めることは、様々なアプリケーションにとって非常に重要です。 複数のタイプの欠陥が同じDEMに同時に現れることがあるが、それらは一般的に別々に扱われる。 既存のほとんどのアプローチは、DEMヴォイドを埋めるか、あるいは無傷のDEMに超解像を適用することだけを目的としている。 本稿では,2つの異なる測度を取らずに,ヴォイドと低分解能の問題を同時に扱う統一生成モデルを提案する。 提案手法はDEM品質向上のためのDEM確率微分方程式(DEM-SDE)を提案する。 ダウンサンプリングおよびランダムヴォイド付加のDEM劣化をSDEフォワードとしてモデル化し、対応する逆転過程をシミュレートして復元を行う。 DEM-SDEは、地形の特徴を前提として、軽量なチャネルアテンションを持つ効率的なサブモジュールを採用するとともに、DEMの品質をトレーニングの効率よく向上させる。 実験により,DEM-SDE法は,最先端技術と比較して,超解像と空隙の同時充填において高い競争性能を発揮することが示された。 DEM-SDEはより大きなDEMパッチに対して堅牢性を示す。

Digital Elevation Model (DEM) plays a fundamental role in remote sensing and photogrammetry. Enhancing the quality of DEM is crucial for various applications. Although multiple types of defects may appear simultaneously in the same DEM, they are commonly addressed separately. Most existing approaches only aim to fill the DEM voids, or apply super-resolution to the intact DEM. This paper introduces a unified generative model that simultaneously addresses voids and low-resolution problems, rather than taking two separate measures. The proposed approach presents the DEM Stochastic Differential Equation (DEM-SDE) for unified DEM quality enhancement. The DEM degradation of downsampling and random voids adding is modeled as the SDE forwarding, and the restoration is achieved by simulating the corresponding revert process. Conditioned on the terrain feature, and adopting efficient submodules with lightweight channel attention, DEM-SDE simultaneously enhances the DEM quality with an efficient process for training. The experiments show that DEM-SDE method achieves highly competitive performance in simultaneous super-resolution and void filling compared to the state-of-the-art work. DEM-SDE also manifests robustness for larger DEM patches.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 大規模言語モデルを用いた中国語音声認識における誤り訂正におけるピン正則化

Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models ( http://arxiv.org/abs/2407.01909v1 )

ライセンス: Link先を確認
Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang, (参考訳) 近年,自動音声認識(ASR)における誤り訂正における大規模言語モデル(LLM)の有効性が実証されている。 しかし、研究の多くは英語に焦点が当てられている。 この論文は、注意を中国語に向ける。 まず,中国ASRと724Kの仮説書き起こしペアによる誤り訂正を目的とした,多種多様なシナリオを含む中国語仮説パラダイスデータセット( Chinese hypotheses Paradise dataset, ChineseHP)を構築し,重要な課題を提示する。 その後,本データセットを用いて,直流・微調整型LLMの予備評価を行った。 さらに本論文では,テキスト仮説から直接Pinyinを転写することを含むプロンプトに対するPinyin正規化の簡単な方法を提案する。 実験結果から,Pinyin正則化は正規化のないものと比較してLLMの誤り訂正能力を一貫して向上させることがわかった。 データセットはWebサイトから入手可能だ。

Recent studies have demonstrated the efficacy of large language models (LLMs) in error correction for automatic speech recognition (ASR). However, much of the research focuses on the English language. This paper redirects the attention to Chinese. Firstly, we construct a specialized benchmark dataset aimed at error correction for Chinese ASR with 724K hypotheses-transcription pairs, named the Chinese Hypotheses Paradise dataset (ChineseHP), which contains a wide range of scenarios and presents significant challenges. Subsequently, we conduct a preliminary evaluation using the dataset for both direct-prompting and fine-tuning pre-trained LLMs. Furthermore, we propose a straightforward method of Pinyin regularization for prompts, which involves the transcription of Pinyin directly from text hypotheses. The experimental results reveal that Pinyin regularization consistently enhances the error-correcting ability of LLMs when compared with those without regularization. The dataset is available on the website.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# MG-Verilog:LLM支援ベリログ生成の強化を目指して

MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation ( http://arxiv.org/abs/2407.01910v1 )

ライセンス: Link先を確認
Yongan Zhang, Zhongzhi Yu, Yonggan Fu, Cheng Wan, Yingyan, Lin, (参考訳) 大規模言語モデル(LLM)は、ドメイン固有の膨大なデータをカプセル化することによって、ハードウェア設計プロセスの合理化を約束している。 さらに、自然言語命令を通じて設計プロセスと対話できるため、ハードウェア設計が開発者にとってより使いやすくなります。 しかし、ハードウェア設計においてLLMを効果的に活用するには、推論中にドメイン固有のデータ(例えば、コンテキスト内学習、微調整、事前学習)を提供する必要がある。 残念ながら、既存の公開ハードウェアデータセットはサイズ、複雑さ、詳細に制限されることが多く、ハードウェア設計タスクにおけるLLMの有効性を妨げている。 この問題に対処するために,我々はまず,LCM支援ハードウェア設計を効果的に強化できる高品質なハードウェアデータセットを作成するための基準セットを提案する。 これらの基準に基づき,様々な詳細レベルの記述と対応するコードサンプルを包含する多言語Verilog(MG-Verilog)データセットを提案する。 より広範なハードウェアデザインコミュニティに利益をもたらすため、特定のプロジェクトのニーズを満たすために、データセットのアクセス、統合、拡張を容易にするオープンソースのインフラストラクチャを開発しました。 さらに,複雑性と細部が異なるMG-Verilogデータセットの可能性を完全に活用するために,バランスの取れた微調整方式を導入する。 このスキームは、データセットが提供するさまざまな詳細レベルを活用するためのユニークなユースケースとして機能する。 大規模な実験により,提案したデータセットと微調整方式はハードウェア設計タスクにおけるLCMの性能を一貫して改善することが示された。

Large Language Models (LLMs) have recently shown promise in streamlining hardware design processes by encapsulating vast amounts of domain-specific data. In addition, they allow users to interact with the design processes through natural language instructions, thus making hardware design more accessible to developers. However, effectively leveraging LLMs in hardware design necessitates providing domain-specific data during inference (e.g., through in-context learning), fine-tuning, or pre-training. Unfortunately, existing publicly available hardware datasets are often limited in size, complexity, or detail, which hinders the effectiveness of LLMs in hardware design tasks. To address this issue, we first propose a set of criteria for creating high-quality hardware datasets that can effectively enhance LLM-assisted hardware design. Based on these criteria, we propose a Multi-Grained-Verilog (MG-Verilog) dataset, which encompasses descriptions at various levels of detail and corresponding code samples. To benefit the broader hardware design community, we have developed an open-source infrastructure that facilitates easy access, integration, and extension of the dataset to meet specific project needs. Furthermore, to fully exploit the potential of the MG-Verilog dataset, which varies in complexity and detail, we introduce a balanced fine-tuning scheme. This scheme serves as a unique use case to leverage the diverse levels of detail provided by the dataset. Extensive experiments demonstrate that the proposed dataset and fine-tuning scheme consistently improve the performance of LLMs in hardware design tasks.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 対話生成音声言語モデルにおける大規模擬似ステレオデータと異なる音声基礎モデルの効果の検討

Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model ( http://arxiv.org/abs/2407.01911v1 )

ライセンス: Link先を確認
Yu-Kuan Fu, Cheng-Kuang Lee, Hsiu-Hsuan Wang, Hung-yi Lee, (参考訳) 音声対話モデリングにおける最近の取り組みは、直接転写を必要とせずに音声対話を合成することを目的としており、それによって、音声に固有の非テキスト情報の豊富さを保っている。 しかし、これは話者が同時に話すときの課題であり、異なるチャンネルで録音された話者とのステレオ対話データを必要とする。 そこで我々は,シングルチャネル対話データを擬似ステレオデータに変換する革新的なパイプラインを開発した。 これにより、トレーニングデータセットをわずか2000時間から17,600時間に拡大し、利用可能なトレーニングサンプルの多様性と品質を大幅に向上しました。 この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。 さらに、音声対話生成に異なる音声基盤モデルの離散単位を用いる方法について検討した。

Recent efforts in Spoken Dialogue Modeling aim to synthesize spoken dialogue without the need for direct transcription, thereby preserving the wealth of non-textual information inherent in speech. However, this approach faces a challenge when speakers talk simultaneously, requiring stereo dialogue data with speakers recorded on separate channels, a notably scarce resource. To address this, we have developed an innovative pipeline capable of transforming single-channel dialogue data into pseudo-stereo data. This expanded our training dataset from a mere 2,000 to an impressive 17,600 hours, significantly enriching the diversity and quality of the training examples available. The inclusion of this pseudo-stereo data has proven to be effective in improving the performance of spoken dialogue language models. Additionally, we explored the use of discrete units of different speech foundation models for spoken dialogue generation.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# Jaynes-Cummings-like Modelを用いた放物型偏微分方程式のアナログ量子シミュレーション

Analog quantum simulation of parabolic partial differential equations using Jaynes-Cummings-like models ( http://arxiv.org/abs/2407.01913v1 )

ライセンス: Link先を確認
Shi Jin, Nana Liu, (参考訳) 本稿では,熱,ブラックスコール,フォッカー・プランク方程式を含む放物型偏微分方程式の解を埋め込んだ量子状態を作成するための簡易なアナログ量子シミュレーションプロトコルを提案する。 鍵となる考え方は、熱方程式を1次微分作用素のみを含む双曲型熱方程式系によって近似することである。 このスキームは、電気的および磁気的双極子モーメントのような相互作用項であるハミルトニアンにおいて比較的単純な相互作用項を必要とする。 d-次元問題に対して、1つのd-レベル量子系 (qudit) を用いる方がより適切であることを示す。 総資源コストはdと精度の誤差で効率的であり、例えば空洞や回路QEDシステムにおいて実現可能性を持つ。

We present a simplified analog quantum simulation protocol for preparing quantum states that embed solutions of parabolic partial differential equations, including the heat, Black-Scholes and Fokker-Planck equations. The key idea is to approximate the heat equations by a system of hyperbolic heat equations that involve only first-order differential operators. This scheme requires relatively simple interaction terms in the Hamiltonian, which are the electric and magnetic dipole moment-like interaction terms that would be present in a Jaynes-Cummings-like model. For a d-dimensional problem, we show that it is much more appropriate to use a single d-level quantum system - a qudit - instead of its qubit counterpart, and d+1 qumodes. The total resource cost is efficient in d and precision error, and has potential for realisability for instance in cavity and circuit QED systems.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# ランクアグリゲーションに対する逐次操作:理論とアルゴリズム

Sequential Manipulation Against Rank Aggregation: Theory and Algorithm ( http://arxiv.org/abs/2407.01916v1 )

ライセンス: Link先を確認
Ke Ma, Qianqian Xu, Jinshan Zeng, Wei Liu, Xiaochun Cao, Yingfei Sun, Qingming Huang, (参考訳) 相互比較によるランクアグリゲーションは、社会学、政治、経済学、心理学、スポーツなどにおいて広く見られる。 社会的影響とそれに伴うインセンティブを考えると、潜在的な敵はランクリストを操作する強い動機を持っている。 しかし、理想的な攻撃機会と過剰な敵の能力は、既存の手法を非現実的なものにする。 潜在的なリスクを十分に調査するために、脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。 ランクアグリゲーションとは独立しており、効果的な保護機構が欠如しているため、将来のデータや真の分布を知らずにペアワイズ比較を作成することにより、データ収集プロセスを妨害する。 ゲーム理論の観点からは、オンラインマニピュレータと原データソースの制御を行うランクラーとの対決シナリオを、知識の不確実性を扱う分布的に堅牢なゲームとして定式化する。 そして,ベルヌーイ法や貯水池法などのサンプリングアルゴリズムの脆弱性を分析することにより,上記のゲームにおける平衡が敵に有利であることを示す。 上記の理論解析によれば、ベイズ決定フレームワークとパラメトリック対比較モデルの大規模なクラスの下で、異なる逐次的操作ポリシーが提案されている。 完全な知識を持つ攻撃者に対しては,提案した方針の漸近的最適性を確立する。 不完全知識によるシーケンシャルな操作の成功率を高めるため、サドル点問題における最大推定を置き換える分布的に堅牢な推定器は、保守的なデータ生成ソリューションを提供する。 最後に,提案手法がランクアグリゲーション手法の結果を逐次的に操作することを示す。

Rank aggregation with pairwise comparisons is widely encountered in sociology, politics, economics, psychology, sports, etc . Given the enormous social impact and the consequent incentives, the potential adversary has a strong motivation to manipulate the ranking list. However, the ideal attack opportunity and the excessive adversarial capability cause the existing methods to be impractical. To fully explore the potential risks, we leverage an online attack on the vulnerable data collection process. Since it is independent of rank aggregation and lacks effective protection mechanisms, we disrupt the data collection process by fabricating pairwise comparisons without knowledge of the future data or the true distribution. From the game-theoretic perspective, the confrontation scenario between the online manipulator and the ranker who takes control of the original data source is formulated as a distributionally robust game that deals with the uncertainty of knowledge. Then we demonstrate that the equilibrium in the above game is potentially favorable to the adversary by analyzing the vulnerability of the sampling algorithms such as Bernoulli and reservoir methods. According to the above theoretical analysis, different sequential manipulation policies are proposed under a Bayesian decision framework and a large class of parametric pairwise comparison models. For attackers with complete knowledge, we establish the asymptotic optimality of the proposed policies. To increase the success rate of the sequential manipulation with incomplete knowledge, a distributionally robust estimator, which replaces the maximum likelihood estimation in a saddle point problem, provides a conservative data generation solution. Finally, the corroborating empirical evidence shows that the proposed method manipulates the results of rank aggregation methods in a sequential manner.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# モデルポジショニング攻撃に対する分散ネットワークディジタルツインシステムのセキュア化

Securing Distributed Network Digital Twin Systems Against Model Poisoning Attacks ( http://arxiv.org/abs/2407.01917v1 )

ライセンス: Link先を確認
Zifan Zhang, Minghong Fang, Mingzhe Chen, Gaolei Li, Xi Lin, Yuchen Liu, (参考訳) 5G以降の時代には、無線ネットワークの複雑さの増大は、効率的な管理とデプロイメントのための革新的なフレームワークを必要としている。 リアルタイム監視、予測構成、意思決定能力の向上を具現化したデジタルツイン(DT)は、この状況において有望なソリューションとして際立っている。 本研究では,無線トラフィック予測などのその後のネットワークアプリケーションの信頼性を損なう可能性がある分散ネットワークDTシステムにおけるセキュリティ上の課題について検討する。 具体的には、ネットワークデータやその他の専門知識にアクセスできないが、サーバレベルのモデルの以前のイテレーションと対話できるという点において、攻撃者全員にとって最小限の知識シナリオを考える。 この文脈では,無線トラフィック予測のための分散ネットワークDTシステムに侵入するために設計された,新たな偽のトラフィックインジェクション攻撃に注目する。 そこで我々は,グローバルローカル不整合検出(GLID)と呼ばれる防衛機構を提案し,様々なモデル中毒の脅威に対処する。 GLIDは、特定のパーセンタイル範囲を超えて逸脱する異常モデルパラメータを戦略的に除去し、ネットワークツインニングプロセスのセキュリティを強化する。 実世界の無線トラフィックデータセットに関する広範な実験を通じて、我々の攻撃戦略と防衛戦略が既存のベースラインを大幅に上回っており、5Gおよびネットワークシステム以上のDTの設計と実装におけるセキュリティ対策の重要性を強調した。

In the era of 5G and beyond, the increasing complexity of wireless networks necessitates innovative frameworks for efficient management and deployment. Digital twins (DTs), embodying real-time monitoring, predictive configurations, and enhanced decision-making capabilities, stand out as a promising solution in this context. Within a time-series data-driven framework that effectively maps wireless networks into digital counterparts, encapsulated by integrated vertical and horizontal twinning phases, this study investigates the security challenges in distributed network DT systems, which potentially undermine the reliability of subsequent network applications such as wireless traffic forecasting. Specifically, we consider a minimal-knowledge scenario for all attackers, in that they do not have access to network data and other specialized knowledge, yet can interact with previous iterations of server-level models. In this context, we spotlight a novel fake traffic injection attack designed to compromise a distributed network DT system for wireless traffic prediction. In response, we then propose a defense mechanism, termed global-local inconsistency detection (GLID), to counteract various model poisoning threats. GLID strategically removes abnormal model parameters that deviate beyond a particular percentile range, thereby fortifying the security of network twinning process. Through extensive experiments on real-world wireless traffic datasets, our experimental evaluations show that both our attack and defense strategies significantly outperform existing baselines, highlighting the importance of security measures in the design and implementation of DTs for 5G and beyond network systems.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 深層学習モデルにおけるメンバーシップ推論攻撃の一手法

A Method to Facilitate Membership Inference Attacks in Deep Learning Models ( http://arxiv.org/abs/2407.01919v1 )

ライセンス: Link先を確認
Zitao Chen, Karthik Pattabiraman, (参考訳) 現代の機械学習(ML)エコシステムは、MLモデルの開発を大幅に促進できる、多数のMLフレームワークとコードリポジトリを提供する。 現在、MLの専門家でない普通のデータ保有者でさえ、そのデータに基づいて高性能なMLモデルを構築するために、既製のコードベースを適用できる。 本研究では、データホルダにモデルトレーニングコードを提供し、トレーニングプロセスにアクセスできず、結果モデルにブラックボックスクエリアクセスしか持たない悪意のあるMLプロバイダについて検討する。 本稿では,従来の技術よりも厳格に強力な新たな会員推論攻撃を示す。 我々の攻撃は、敵がすべてのトレーニングサンプル(平均99%の攻撃TPR@0.1% FPR)を確実に識別することを可能にします。 さらに, 毒殺モデルでは, 共通の会員プライバシー監査において, 増幅された会員リークを効果的に偽装できることを示す。 全体として、我々の研究は最悪のメンバーシップのプライバシー漏洩を指摘しているだけでなく、既存のプライバシ監査手法に共通する落とし穴も明らかにしている。

Modern machine learning (ML) ecosystems offer a surging number of ML frameworks and code repositories that can greatly facilitate the development of ML models. Today, even ordinary data holders who are not ML experts can apply off-the-shelf codebase to build high-performance ML models on their data, many of which are sensitive in nature (e.g., clinical records). In this work, we consider a malicious ML provider who supplies model-training code to the data holders, does not have access to the training process, and has only black-box query access to the resulting model. In this setting, we demonstrate a new form of membership inference attack that is strictly more powerful than prior art. Our attack empowers the adversary to reliably de-identify all the training samples (average >99% attack TPR@0.1% FPR), and the compromised models still maintain competitive performance as their uncorrupted counterparts (average <1% accuracy drop). Moreover, we show that the poisoned models can effectively disguise the amplified membership leakage under common membership privacy auditing, which can only be revealed by a set of secret samples known by the adversary. Overall, our study not only points to the worst-case membership privacy leakage, but also unveils a common pitfall underlying existing privacy auditing methods, which calls for future efforts to rethink the current practice of auditing membership privacy in machine learning models.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 忘れるべきか? : 大規模言語モデルのための実践的知識アンラーニングを目指して

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models ( http://arxiv.org/abs/2407.01920v1 )

ライセンス: Link先を確認
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang, (参考訳) 大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。 知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。 しかし、現在の未学習パラダイムは曖昧な境界線を忘れ、しばしば無差別に知識を消去している。 本研究では,著作権付きコンテンツとユーザプライバシドメインを含むベンチマークであるKnowUnDoを紹介し,学習プロセスが必然的に本質的な知識を消去するかどうかを評価する。 その結果,既存のアンラーニング手法は過度のアンラーニングに悩まされることが多かった。 そこで本研究では,勾配情報を用いて高感度パラメータを的確にターゲットし,未学習なパラメータを抽出する手法であるMemFlexを提案する。 実験結果から,MemFlex は LLM の知識未学習と一般知識保持の両方において,既存の手法よりも優れていることがわかった。 コードとデータセットはhttps://github.com/zjunlp/KnowUnDo.comでリリースされる。

Large Language Models (LLMs) trained on extensive corpora inevitably retain sensitive data, such as personal privacy information and copyrighted material. Recent advancements in knowledge unlearning involve updating LLM parameters to erase specific knowledge. However, current unlearning paradigms are mired in vague forgetting boundaries, often erasing knowledge indiscriminately. In this work, we introduce KnowUnDo, a benchmark containing copyrighted content and user privacy domains to evaluate if the unlearning process inadvertently erases essential knowledge. Our findings indicate that existing unlearning methods often suffer from excessive unlearning. To address this, we propose a simple yet effective method, MemFlex, which utilizes gradient information to precisely target and unlearn sensitive parameters. Experimental results show that MemFlex is superior to existing methods in both precise knowledge unlearning and general knowledge retaining of LLMs. Code and dataset will be released at https://github.com/zjunlp/KnowUnDo.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# GVDIFF:拡散モデルによる地上テキスト・ビデオ生成

GVDIFF: Grounded Text-to-Video Generation with Diffusion Models ( http://arxiv.org/abs/2407.01921v1 )

ライセンス: Link先を確認
Huanzhang Dou, Ruixiang Li, Wei Su, Xi Li, (参考訳) テキスト・ツー・ビデオ(T2V)生成では、T2V生成における離散的・連続的な接地条件は未解明のままである。 本稿では,GVDIFFと呼ばれるグラウンドドテキスト・ビデオ生成フレームワークを提案する。 まず,不確実性に基づく表現を通じて自己注意状態に接地条件を注入し,ネットワークの焦点を明確に導出する。 第2に,接地条件と対象物とを接続する空間時空間接地層を導入し,空間時空間領域における接地生成能力を持つモデルを実現する。 第三に、我々の動的ゲートネットワークは冗長な接地処理を適応的にスキップし、効率を改善しつつ、接地情報や意味を選択的に抽出する。 我々は、GVDIFFの基底生成能力を広く評価し、長距離ビデオ生成、シーケンシャルプロンプト、オブジェクト固有の編集など、その汎用性を示す。

In text-to-video (T2V) generation, significant attention has been directed toward its development, yet unifying discrete and continuous grounding conditions in T2V generation remains under-explored. This paper proposes a Grounded text-to-Video generation framework, termed GVDIFF. First, we inject the grounding condition into the self-attention through an uncertainty-based representation to explicitly guide the focus of the network. Second, we introduce a spatial-temporal grounding layer that connects the grounding condition with target objects and enables the model with the grounded generation capacity in the spatial-temporal domain. Third, our dynamic gate network adaptively skips the redundant grounding process to selectively extract grounding information and semantics while improving efficiency. We extensively evaluate the grounded generation capacity of GVDIFF and demonstrate its versatility in applications, including long-range video generation, sequential prompts, and object-specific editing.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# メモリカーネル結合理論:高次モーメントからの時間相関関数

Memory Kernel Coupling Theory: Obtain Time Correlation Function from Higher-order Moments ( http://arxiv.org/abs/2407.01923v1 )

ライセンス: Link先を確認
Wei Liu, Yu Su, Yao Wang, Wenjie Dou, (参考訳) 動的オブザーバブルはしばしば時間相関関数(TCF)によって記述される。 しかし、複雑な量子系のTCFを効率的に計算することは大きな課題であり、一般にシステムの完全な力学を解く必要がある。 このレターは、TCKを評価する一般的な形式であるメモリカーネル結合理論(MKCT)を提示する。 MKCTは、TCKのメモリカーネル形式に基づいている。 我々の理論はさらにメモリカーネルを補助カーネルに分解する。 補助核の急激な崩壊により、結合した運動方程式を高精度に切り離すことができる。 特に、高次モーメントのみがTCFを得るための入力として十分である。 この定式化は一般的なものであるが、典型的な開量子系(スピンボソンモデル)の数値的な実演を行う。

Dynamical observables can often be described by time correlation functions (TCFs). However, efficiently calculating TCFs for complex quantum systems is a significant challenge, which generally requires solving the full dynamics of the systems. This Letter presents the memory kernel coupling theory (MKCT), a general formalism for evaluating TCFs. The MKCT builds upon Mori's memory kernel formalism for TCFs. Our theory further decomposes the memory kernel into auxiliary kernels. Rapid decay of auxiliary kernels allows us to truncate the coupled equations of motion with high accuracy. Notably, only higher-order moments are sufficient as the input for obtaining TCFs. While this formalism is general, we carry out the numerical demonstration for a typical open quantum system--the spin-boson model.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 未来から見る:マルチオーダーイテレーションは敵の攻撃伝達可能性を高める

Looking From the Future: Multi-order Iterations Can Enhance Adversarial Attack Transferability ( http://arxiv.org/abs/2407.01925v1 )

ライセンス: Link先を確認
Zijian Ying, Qianmu Li, Tao Wang, Zhichao Lian, Shunmei Meng, Xuyun Zhang, (参考訳) 様々な手法が、異なる視点から一般化を改善することにより、対向移動性を高めようとする。 本稿では,最適化プロセスを再考し,LFF(Looking From the Future)と呼ばれる新しいシーケンス最適化概念を提案する。 LFFは、最初の局所最適化選択を洗練させるために、元の最適化プロセスを利用している。 さらに,LFF の概念を敵攻撃タスクに適用し,LFF 攻撃やMLFF 攻撃も提案する。 さらに,LFFの概念を導いたLLF^{\mathcal{N}}$アタックを提案し,LFF攻撃をマルチオーダーアタックに拡張し,さらにトランスファーアタック能力を高める。 提案手法はすべて,反復攻撃法に直接適用することができる。 提案手法は,複数のSOTA対逆攻撃手法を4種類のタスクで適用することにより,ImageNet1kデータセット上で評価する。 実験の結果,提案手法は攻撃伝達性を大幅に向上させることができることがわかった。 アブレーション実験は各成分の有効性を検証するためにも用いられる。 この論文が受理された後、ソースコードがリリースされる。

Various methods try to enhance adversarial transferability by improving the generalization from different perspectives. In this paper, we rethink the optimization process and propose a novel sequence optimization concept, which is named Looking From the Future (LFF). LFF makes use of the original optimization process to refine the very first local optimization choice. Adapting the LFF concept to the adversarial attack task, we further propose an LFF attack as well as an MLFF attack with better generalization ability. Furthermore, guiding with the LFF concept, we propose an $LLF^{\mathcal{N}}$ attack which entends the LFF attack to a multi-order attack, further enhancing the transfer attack ability. All our proposed methods can be directly applied to the iteration-based attack methods. We evaluate our proposed method on the ImageNet1k dataset by applying several SOTA adversarial attack methods under four kinds of tasks. Experimental results show that our proposed method can greatly enhance the attack transferability. Ablation experiments are also applied to verify the effectiveness of each component. The source code will be released after this paper is accepted.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# 深部画像を用いたトリグリセリドの化学シフトエンコーディングに基づく二重結合定量

Chemical Shift Encoding based Double Bonds Quantification in Triglycerides using Deep Image Prior ( http://arxiv.org/abs/2407.01926v1 )

ライセンス: Link先を確認
Chaoxing Huang, Ziqiang Yu, Zijian Gao, Qiuyi Shen, Queenie Chan, Vincent Wai-Sun Wong, Winnie Chiu-Wing Chu, Weitian Chen, (参考訳) 本研究では,Deep Image Prior (DIP) を用いた深層学習による化学シフト符号化多面勾配エコー画像からのトリグリセリド二重結合の定量化について検討した。 信号制約に基づいたコスト関数を用いて、ニューラルネットワークを1つのデータセットで反復的に更新する。 本法はファントム実験と生体内スキャンを用いて検証した。 結果は測定値と基準二重結合値の密接な一致を示し、ファントム実験によりピアソン相関係数は 0.96 (p = .0005) となった。 In vivoでは皮下脂肪が良好であった。 Deep Image Priorは, 化学シフト型多面体MRIから二重結合および脂肪酸含有量を定量化できる可能性が示唆された。

This study evaluated a deep learning-based method using Deep Image Prior (DIP) to quantify triglyceride double bonds from chemical-shift encoded multi-echo gradient echo images without network training. We employed a cost function based on signal constraints to iteratively update the neural network on a single dataset. The method was validated using phantom experiments and in vivo scans. Results showed close alignment between measured and reference double bond values, with phantom experiments yielding a Pearson correlation coefficient of 0.96 (p = .0005). In vivo results demonstrated good agreement in subcutaneous fat. We conclude that Deep Image Prior shows feasibility for quantifying double bonds and fatty acid content from chemical-shift encoded multi-echo MRI.
翻訳日:2024-07-03 16:53:49 公開日:2024-07-02
# SymPoint 革命: レイヤ機能強化によるパノプティカルシンボルスポッティングの強化

SymPoint Revolutionized: Boosting Panoptic Symbol Spotting with Layer Feature Enhancement ( http://arxiv.org/abs/2407.01928v1 )

ライセンス: Link先を確認
Wenlong Liu, Tianyu Yang, Qizhi Yu, Lei Zhang, (参考訳) SymPointは、CAD描画におけるパノプティカルシンボルスポッティングタスクを解決するために、点集合表現を利用した最初の試みである。 かなりの成功を収めたものの、グラフィカルなレイヤ情報を見落としており、トレーニングの収束が著しく遅くなっている。 この問題に対処するために、これらの制限を克服する新しい合理化設計を特徴とする、堅牢で効率的なソリューションであるSymPoint-V2を導入する。 特に,我々はまず,グラフィカルレイヤ情報をプリミティブ機能にエンコードするレイヤ機能拡張モジュール(LFE)を提案する。 また,早期にモデルの収束を加速し,性能の向上を図るために,位置ガイド訓練(PGT)法を設計する。 大規模な実験により、我々のモデルは、前任のSymPointの公開ベンチマークよりも優れた性能と高速な収束を実現していることが示された。 私たちのコードとトレーニングされたモデルはhttps://github.com/nicehuster/SymPointV2.orgで公開されています。

SymPoint is an initial attempt that utilizes point set representation to solve the panoptic symbol spotting task on CAD drawing. Despite its considerable success, it overlooks graphical layer information and suffers from prohibitively slow training convergence. To tackle this issue, we introduce SymPoint-V2, a robust and efficient solution featuring novel, streamlined designs that overcome these limitations. In particular, we first propose a Layer Feature-Enhanced module (LFE) to encode the graphical layer information into the primitive feature, which significantly boosts the performance. We also design a Position-Guided Training (PGT) method to make it easier to learn, which accelerates the convergence of the model in the early stages and further promotes performance. Extensive experiments show that our model achieves better performance and faster convergence than its predecessor SymPoint on the public benchmark. Our code and trained models are available at https://github.com/nicehuster/SymPointV2.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# LMについて語る時について - パラダイムシフトの暗示と言語モデルの出荷

What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models ( http://arxiv.org/abs/2407.01929v1 )

ライセンス: Link先を確認
Shengqi Zhu, Jeffrey M. Rzeszotarski, (参考訳) Language Models (LM) という用語は、関心のあるモデルの時間固有のコレクションとして、常に再発明され、参照語は $\textit{Ship of Theseus}$ のように更新されるが、本質的には同じ船である。 本稿では、この$\textit{Ship of Language Models}$ problem, where in scientific evolution take the form of continuous, implicit retrofits of key existing terms。 我々は、よりよく研究された新しい用語の出現に加えて、科学的進歩の新たな視点を創出することを目指している。 この目的のために、我々は最近のNLP出版物に基づいてデータ基盤を構築した。 そこで我々は,言語モデルを芸術用語として用いることの詳細な,定量的な理解に向けて,テキストに基づく一連の分析を行う。 私たちの研究は、科学的議論においてシステムと理論が相互にどのように影響するかを強調し、私たち全員が貢献しているこの船の変革に注意を向けます。

The term Language Models (LMs), as a time-specific collection of models of interest, is constantly reinvented, with its referents updated much like the $\textit{Ship of Theseus}$ replaces its parts but remains the same ship in essence. In this paper, we investigate this $\textit{Ship of Language Models}$ problem, wherein scientific evolution takes the form of continuous, implicit retrofits of key existing terms. We seek to initiate a novel perspective of scientific progress, in addition to the more well-studied emergence of new terms. To this end, we construct the data infrastructure based on recent NLP publications. Then, we perform a series of text-based analyses toward a detailed, quantitative understanding of the use of Language Models as a term of art. Our work highlights how systems and theories influence each other in scientific discourse, and we call for attention to the transformation of this Ship that we all are contributing to.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 新しいクラス発見のための自己協力的知識蒸留

Self-Cooperation Knowledge Distillation for Novel Class Discovery ( http://arxiv.org/abs/2407.01930v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Yunquan Sun, Lizhe Qi, (参考訳) 新たなクラス発見(NCD)は、既知のクラスについて既に学んだ知識を活用することで、ラベルのないセットで未知のクラスと新しいクラスを発見することを目的としている。 既存の作業は、インスタンスレベルまたはクラスレベルの知識表現に焦点を当て、パフォーマンス改善を達成するために共有表現空間を構築します。 しかし、長い間無視されてきた問題は、既知のクラスと新しいクラスのサンプルの潜在的に不均衡な数であり、モデルを支配的なクラスへと押し上げている。 したがって、これらの手法は、既知の授業のレビューと新しい授業の発見の間の困難なトレードオフに悩まされる。 本研究は, 自己協調知識蒸留法 (SCKD) を用いて, 評価と発見の両方に, 各トレーニングサンプル(既知の, 新規, ラベル付, ラベル付, 未ラベル付のいずれにおいても) を利用する方法を提案する。 具体的には、既知のクラスと新しいクラスのモデルの特徴表現を用いて、2つの非結合表現空間を構築する。 空間的相互情報を用いて,2つの特徴表現空間からモデル学習を促進する自己協調学習を設計する。 6つのデータセットに対する大規模な実験により、我々の手法は、最先端のパフォーマンスを達成し、大幅な性能向上を達成できることを示した。

Novel Class Discovery (NCD) aims to discover unknown and novel classes in an unlabeled set by leveraging knowledge already learned about known classes. Existing works focus on instance-level or class-level knowledge representation and build a shared representation space to achieve performance improvements. However, a long-neglected issue is the potential imbalanced number of samples from known and novel classes, pushing the model towards dominant classes. Therefore, these methods suffer from a challenging trade-off between reviewing known classes and discovering novel classes. Based on this observation, we propose a Self-Cooperation Knowledge Distillation (SCKD) method to utilize each training sample (whether known or novel, labeled or unlabeled) for both review and discovery. Specifically, the model's feature representations of known and novel classes are used to construct two disjoint representation spaces. Through spatial mutual information, we design a self-cooperation learning to encourage model learning from the two feature representation spaces from itself. Extensive experiments on six datasets demonstrate that our method can achieve significant performance improvements, achieving state-of-the-art performance.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# スパースアンセグメンション画像からの確率的3次元対応予測

Probabilistic 3D Correspondence Prediction from Sparse Unsegmented Images ( http://arxiv.org/abs/2407.01931v1 )

ライセンス: Link先を確認
Krithika Iyer, Shireen Y. Elhabian, (参考訳) 生理学の研究は、解剖学的構造の形状(形状)がその機能を規定し、解剖学の形状を分析することが臨床研究において重要な役割を担っていることを示した。 統計的形状モデリング (SSM) は、解剖学の形式を定量的に分析し、個体群内の差異を識別するのを助けるために広く用いられているツールである。 実用性にもかかわらず、従来のSSM建設パイプラインは複雑で時間を要することが多い。 さらに、線形性仮定への依存は、モデルが臨床的に関連するバリエーションをキャプチャすることをさらに制限する。 近年のディープラーニングソリューションの進歩により、未分類の医療画像からのSSMの直接推論が可能となり、プロセスの合理化とアクセシビリティの向上が可能となった。 しかし,画像からのSSMの新しい手法は,画像データ品質が低かったり,スパース情報しか得られなかったりする状況には十分対応していない。 さらに,データ変動性を表すアレタリック不確実性の定量化は,信頼性の高いモデル予測と堅牢な意思決定を確保するために,特に困難な画像条件において,臨床タスクのための深層学習の展開に不可欠である。 そこで本研究では,スパース画像データから3次元対応性を予測する統一モデルであるSPI-CorrNetを提案する。 教師ネットワークを利用して特徴学習を規則化し、本質的な入力分散を予測するためにネットワークを適用することにより、データ依存のアレタリック不確実性を定量化する。 LGE MRI左房データセットとAbdomen CT-1K肝データセットを用いた実験により,スパース画像駆動SSMの精度とロバスト性の向上が示された。

The study of physiology demonstrates that the form (shape)of anatomical structures dictates their functions, and analyzing the form of anatomies plays a crucial role in clinical research. Statistical shape modeling (SSM) is a widely used tool for quantitative analysis of forms of anatomies, aiding in characterizing and identifying differences within a population of subjects. Despite its utility, the conventional SSM construction pipeline is often complex and time-consuming. Additionally, reliance on linearity assumptions further limits the model from capturing clinically relevant variations. Recent advancements in deep learning solutions enable the direct inference of SSM from unsegmented medical images, streamlining the process and improving accessibility. However, the new methods of SSM from images do not adequately account for situations where the imaging data quality is poor or where only sparse information is available. Moreover, quantifying aleatoric uncertainty, which represents inherent data variability, is crucial in deploying deep learning for clinical tasks to ensure reliable model predictions and robust decision-making, especially in challenging imaging conditions. Therefore, we propose SPI-CorrNet, a unified model that predicts 3D correspondences from sparse imaging data. It leverages a teacher network to regularize feature learning and quantifies data-dependent aleatoric uncertainty by adapting the network to predict intrinsic input variances. Experiments on the LGE MRI left atrium dataset and Abdomen CT-1K liver datasets demonstrate that our technique enhances the accuracy and robustness of sparse image-driven SSM.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 効率的な共感:共感データの効率的かつ効果的な選択に向けて

Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data ( http://arxiv.org/abs/2407.01937v1 )

ライセンス: Link先を確認
Linzhuang Sun, Hao Liang, Jingxuan Wei, Linkun Sun, Bihui Yu, Bin Cui, Wentao Zhang, (参考訳) 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。 その結果,大規模ビデオデータセットの管理と理解の重要性が高まっている。 しかし、共感的データは一般に品質の選択なしに訓練され、非効率なデータ利用と計算資源の浪費につながる。 さらに、生データを使用することで共感的対話の性能が低下する可能性がある。 本研究では,低品質データを捨てつつ,感性・合理性データを自動的に選択する,感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。 センシティビリティデータ(全データセットの59%)だけで、トレーニングされたセンシティビリティモデルは、最先端(SoTA)のパフォーマンスを効率的に達成できます。 さらに、複数のデータ選択ハイパーパラメーターを用いて、感性モデルによりSoTAの性能を実証し、本手法の堅牢性を示す。 感度と合理性データをMoE構造と組み合わせることで、より高い性能を実現し、効率的な共感アルゴリズムの有効性を実証する。

In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capability has become a crucial prerequisite. Consequently, managing and understanding large-scale video datasets has gained increasing importance. However, empathetic data are typically trained without any quality selection, leading to inefficient data usage and wasted computational resources. Additionally, using raw data can result in low performance in empathetic dialogues. In this work, we present Efficient-Empathy, a sensibility and rationality score-based data selection algorithm that automatically selects sensibility and rationality data while discarding low-quality data. With only the sensibility data (59% of the full dataset), our trained sensibility model efficiently achieves state-of-the-art (SoTA) performance. Furthermore, with multiple data selection hyperparameters, the sensibility model demonstrates SoTA performance, showcasing the robustness of our method. By integrating sensibility and rationality data with a MoE structure, we achieve even higher performance, demonstrating the effectiveness of our Efficient-Empathy algorithm.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# オープン量子系におけるセミマルコフ過程 III. 最初の通過時間統計の大規模偏差

Semi-Markov Processes in Open Quantum Systems. III. Large Deviations of First Passage Time Statistics ( http://arxiv.org/abs/2407.01940v1 )

ライセンス: Link先を確認
Fei Liu, Shihao Xia, Shanhe Su, (参考訳) 半マルコフ過程法は、開量子系における変数をカウントする最初の通過時間統計量の大きな偏差を計算するために用いられる。 中心公式は極の方程式である。 同じ変数の統計を数える際の大きな偏差も計算するが、方程式の次数は2つの統計に関して異なる。 量子の場合、前者は後者よりも低いため、最初の通過時間統計に対する解析解が可能である。 これらの結果は、駆動された2レベル量子システムを用いて説明し、古典力学および熱力学の不確実性関係の量子違反を探索するために応用する。

A semi-Markov process method is used to calculate large deviations of first passage time statistics of counting variables in open quantum systems. The core formula is an equation of poles. Although it also calculates large deviations of counting statistics of the same variables, the degrees of the equation are distinct with respect to the two statistics. Because the former is usually lower than the latter in the quantum case, analytical solutions for the first passage time statistics are possible. We illustrate these results via a driven two-level quantum system and apply them to explore quantum violations of the classical kinetic and thermodynamic uncertainty relations.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# マルチモーダルなてんかん・失語症に対するベンチマークと基準

Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness ( http://arxiv.org/abs/2407.01942v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Linjie Li, Anas Awadalla, Ximing Lu, Jae Sung Park, Jack Hessel, Lijuan Wang, Yejin Choi, (参考訳) 知識と推論における必然的不確実性を認識する能力は、真に誠実で信頼性のあるAIシステムにとって必要不可欠である。 本稿では,視覚言語型AIシステムに特有の不確実性を示す分類法を提案する。 この分類に基づくベンチマークデータセットであるCertainlyUncertainを合成し、178Kの視覚的質問応答(VQA)サンプルを対照的なペアとして特徴付ける。 これは達成される 1) あらかじめ回答可能な質問を未解決の質問に塗布する。 2) イメージキャプションを用いて, 解答可能な質問と解答不能質問の両方に対して, 大規模言語モデルを促す。 さらに、既存のメトリクスの欠点に対処するため、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。

The ability to acknowledge the inevitable uncertainty in their knowledge and reasoning is a prerequisite for AI systems to be truly truthful and reliable. In this paper, we present a taxonomy of uncertainty specific to vision-language AI systems, distinguishing between epistemic uncertainty (arising from a lack of information) and aleatoric uncertainty (due to inherent unpredictability), and further explore finer categories within. Based on this taxonomy, we synthesize a benchmark dataset, CertainlyUncertain, featuring 178K visual question answering (VQA) samples as contrastive pairs. This is achieved by 1) inpainting images to make previously answerable questions into unanswerable ones; and 2) using image captions to prompt large language models for both answerable and unanswerable questions. Additionally, we introduce a new metric confidence-weighted accuracy, that is well correlated with both accuracy and calibration error, to address the shortcomings of existing metrics.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 未知のカメラプロジェクタを用いた室内3次元再構成

Indoor 3D Reconstruction with an Unknown Camera-Projector Pair ( http://arxiv.org/abs/2407.01945v1 )

ライセンス: Link先を確認
Zhaoshuai Qi, Yifeng Hao, Rui Hu, Wenyou Chang, Jiaqi Yang, Yanning Zhang, (参考訳) カメラプロジェクタペア(CPP)を用いた構造的光ベース法は室内3次元再構成において重要な役割を担っている。 従来の手法は通常、既知の対象から事前校正された、または多視点観測から自己校正された、既知の内在論を仮定する。 既知のオブジェクトが存在しない2つのビューのみからCPPの内在性を確実に回復することは依然として困難である。 本稿では,単純で信頼性の高い解を提案する。 室内のシーンでよく見られる構造である部屋のコーナー(C2)の未知のキュービドコーナー(C2)から,CPPの内在性に関する十分な制約を導出できることを実証した。 さらに、カメラの主点のみを知っていれば、CPPの複雑な多変量推定は、単純で不可変な最適化問題に単純化され、信頼性の高い校正と、未知のCPPによる直接3D再構成が可能となる。 その結果,提案手法が従来の手法と学習法の両方に比較して優れていることが示された。 さらに,本手法は,動作からのスパースビュー構造など,能動照明を使わずに同様の課題を解くことができることを示す。

Structured light-based method with a camera-projector pair (CPP) plays a vital role in indoor 3D reconstruction, especially for scenes with weak textures. Previous methods usually assume known intrinsics, which are pre-calibrated from known objects, or self-calibrated from multi-view observations. It is still challenging to reliably recover CPP intrinsics from only two views without any known objects. In this paper, we provide a simple yet reliable solution. We demonstrate that, for the first time, sufficient constraints on CPP intrinsics can be derived from an unknown cuboid corner (C2), e.g. a room's corner, which is a common structure in indoor scenes. In addition, with only known camera principal point, the complex multi-variable estimation of all CPP intrinsics can be simplified to a simple univariable optimization problem, leading to reliable calibration and thus direct 3D reconstruction with unknown CPP. Extensive results have demonstrated the superiority of the proposed method over both traditional and learning-based counterparts. Furthermore, the proposed method also demonstrates impressive potential to solve similar tasks without active lighting, such as sparse-view structure from motion.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 抽出と符号化:大規模言語モデルと医学的知識の活用による放射線学的テキスト表現の促進

Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation ( http://arxiv.org/abs/2407.01948v1 )

ライセンス: Link先を確認
Pablo Messina, René Vidal, Denis Parra, Álvaro Soto, Vladimir Araujo, (参考訳) 医学などの専門分野における表現学習の促進は、テキストや画像に対する専門家の注釈が不足しているため、いまだに困難である。 そこで本稿では,テキストエンコーダの表現を改善するために,自由テキストラジオグラフィーレポートから高品質な事実文を抽出する2段階フレームワークを提案する。 最初の段階では,大規模言語モデル(LLM)を利用して,よく計算されたドメイン固有データセットから事実文を識別する「textit{Fact Extractor}」を提案する。 第2段階では、抽出した実データを用いて表現を改善するように設計されたBERTモデルに基づく \textit{Fact Encoder} (CXRFE) を導入する。 我々のフレームワークには、胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFEScore)が含まれており、アプローチのどちらの段階も活用している。 総合評価の結果,我々の事実抽出器とエンコーダは,文章のランク付けや自然言語推論,ラジオロジーレポートからのラベル抽出といったタスクにおいて,最先端の手法よりも優れていた。 さらに, 放射能レポート生成文献でよく用いられる既存の指標よりも, より堅牢で有効であることが証明された。 プロジェクトのコードは \url{https://github.com/PabloMessina/CXR-Fact-Encoder} で公開されている。

Advancing representation learning in specialized fields like medicine remains challenging due to the scarcity of expert annotations for text and images. To tackle this issue, we present a novel two-stage framework designed to extract high-quality factual statements from free-text radiology reports in order to improve the representations of text encoders and, consequently, their performance on various downstream tasks. In the first stage, we propose a \textit{Fact Extractor} that leverages large language models (LLMs) to identify factual statements from well-curated domain-specific datasets. In the second stage, we introduce a \textit{Fact Encoder} (CXRFE) based on a BERT model fine-tuned with objective functions designed to improve its representations using the extracted factual data. Our framework also includes a new embedding-based metric (CXRFEScore) for evaluating chest X-ray text generation systems, leveraging both stages of our approach. Extensive evaluations show that our fact extractor and encoder outperform current state-of-the-art methods in tasks such as sentence ranking, natural language inference, and label extraction from radiology reports. Additionally, our metric proves to be more robust and effective than existing metrics commonly used in the radiology report generation literature. The code of this project is available at \url{https://github.com/PabloMessina/CXR-Fact-Encoder}.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# LDP:効率的なロボットナビゲーションと衝突回避のための局所拡散プランナ

LDP: A Local Diffusion Planner for Efficient Robot Navigation and Collision Avoidance ( http://arxiv.org/abs/2407.01950v1 )

ライセンス: Link先を確認
Wenhao Yu, Jie Peng, Huanyu Yang, Junrui Zhang, Yifan Duan, Jianmin Ji, Yanyong Zhang, (参考訳) 条件拡散モデルは, 条件分布を正確にモデル化する高度化により, ロボット政策を学習するための効率的なツールとして実証されてきた。 動的障害物と迷路のような構造を特徴とする現実シナリオの複雑な性質は、条件分布問題としてのロボットローカルナビゲーション決定の複雑さを浮き彫りにする。 それでも,ロボット局所航法における拡散モデルの利用は簡単ではなく,(1)データ緊急性(Data Urgency)という未調査課題に遭遇する。 局所航法における複雑な条件分布は、様々な現実のシナリオにおける多様なポリシーを含むための訓練データを必要とする。 知覚シナリオの多様性のため、ロボットの局所的な視点に基づく拡散決定は、目視を欠くことが多いため、タスク全体を完成させるのに最適ではないことが証明される。 遠回りを必要とする特定のシナリオでは、ロボットは閉じ込められるかもしれない。 これらの課題に対処するため,本手法では,グローバル・ローカル・インサイトから情報を得たターゲット選択を通じて,異なる嗜好を示す複数のエージェントを包含する多様なデータ生成機構の探索から着目する。 そして、この多様なトレーニングデータに基づいて、多様なシナリオにおける衝突回避に優れた拡散剤を得る。 その後,グローバルな観測を軽量に組み込むことで,ローカル拡散プランナー(LPPとも呼ばれる)を強化した。 この拡張により、LDPの観察範囲が拡大し、局所最適でスナー化されるリスクを効果的に軽減し、より堅牢な航法決定を促進する。

The conditional diffusion model has been demonstrated as an efficient tool for learning robot policies, owing to its advancement to accurately model the conditional distribution of policies. The intricate nature of real-world scenarios, characterized by dynamic obstacles and maze-like structures, underscores the complexity of robot local navigation decision-making as a conditional distribution problem. Nevertheless, leveraging the diffusion model for robot local navigation is not trivial and encounters several under-explored challenges: (1) Data Urgency. The complex conditional distribution in local navigation needs training data to include diverse policy in diverse real-world scenarios; (2) Myopic Observation. Due to the diversity of the perception scenarios, diffusion decisions based on the local perspective of robots may prove suboptimal for completing the entire task, as they often lack foresight. In certain scenarios requiring detours, the robot may become trapped. To address these issues, our approach begins with an exploration of a diverse data generation mechanism that encompasses multiple agents exhibiting distinct preferences through target selection informed by integrated global-local insights. Then, based on this diverse training data, a diffusion agent is obtained, capable of excellent collision avoidance in diverse scenarios. Subsequently, we augment our Local Diffusion Planner, also known as LDP by incorporating global observations in a lightweight manner. This enhancement broadens the observational scope of LDP, effectively mitigating the risk of becoming ensnared in local optima and promoting more robust navigational decisions.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# FinLLMチャレンジタスクにおけるCatMemo:金融アプリケーションにおけるデータフュージョンを用いた大規模言語モデルの微調整

CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications ( http://arxiv.org/abs/2407.01953v1 )

ライセンス: Link先を確認
Yupeng Cao, Zhiyuan Yao, Zhi Chen, Zhiyang Deng, (参考訳) 大規模言語モデル(LLM)の財務分析への統合は、NLPコミュニティにおいて大きな注目を集めている。 IJCAI-2024 FinLLMの課題に対して,金融分類,財務文書要約,単一株式取引の3つの重要な分野におけるLCMの能力について検討した。 我々はLlama3-8BとMistral-7Bをベースモデルとして採用し,パラメータ最適化(PEFT)とローランド適応(LoRA)アプローチを用いて微調整を行った。 モデル性能を向上させるために,タスク1とタスク2のデータセットを組み合わせてデータ融合を行う。 提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。

The integration of Large Language Models (LLMs) into financial analysis has garnered significant attention in the NLP community. This paper presents our solution to IJCAI-2024 FinLLM challenge, investigating the capabilities of LLMs within three critical areas of financial tasks: financial classification, financial text summarization, and single stock trading. We adopted Llama3-8B and Mistral-7B as base models, fine-tuning them through Parameter Efficient Fine-Tuning (PEFT) and Low-Rank Adaptation (LoRA) approaches. To enhance model performance, we combine datasets from task 1 and task 2 for data fusion. Our approach aims to tackle these diverse tasks in a comprehensive and integrated manner, showcasing LLMs' capacity to address diverse and complex financial tasks with improved accuracy and decision-making capabilities.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# S2D:Nested Large Language Modelのより効率的なデプロイのためのSorted Speculative Decoding

S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models ( http://arxiv.org/abs/2407.01955v1 )

ライセンス: Link先を確認
Parsa Kavehzadeh, Mohammadreza Pourreza, Mojtaba Valipour, Tinashu Zhu, Haoli Bai, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh, (参考訳) 自己回帰型大規模言語モデル(LLM)の展開にはコストがかかり、これらのモデルのサイズが大きくなるにつれて、関連するコストはさらに増大する。 その結果,トークン生成プロセスの高速化とコスト削減のために,様々な手法が提案されている。 投機的復号(SD)は、複数のトークンを並列に検証し、補助的な小さなドラフトモデルを用いて可能なトークンを生成することで、LCM復号プロセスを高速化する最も有望なアプローチの一つである。 SDでは、通常、1つのドラフトモデルを使って特定のターゲットモデルを提供するが、実際にはLLMは多種多様であり、同時に複数のターゲットモデルや複数のターゲットモデルを扱う必要がある。 このシナリオでは、どのターゲットモデルにドラフトモデルを使用するべきかは明らかではなく、異なるドラフトモデル間の検索や、カスタマイズされたドラフトモデルのトレーニングにより、デプロイメントコストをさらに高める可能性がある。 本稿では,まず,より高速な推論のためのドラフトモデルをデプロイするための,新しいマルチターゲットシナリオを提案する。 そこで,本研究では,マルチターゲット設定における正規ベースラインよりも優れた,より効率的なソートされた投機的復号化機構を提案する。 Vicuna 7B, 13B, LLama Chat 70Bなどのベースモデルを含む, 異なる設定でSpec-Benchの手法を評価した。 提案手法は,複数のターゲットモデルに対して,ベースラインよりも高い性能を同時に達成できることを示唆する。

Deployment of autoregressive large language models (LLMs) is costly, and as these models increase in size, the associated costs will become even more considerable. Consequently, different methods have been proposed to accelerate the token generation process and reduce costs. Speculative decoding (SD) is among the most promising approaches to speed up the LLM decoding process by verifying multiple tokens in parallel and using an auxiliary smaller draft model to generate the possible tokens. In SD, usually, one draft model is used to serve a specific target model; however, in practice, LLMs are diverse, and we might need to deal with many target models or more than one target model simultaneously. In this scenario, it is not clear which draft model should be used for which target model, and searching among different draft models or training customized draft models can further increase deployment costs. In this paper, we first introduce a novel multi-target scenario for the deployment of draft models for faster inference. Then, we present a novel, more efficient sorted speculative decoding mechanism that outperforms regular baselines in multi-target settings. We evaluated our method on Spec-Bench in different settings, including base models such as Vicuna 7B, 13B, and LLama Chat 70B. Our results suggest that our draft models perform better than baselines for multiple target models at the same time.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# FlowTrack:3次元単一物体追跡のためのポイントレベルフローネットワーク

FlowTrack: Point-level Flow Network for 3D Single Object Tracking ( http://arxiv.org/abs/2407.01959v1 )

ライセンス: Link先を確認
Shuo Li, Yubo Cui, Zhiheng Li, Zheng Fang, (参考訳) 3Dシングルオブジェクトトラッキング(SOT)は、モバイルロボティクスと自動運転の分野において重要なタスクである。 従来の動きに基づくアプローチは、2つの連続するフレーム間の目標の相対的な移動を推定することで目標追跡を実現する。 しかし、それらは通常、ターゲットの局所的な動き情報を見落とし、歴史的フレーム情報を効果的に活用することができない。 上記の制限を克服するために,FlowTrackと呼ばれる3次元SOTタスクのための多フレーム情報を用いた点レベルフロー手法を提案する。 具体的には、ターゲットの各点のフローを推定することにより、ターゲットの局所的な動きの詳細を捉えることができ、トラッキング性能を向上させることができる。 同時に,スパークポイントでシーンを処理するために,過去のフレームからターゲット情報を効率的に統合するための学習可能なターゲット特徴をブリッジとして提示する。 さらに,高密度点レベルの流れをインスタンスレベルの動きに変換するための新しいインスタンスフローヘッドを設計し,局所的な動き情報を効果的に集約してグローバルな目標運動を得る。 最後に,KITTIデータセットが5.9%,NuScenesが2.9%向上し,競合性能が向上した。 コードはまもなく公開される予定だ。

3D single object tracking (SOT) is a crucial task in fields of mobile robotics and autonomous driving. Traditional motion-based approaches achieve target tracking by estimating the relative movement of target between two consecutive frames. However, they usually overlook local motion information of the target and fail to exploit historical frame information effectively. To overcome the above limitations, we propose a point-level flow method with multi-frame information for 3D SOT task, called FlowTrack. Specifically, by estimating the flow for each point in the target, our method could capture the local motion details of target, thereby improving the tracking performance. At the same time, to handle scenes with sparse points, we present a learnable target feature as the bridge to efficiently integrate target information from past frames. Moreover, we design a novel Instance Flow Head to transform dense point-level flow into instance-level motion, effectively aggregating local motion information to obtain global target motion. Finally, our method achieves competitive performance with improvements of 5.9% on the KITTI dataset and 2.9% on NuScenes. The code will be made publicly available soon.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 事前学習画像拡散モデルによるゼロショット映像復元と強調

Zero-shot Video Restoration and Enhancement Using Pre-Trained Image Diffusion Model ( http://arxiv.org/abs/2407.01960v1 )

ライセンス: Link先を確認
Cong Cao, Huanjing Yue, Xin Liu, Jingyu Yang, (参考訳) 拡散に基づくゼロショット画像復元・拡張モデルは、訓練なしで様々な画像復元・拡張タスクにおいて大きな成功を収めた。 しかし、それらをビデオ修復や強化に直接適用すると、重度の時間的ひび割れが生じる。 本稿では,事前学習した画像拡散モデルに基づくゼロショット映像復元・拡張のための第1の枠組みを提案する。 自己アテンション層を、提案したクロスフレームアテンション層に置き換えることで、事前学習された画像拡散モデルは、隣接するフレーム間の時間的相関を利用することができる。 さらに、時間的整合性誘導、時空間雑音共有、時間的整合性向上のための早期サンプリング戦略を提案する。 本手法は,任意の拡散型ゼロショット画像復元法や拡張法に挿入可能なプラグアンドプレイモジュールであり,その性能をさらに向上させることができる。 実験により,より忠実度の高い時間的一貫したビデオの製作において,提案手法の優位性を示した。

Diffusion-based zero-shot image restoration and enhancement models have achieved great success in various image restoration and enhancement tasks without training. However, directly applying them to video restoration and enhancement results in severe temporal flickering artifacts. In this paper, we propose the first framework for zero-shot video restoration and enhancement based on a pre-trained image diffusion model. By replacing the self-attention layer with the proposed cross-previous-frame attention layer, the pre-trained image diffusion model can take advantage of the temporal correlation between neighboring frames. We further propose temporal consistency guidance, spatial-temporal noise sharing, and an early stopping sampling strategy for better temporally consistent sampling. Our method is a plug-and-play module that can be inserted into any diffusion-based zero-shot image restoration or enhancement methods to further improve their performance. Experimental results demonstrate the superiority of our proposed method in producing temporally consistent videos with better fidelity.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# 法定判断予測のための大規模言語モデルにおける識別的推論の導入

Enabling Discriminative Reasoning in Large Language Models for Legal Judgment Prediction ( http://arxiv.org/abs/2407.01964v1 )

ライセンス: Link先を確認
Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou, (参考訳) 司法効率を高めるためには法的判断の予測が不可欠である。 本研究では,既存の大規模言語モデル (LLM) が,ケースの複雑さを理解し,類似の電荷を区別することの難しさから,この領域で性能が低下していることを明らかにする。 有効な法的判断予測にLLMを適用するために,人間の司法的推論に触発されたAsk-Discriminate-Predict(ADAPT)推論の枠組みを導入する。 ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。 我々は,多タスク合成軌道の微調整によりLLMをさらに強化し,ADAPTフレームワークの法定判定精度と効率を向上させる。 広範に使われている2つのデータセットで実施された大規模な実験は、特に複雑で紛らわしい電荷を扱う場合、法的な判断の予測において、我々のフレームワークの優れた性能を示す。

Legal judgment prediction is essential for enhancing judicial efficiency. In this work, we identify that existing large language models (LLMs) underperform in this domain due to challenges in understanding case complexities and distinguishing between similar charges. To adapt LLMs for effective legal judgment prediction, we introduce the Ask-Discriminate-Predict (ADAPT) reasoning framework inspired by human judicial reasoning. ADAPT involves decomposing case facts, discriminating among potential charges, and predicting the final judgment. We further enhance LLMs through fine-tuning with multi-task synthetic trajectories to improve legal judgment prediction accuracy and efficiency under our ADAPT framework. Extensive experiments conducted on two widely-used datasets demonstrate the superior performance of our framework in legal judgment prediction, particularly when dealing with complex and confusing charges.
翻訳日:2024-07-03 16:43:59 公開日:2024-07-02
# AdaCQR: SparseとDense Retrievalアライメントによる会話検索のためのクエリ再構成の強化

AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment ( http://arxiv.org/abs/2407.01965v1 )

ライセンス: Link先を確認
Yilong Lai, Jialong Wu, Congzhi Zhang, Haowen Sun, Deyu Zhou, (参考訳) 会話クエリ改革(CQR)は,会話検索の課題,特に潜伏したユーザ意図と歴史的コンテキストの必要性に起因した課題に対処する上で,大きな進歩を遂げている。 CRQのアライメントによる性能向上を目的とした最近の研究。 しかし、それらは1つの特定の検索システムのために設計されており、結果として一般化が貧弱になる可能性がある。 この制限を克服するために,新しいフレームワークAdaCQRを提案する。 AdaCQRは、リフォームモデルと用語ベースと意味ベースの両方の検索システムとの整合により、二相学習戦略により、多種多様な検索環境における情報検索クエリの一般化性を高める。 また、優れたラベルと多様な入力候補を得るための2つの効果的なアプローチを開発し、フレームワークの効率性と堅牢性を高めた。 TopiOCQAデータセットとQReCCデータセットの実験的評価は、AdaCQRが既存の手法よりも大幅に優れており、会話クエリの修正における量的および質的な改善が提供されていることを示している。

Conversational Query Reformulation (CQR) has significantly advanced in addressing the challenges of conversational search, particularly those stemming from the latent user intent and the need for historical context. Recent works aimed to boost the performance of CRQ through alignment. However, they are designed for one specific retrieval system, which potentially results in poor generalization. To overcome this limitation, we present a novel framework AdaCQR. By aligning reformulation models with both term-based and semantic-based retrieval systems, AdaCQR enhances the generalizability of information-seeking queries across diverse retrieval environments through a dual-phase training strategy. We also developed two effective approaches for acquiring superior labels and diverse input candidates, boosting the efficiency and robustness of the framework. Experimental evaluations on the TopiOCQA and QReCC datasets demonstrate that AdaCQR significantly outperforms existing methods, offering both quantitative and qualitative improvements in conversational query reformulation.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# Few-Shot分類のための局所表現力の解き放つ

Unleash the Power of Local Representations for Few-Shot Classification ( http://arxiv.org/abs/2407.01967v1 )

ライセンス: Link先を確認
Shi Tang, Guiming Luo, Xinchen Ye, Zhiyi Xia, (参考訳) 訓練中に目に見えない新しいクラスに一般化することは、数発の分類において重要な課題である。 最近の計量法は局所的な表現によってこの問題に対処しようとする。 しかし、彼らはそれをフルに活用することができない。 一 特徴抽出器の事前訓練のための不適切な監督及び (II)局所特徴集合の様々な可能な構成を扱うためのメートル法における適合性の欠如。 本研究では,局所表現の力を解き放ち,新しいクラスを一般化する手法を提案する。 特徴抽出器のために,ソフトラベルを用いてランダムに収穫されたパッチを学習する新しい事前学習パラダイムを設計する。 パッチのクラスレベルの多様性を利用して、セマンティックなミスアライメントがハードラベルに与える影響を減らします。 また,ネットワーク出力をソフトラベルに整合させるため,UniCon KL-Divergenceを提案する。 計量について、局所的特徴集合をエントロピー規則化された最適輸送問題として定式化し、同種元素からなる集合を扱う能力を導入する。 さらに、必要な適応性でメトリックを実現するためのModulate Moduleを設計する。 提案手法は,3つのベンチマークにおいて,最先端性能を実現する。 さらに、細かなシナリオにおいて、最先端のトランスダクティブおよびクロスモーダルメソッドを超える。

Generalizing to novel classes unseen during training is a key challenge of few-shot classification. Recent metric-based methods try to address this by local representations. However, they are unable to take full advantage of them due to (i) improper supervision for pretraining the feature extractor, and (ii) lack of adaptability in the metric for handling various possible compositions of local feature sets. In this work, we unleash the power of local representations in improving novel-class generalization. For the feature extractor, we design a novel pretraining paradigm that learns randomly cropped patches by soft labels. It utilizes the class-level diversity of patches while diminishing the impact of their semantic misalignments to hard labels. To align network output with soft labels, we also propose a UniCon KL-Divergence that emphasizes the equal contribution of each base class in describing "non-base" patches. For the metric, we formulate measuring local feature sets as an entropy-regularized optimal transport problem to introduce the ability to handle sets consisting of homogeneous elements. Furthermore, we design a Modulate Module to endow the metric with the necessary adaptability. Our method achieves new state-of-the-art performance on three popular benchmarks. Moreover, it exceeds state-of-the-art transductive and cross-modal methods in the fine-grained scenario.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# 未解決の法則:新しいアプローチを創出する時か?

Unsettled Law: Time to Generate New Approaches? ( http://arxiv.org/abs/2407.01968v1 )

ライセンス: Link先を確認
David Atkinson, Jacob Morrison, (参考訳) 我々は、生成人工知能(GenAI)がもたらす深い倫理的・社会的意味を持つ重要かつ未解決の法的な問題をいくつか特定し、従来のソフトウェアやそれ以前のAIモデルと区別可能な特徴に焦点を当てる。 我々の重要な貢献は、学術や実践者がより有用な調査や議論を行えるように、GenAI特有の問題を正式に特定することである。 先史時代を起源とする確立された法的枠組みは、現在、元AI訴訟に採用されているものの、その妥当性に疑問が呈されている。 我々は、GenAIの特徴として、汎用性、大規模なデータセットへの依存、広く普及する社会的利益と害の両方の可能性などを挙げ、既存の法的パラダイムの再評価の必要性を論じる。 我々は、著作権、プライバシ、トート、契約法、刑事法、財産法、修正第1条に関する重要な課題を浮き彫りにして、法と規制の適応の可能性を探る。 これら多面的法的課題の探索を通じて、我々は、GenAIを取り巻く言論・政策考察を刺激し、法的・倫理的枠組みに対する積極的なアプローチを強調することを目的とする。 具体的な法的変更の提唱は控えるが、我々は政策立案者が問題を慎重に検討する必要性を強調している。 我々は、これらの分野の法律に関する重要な質問を、簡単に参照できる有用な表にまとめて結論付ける。

We identify several important and unsettled legal questions with profound ethical and societal implications arising from generative artificial intelligence (GenAI), focusing on its distinguishable characteristics from traditional software and earlier AI models. Our key contribution is formally identifying the issues that are unique to GenAI so scholars, practitioners, and others can conduct more useful investigations and discussions. While established legal frameworks, many originating from the pre-digital era, are currently employed in GenAI litigation, we question their adequacy. We argue that GenAI's unique attributes, including its general-purpose nature, reliance on massive datasets, and potential for both pervasive societal benefits and harms, necessitate a re-evaluation of existing legal paradigms. We explore potential areas for legal and regulatory adaptation, highlighting key issues around copyright, privacy, torts, contract law, criminal law, property law, and the First Amendment. Through an exploration of these multifaceted legal challenges, we aim to stimulate discourse and policy considerations surrounding GenAI, emphasizing a proactive approach to legal and ethical frameworks. While we refrain from advocating specific legal changes, we underscore the need for policymakers to carefully consider the issues raised. We conclude by summarizing key questions across these areas of law in a helpful table for easy reference.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# 多目的ビューファインダーネットワークによる画像クロッピングのための擬似ラベル作成

Pseudo-Labeling by Multi-Policy Viewfinder Network for Image Cropping ( http://arxiv.org/abs/2407.01971v1 )

ライセンス: Link先を確認
Zhiyu Pan, Kewei Wang, Yizheng Wu, Liwen Xiao, Jiahao Cui, Zhicheng Wang, Zhiguo Cao, (参考訳) 自動画像トリミングモデルは、画像美学を強化するためにリフレーミングボックスを予測する。 しかし、ラベル付きデータの不足は、このタスクの進捗を妨げる。 この制限を克服するために、ラベル付きデータとラベルなしデータの両方を併用して、画像収穫モデルのトレーニングデータの規模を拡大する可能性を検討する。 このアイデアは、教師モデルによってラベルのないデータのための擬似ラベルを作成し、これらの擬似ラベルで学生モデルを訓練する、擬似ラベル方式で実装することができる。 しかし、その生徒は教師の間違いから学ぶことができる。 この問題に対処するため,教師からの擬似ラベルの誤りを正すために,多様な修正ポリシーを提供するマルチ政治ビューファインダーネットワーク(MPV-Net)を提案する。 最も信頼できるポリシーは、信頼できる疑似ラベルを生成するために選択される。 ポリシーの信頼性は、ボックスジッタリングに対する堅牢性を通じて評価される。 本手法の有効性は,ラベル付きデータのみを使用する教師付きベースラインと比較して評価できる。 特に,MPV-Netは市販の擬似ラベル法よりも優れており,教師付きベースラインよりも大幅に改善されている。 さらに,本手法はFCDBとFLMSの両方のデータセットの最先端化を実現し,本手法の優位性を示す。

Automatic image cropping models predict reframing boxes to enhance image aesthetics. Yet, the scarcity of labeled data hinders the progress of this task. To overcome this limitation, we explore the possibility of utilizing both labeled and unlabeled data together to expand the scale of training data for image cropping models. This idea can be implemented in a pseudo-labeling way: producing pseudo labels for unlabeled data by a teacher model and training a student model with these pseudo labels. However, the student may learn from teacher's mistakes. To address this issue, we propose the multi-policy viewfinder network (MPV-Net) that offers diverse refining policies to rectify the mistakes in original pseudo labels from the teacher. The most reliable policy is selected to generate trusted pseudo labels. The reliability of policies is evaluated via the robustness against box jittering. The efficacy of our method can be evaluated by the improvement compared to the supervised baseline which only uses labeled data. Notably, our MPV-Net outperforms off-the-shelf pseudo-labeling methods, yielding the most substantial improvement over the supervised baseline. Furthermore, our approach achieves state-of-the-art results on both the FCDB and FLMS datasets, signifying the superiority of our approach.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# MeMemo: プライベートおよびパーソナライズされたテキスト生成のためのオンデバイス検索拡張

MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation ( http://arxiv.org/abs/2407.01972v1 )

ライセンス: Link先を確認
Zijie J. Wang, Duen Horng Chau, (参考訳) Retrieval-augmented text generation (RAG) は、幻覚のような大きな言語モデル(LLM)の共通の制限に対処し、最新の外部知識ベースから情報を取得する。 しかし、既存のアプローチでは、データストレージと検索のために専用のバックエンドサーバを必要とすることが多く、個人金融、教育、医療といった厳格なデータプライバシーを必要とするユースケースでは、適用性が制限される。 クライアントサイドの高密度検索の必要性に対処するため、我々はMeMemoを紹介した。MeMemoは、最先端に近い近接検索技術であるHNSWをブラウザ環境に適用する最初のオープンソースのJavaScriptツールキットである。 IndexedDBやWeb WorkersといったモダンでネイティブなWebテクノロジで開発されたこのツールキットは、クライアントサイドのハードウェア機能を活用して、研究者や開発者がブラウザ内の何百万もの高次元ベクトルを効率的に検索できるようにします。 MeMemoは、プライベートでパーソナライズされたコンテンツ作成やインタラクティブなプロトタイピングなど、エキサイティングな新しいデザインと研究の機会を可能にします。 本研究を反映して,デバイス上での高密度検索の機会と課題について論じる。 MeMemoはhttps://github.com/poloclub/mememo.comで入手できる。

Retrieval-augmented text generation (RAG) addresses the common limitations of large language models (LLMs), such as hallucination, by retrieving information from an updatable external knowledge base. However, existing approaches often require dedicated backend servers for data storage and retrieval, thereby limiting their applicability in use cases that require strict data privacy, such as personal finance, education, and medicine. To address the pressing need for client-side dense retrieval, we introduce MeMemo, the first open-source JavaScript toolkit that adapts the state-of-the-art approximate nearest neighbor search technique HNSW to browser environments. Developed with modern and native Web technologies, such as IndexedDB and Web Workers, our toolkit leverages client-side hardware capabilities to enable researchers and developers to efficiently search through millions of high-dimensional vectors in the browser. MeMemo enables exciting new design and research opportunities, such as private and personalized content creation and interactive prototyping, as demonstrated in our example application RAG Playground. Reflecting on our work, we discuss the opportunities and challenges for on-device dense retrieval. MeMemo is available at https://github.com/poloclub/mememo.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# ドライバーハミルトニアンと混合演算子に制約を与える:理論から実践まで

Imposing Constraints on Driver Hamiltonians and Mixing Operators: From Theory to Practical Implementation ( http://arxiv.org/abs/2407.01975v1 )

ライセンス: Link先を確認
Hannes Leipold, Federico M. Spedalieri, Stuart Hadfield, Eleanor Rieffel, (参考訳) 制約を満たすようなドライバーハミルトニアンとミキシング演算子を構成することは、量子アルゴリズムの重要なアンサッツ構成である。 我々は、ハミルトン項や類似のユニタリ原始体を見つけるための一般代数的表現を与え、制約埋め込みを満足させ、これらを用いて関連する問題の複雑さを特徴づける。 古典的制約を強制する演算子を見つけることは、一般にNP-Completeであることが証明されている; 悪いケースの多項式ランタイムを持つアルゴリズム的手続きは、多くの制約に適用可能な、局所性境界のある任意の演算子を見つける。 次に、これらの代数的プリミティブを、制約量子アニーリング(CQA)と量子交換演算子Ansatz(QAOA)の構成に使用可能なハミルトンドライバとユニタリミキサーに変換するアルゴリズム的な手順を与える。 次に、これらの概念を 1-in-3 SAT インスタンスのアンセッツェの構成に適用する。 一般のx-mixer QAOA, 最大解離部分集合に基づく新しいQAOAアプローチ, および解離部分集合に基づくQAOAアプローチ, および高次制約満足度項を考える。 提案手法は,12~22の大きさのインスタンスに対して実験的にベンチマークを行い,提案手法に適合する指数曲線は,x-mixerに対する代替アンセターゼを利用する2次速度アップと一致していることを示した。 我々は、線形、二次、あるいは高次多項式制約の制約問題に対する量子スピードアップを探索するために使用できる組込み制約を満たすドライバーや混合項を見つけるための非常に一般的なアルゴリズム的処方薬を提供する。

Constructing Driver Hamiltonians and Mixing Operators such that they satisfy constraints is an important ansatz construction for quantum algorithms. We give general algebraic expressions for finding Hamiltonian terms and analogously unitary primitives, that satisfy constraint embeddings and use these to give complexity characterizations of the related problems. Finding operators that enforce classical constraints is proven to be NP-Complete in the general case; algorithmic procedures with worse-case polynomial runtime to find any operators with a constant locality bound, applicable for many constraints. We then give algorithmic procedures to turn these algebraic primitives into Hamiltonian drivers and unitary mixers that can be used for Constrained Quantum Annealing (CQA) and Quantum Alternating Operator Ansatz (QAOA) constructions by tackling practical problems related to finding an appropriate set of reduced generators and defining corresponding drivers and mixers accordingly. We then apply these concepts to the construction of ansaetze for 1-in-3 SAT instances. We consider the ordinary x-mixer QAOA, a novel QAOA approach based on the maximally disjoint subset, and a QAOA approach based on the disjoint subset as well as higher order constraint satisfaction terms. We empirically benchmark these approaches on instances sized between 12 and 22, showing the best relative performance for the tailored ansaetze and that exponential curve fits on the results are consistent with a quadratic speedup by utilizing alternative ansaetze to the x-mixer. We provide very general algorithmic prescriptions for finding driver or mixing terms that satisfy embedded constraints that can be utilized to probe quantum speedups for constraints problems with linear, quadratic, or even higher order polynomial constraints.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# 文書理解のための大規模言語モデルにおけるレイアウトとテキストのインターリービング

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding ( http://arxiv.org/abs/2407.01976v1 )

ライセンス: Link先を確認
Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang, (参考訳) 近年,OCRから派生したテキストと空間レイアウトを大言語モデル(LLM)にのみ組み込むことは,文書理解作業において極めて効果的であることが実証されている。 しかし、スペースレイアウトをテキストと統合する既存の手法には、過剰に長いテキストシーケンスを生成したり、LLMの自己回帰特性を完全に活用できないといった制限がある。 本稿では,文書理解のための大規模言語モデル (LayTextLLM) におけるインターリービングレイアウトとテキストの導入について述べる。 特にLayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。 LayTextLLMは、レイアウトとテキストデータの相互作用を合理化するだけでなく、キー情報抽出(KIE)とビジュアル質問回答(VQA)のパフォーマンスも向上する。 総合的なベンチマーク評価では、KIEタスクが27.0%、VQAタスクが24.1%、従来の最先端の文書理解MLLMが15.5%向上した。

Recently, many studies have demonstrated that exclusively incorporating OCR-derived text and spatial layouts with large language models (LLMs) can be highly effective for document understanding tasks. However, existing methods that integrate spatial layouts with text have limitations, such as producing overly long text sequences or failing to fully leverage the autoregressive traits of LLMs. In this work, we introduce Interleaving Layout and Text in a Large Language Model (LayTextLLM)} for document understanding. In particular, LayTextLLM projects each bounding box to a single embedding and interleaves it with text, efficiently avoiding long sequence issues while leveraging autoregressive traits of LLMs. LayTextLLM not only streamlines the interaction of layout and textual data but also shows enhanced performance in Key Information Extraction (KIE) and Visual Question Answering (VQA). Comprehensive benchmark evaluations reveal significant improvements, with a 27.0% increase on KIE tasks and 24.1% on VQA tasks compared to previous state-of-the-art document understanding MLLMs, as well as a 15.5% improvement over other SOTA OCR-based LLMs on KIE tasks.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# グラフにまたがるグローバルインタラクティブパターンの展開 - 解釈可能なグラフニューラルネットワークを目指して

Unveiling Global Interactive Patterns across Graphs: Towards Interpretable Graph Neural Networks ( http://arxiv.org/abs/2407.01979v1 )

ライセンス: Link先を確認
Yuwen Wang, Shunyu Liu, Tongya Zheng, Kaixuan Chen, Mingli Song, (参考訳) グラフニューラルネットワーク(GNN)はグラフマイニングの著名なフレームワークとして登場し、様々な領域で大きな進歩を遂げている。 GNNのノードワイズ表現から、既存の説明研究は、決定結果をノードの健全な特徴と局所構造に関連付けるサブグラフ固有の視点を取り入れている。 しかし、グラフレベルのタスクは、高度なGNNに対する長距離依存やグローバルなインタラクションを必要とし、サブグラフ固有の説明からかなり逸脱する。 このギャップを埋めるために,本論文では,学習可能なグローバル対話型パターンを導入して決定を明示的に解釈する,GIP学習と呼ばれる,グラフ分類の本質的な解釈可能な新しいスキームを提案する。 GIPはまず、制約付きグラフクラスタリングモジュールを使用して多数のノードをクラスタリングすることで、解釈の複雑さに取り組む。 そして、粗いグローバルインタラクティブインスタンスと自己解釈可能なグラフプロトタイプのバッチとを一致させ、透過的なグラフレベルの推論プロセスを容易にする。 総合的および実世界のベンチマークで実施された広範囲な実験により、提案されたGIPは、最先端技術と比較して、解釈可能性と競争性能が著しく優れていることが証明された。 私たちのコードは公開されます。

Graph Neural Networks (GNNs) have emerged as a prominent framework for graph mining, leading to significant advances across various domains. Stemmed from the node-wise representations of GNNs, existing explanation studies have embraced the subgraph-specific viewpoint that attributes the decision results to the salient features and local structures of nodes. However, graph-level tasks necessitate long-range dependencies and global interactions for advanced GNNs, deviating significantly from subgraph-specific explanations. To bridge this gap, this paper proposes a novel intrinsically interpretable scheme for graph classification, termed as Global Interactive Pattern (GIP) learning, which introduces learnable global interactive patterns to explicitly interpret decisions. GIP first tackles the complexity of interpretation by clustering numerous nodes using a constrained graph clustering module. Then, it matches the coarsened global interactive instance with a batch of self-interpretable graph prototypes, thereby facilitating a transparent graph-level reasoning process. Extensive experiments conducted on both synthetic and real-world benchmarks demonstrate that the proposed GIP yields significantly superior interpretability and competitive performance to~the state-of-the-art counterparts. Our code will be made publicly available.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# SADL: 構成的視覚的QAのための効果的な文脈内学習手法

SADL: An Effective In-Context Learning Method for Compositional Visual QA ( http://arxiv.org/abs/2407.01983v1 )

ライセンス: Link先を確認
Long Hoang Dang, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran, (参考訳) 大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。 LVLMは画像探索・回答三重項のデモを数回行ったところ、そのパターンを識別し、この潜伏した知識を伝達して、高価な監督された微調整を必要とせずに、目に見えない画像に関する新しい疑問に答える能力を示した。 しかし、効果的な視覚言語プロンプトの設計、特に構成問題については、いまだに理解されていない。 言語のみのICL技術への適応は、視覚言語的な意味的ギャップを埋める必要があるため、必ずしも機能しないかもしれない: 象徴的な概念は、統語的言語構造を共有しない視覚的内容に基礎を置く必要がある。 本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。 SADLは、SAmpling、Deliberation、Pseudo-Labelingの3つの重要なコンポーネントを中心に展開されている。 画像検索クエリが与えられた場合、クエリにセマンティックに近接するトレーニングデータから画像検索ペアをサンプリングする。 質問の構成的性質に対処するために、議論は複雑な質問を一連のサブクエストに分解する。 最後に、シークエンスを1つのサブクエストに段階的に注釈付けし、擬似ラベルのシーケンスを生成する。 大規模ビジュアルQAデータセット(GQA, GQA-OOD, CLEVR, CRIC)のOpenFlamingoにおけるSADLの挙動について検討した。 評価は,画像近傍でのサンプリング,複雑な質問の分解,サブクエストとラベルの正確なペアリングにおける重要な役割を示す。 これらの発見は、言語のみのICLに見られるものと必ずしも一致せず、視覚言語設定に対する新たな洞察を示唆している。

Large vision-language models (LVLMs) offer a novel capability for performing in-context learning (ICL) in Visual QA. When prompted with a few demonstrations of image-question-answer triplets, LVLMs have demonstrated the ability to discern underlying patterns and transfer this latent knowledge to answer new questions about unseen images without the need for expensive supervised fine-tuning. However, designing effective vision-language prompts, especially for compositional questions, remains poorly understood. Adapting language-only ICL techniques may not necessarily work because we need to bridge the visual-linguistic semantic gap: Symbolic concepts must be grounded in visual content, which does not share the syntactic linguistic structures. This paper introduces SADL, a new visual-linguistic prompting framework for the task. SADL revolves around three key components: SAmpling, Deliberation, and Pseudo-Labeling of image-question pairs. Given an image-question query, we sample image-question pairs from the training data that are in semantic proximity to the query. To address the compositional nature of questions, the deliberation step decomposes complex questions into a sequence of subquestions. Finally, the sequence is progressively annotated one subquestion at a time to generate a sequence of pseudo-labels. We investigate the behaviors of SADL under OpenFlamingo on large-scale Visual QA datasets, namely GQA, GQA-OOD, CLEVR, and CRIC. The evaluation demonstrates the critical roles of sampling in the neighborhood of the image, the decomposition of complex questions, and the accurate pairing of the subquestions and labels. These findings do not always align with those found in language-only ICL, suggesting fresh insights in vision-language settings.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# てんかん性不確実性ホール--ベイズニューラルネットワークの問題点

The Epistemic Uncertainty Hole: an issue of Bayesian Neural Networks ( http://arxiv.org/abs/2407.01985v1 )

ライセンス: Link先を確認
Mohammed Fellaji, Frédéric Pennerath, (参考訳) Bayesian Deep Learning (BDL)は、標準的なニューラルネットワークが既に行っているように、アレータティックな不確実性だけでなく、エピステマティックな不確実性にもアクセスする。 本稿では,モデルサイズとトレーニングセットのサイズに関する疫学的な不確実性指標の進化が,理論的な期待に反することを示す。 より正確には、疫学的な不確実性は、全く逆の振る舞いを期待しながら、大きなモデルの存在時に文字通り崩壊し、トレーニングデータもほとんど得られないことを観察する。 この現象は、私たちが「疫学的不確実性穴」と呼んでいるが、それは、正確にはてんかん不確実性の使用に基づくBDLの適用可能性全体を損なうものであるため、より問題となる。 例えば、この不確実性ホールがBDLの主な応用の1つ、すなわちアウト・オブ・ディストリビューション・サンプルの検出に与える影響について評価する。

Bayesian Deep Learning (BDL) gives access not only to aleatoric uncertainty, as standard neural networks already do, but also to epistemic uncertainty, a measure of confidence a model has in its own predictions. In this article, we show through experiments that the evolution of epistemic uncertainty metrics regarding the model size and the size of the training set, goes against theoretical expectations. More precisely, we observe that the epistemic uncertainty collapses literally in the presence of large models and sometimes also of little training data, while we expect the exact opposite behaviour. This phenomenon, which we call "epistemic uncertainty hole", is all the more problematic as it undermines the entire applicative potential of BDL, which is based precisely on the use of epistemic uncertainty. As an example, we evaluate the practical consequences of this uncertainty hole on one of the main applications of BDL, namely the detection of out-of-distribution samples
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# AHMsys:BIMプロジェクトのための自動HVACモデリングシステム

AHMsys: An Automated HVAC Modeling System for BIM Project ( http://arxiv.org/abs/2407.01987v1 )

ライセンス: Link先を確認
Long Hoang Dang, Duy-Hung Nguyen, Thai Quang Le, Thinh Truong Nguyen, Clark Mei, Vu Hoang, (参考訳) 本稿では,ビルディング・インフォメーション・モデリング (BIM) の重要な構成要素であるCAD図面から3次元加熱, 換気, 空調(HVAC)モデルを自動生成するシステムAHMsysを提案する。 提案したAHMsysは,AkilaにおけるBIMプロセスの20%の作業スケジュールを大幅に短縮した。 この進歩は、建物のデジタル表現のライフサイクルを管理する上で、AIテクノロジを統合することの重要性を強調している。

This paper presents a novel system, named AHMsys, designed to automate the process of generating 3D Heating, Ventilation, and Air Conditioning (HVAC) models from 2D Computer-Aided Design (CAD) drawings, a key component of Building Information Modeling (BIM). By automatically preprocessing and extracting essential HVAC object information then creating detailed 3D models, our proposed AHMsys significantly reduced the 20 percent work schedule of the BIM process in Akila. This advancement highlights the essential impact of integrating AI technologies in managing the lifecycle of a digital representation of the building.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# プリンストン物理学セミナー

Princeton seminars on physics and philosophy ( http://arxiv.org/abs/2407.01989v1 )

ライセンス: Link先を確認
Carlo Rovelli, (参考訳) これらは、私が2024年11月にプリンストン哲学部で招待される一連のセミナーのために準備された講義ノートです。 それらは、量子重力の概念構造、量子力学のリレーショナル解釈、時間の構造、その方向、未来の開放性、情報と意味の物理的基盤、そして概念がパースペクティビリズムと反境界主義に基づいて進化するという事実に関する一般的な考察をカバーしている。

These are lectures notes prepared for a series of seminars I am invited to give at Princeton Philosophy Department in November 2024. They cover the conceptual structure of quantum gravity, the relational interpretation of quantum mechanics, the structure of time, its orientation and the openness of the future, the physical underpinning of information and meaning, and some general considerations on the fact that concepts evolve, on perspectivalism and anti-foundationalism.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# 環内原子超流動を用いたハイブリッド回転キャビティ光学

Hybrid Rotational Cavity Optomechanics Using Atomic Superfluid in a Ring ( http://arxiv.org/abs/2407.01990v1 )

ライセンス: Link先を確認
Sanket Das, Pardeep Kumar, M. Bhattacharya, Tarak N. Dey, (参考訳) 本稿では,Lauguerre-Gaussian(LG)モードで駆動される光学キャビティ内に,環状に閉じ込められたボース・アインシュタイン凝縮体(BEC)を含むハイブリッド光学系を導入する。 スパイラル位相要素はキャビティの端ミラーとして機能し、後部ミラーはクランプされた支持体を介してキャビティ軸に沿ってねじれ振動する。 関連するシステム (P. Kumar et al , Phys. Lett. 127, 113601 (2021)] で説明されているように、凝縮原子は軌道角運動量を持つ光学キャビティモードと相互作用し、2つの原子側モードを生成する。 我々は,原子側モードと回転ミラー周波数に対応する出力雑音スペクトルのピークを3つ観測した。 捕捉されたBECの回転は、ミラーの共鳴周波数における量子ゆらぎを減少させる。 また, 原子側モード-キャビティ結合とオポロトレーション結合により, ハイブリッドシステムの諸成分間の二部構造および三部構造の絡み合いが生じることも見出した。 我々は、駆動場のトポロジカル電荷と凝縮原子の回転を調整することにより、サイドモードとミラーの周波数差を小さくする。 原子側モードがミラーで縮退すると、冷却の抑制によりキャビティとミラーモードの間の定常的な絡み合いが減少する。 提案手法は, 原子超流動循環と機械回転を組み合わせることで, 量子ゆらぎを低減し, 実験的に実現可能なパラメータを伴ってマクロな絡み合いを生じさせる, 汎用的なプラットフォームを提供する。

We introduce a hybrid optomechanical system containing an annularly trapped Bose-Einstein condensate (BEC) inside an optical cavity driven by Lauguerre-Gaussian (LG) modes. Spiral phase elements serve as the end mirrors of the cavity such that the rear mirror oscillates torsionally about the cavity axis through a clamped support. As described earlier in a related system [P. Kumar et. al., Phys. Rev. Lett. 127, 113601 (2021)], the condensate atoms interact with the optical cavity modes carrying orbital angular momentum which create two atomic side modes. We observe three peaks in the output noise spectrum corresponding to the atomic side modes and rotating mirror frequencies, respectively. We find that the trapped BEC's rotation reduces quantum fluctuations at the mirror's resonance frequency. We also find that the atomic side modes-cavity coupling and the optorotational coupling can produce bipartite and tripartite entanglements between various constituents of our hybrid system. We reduce the frequency difference between the side modes and the mirror by tuning the drive field's topological charge and the condensate atoms' rotation. When the atomic side modes become degenerate with the mirror, the stationary entanglement between the cavity and the mirror mode diminishes due to the suppression of cooling. Our proposal, which combines atomic superfluid circulation with mechanical rotation, provides a versatile platform for reducing quantum fluctuations and producing macroscopic entanglement with experimentally realizable parameters.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# アクター・クリティカル強化学習による測地線の生成と中間点の予測

Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints ( http://arxiv.org/abs/2407.01991v1 )

ライセンス: Link先を確認
Kazumi Kasaura, (参考訳) 無限小に定義された測度を持つ連続多様体上のすべての対の最も短い経路を見つけるために、中間点を再帰的に予測し、中間点予測を学ぶアクター・クリティカルな方法を提案する。 提案手法は,提案手法が局所的・グローバルな経路計画タスクにおいて既存手法よりも優れていることを示す。

To find the shortest paths for all pairs on continuous manifolds with infinitesimally defined metrics, we propose to generate them by predicting midpoints recursively and an actor-critic method to learn midpoint prediction. We prove the soundness of our approach and show experimentally that the proposed method outperforms existing methods on both local and global path planning tasks.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# 大規模言語モデルは知識があるのか、それともチョイスのみのチーターなのか?

Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? ( http://arxiv.org/abs/2407.01992v1 )

ライセンス: Link先を確認
Nishant Balepur, Rachel Rudinger, (参考訳) 最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢に答えることができることを示しているが、これはMCQAのLLMのリーダーボードランキングが選択のみの設定における能力に大きく影響していることを意味するのだろうか? これに対応するために、MCQAにおける選択のみのショートカットにLLMが過度に頼っているかどうかを探索するコントラストセットを用いる。 従来の研究では、高価なアノテーションやモデル生成データを使ってコントラストセットを構築していたが、既存のMCQAデータセットからコントラストセットを抽出するためにグラフマイニングを採用している。 提案手法は,選択のみの精度の高い6つのコモンセンス推論データセット群であるUnifiedQAを用いて,820のコントラストセットを構築する。 コントラストを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。 したがって、選択のみの精度に対するMCQAの感受性は高いが、選択のみのショートカットを活用できるため、LCMはMCQAのリーダーボード上で高いランクを得ていない。

Recent work shows that large language models (LLMs) can answer multiple-choice questions using only the choices, but does this mean that MCQA leaderboard rankings of LLMs are largely influenced by abilities in choices-only settings? To answer this, we use a contrast set that probes if LLMs over-rely on choices-only shortcuts in MCQA. While previous works build contrast sets via expensive human annotations or model-generated data which can be biased, we employ graph mining to extract contrast sets from existing MCQA datasets. We use our method on UnifiedQA, a group of six commonsense reasoning datasets with high choices-only accuracy, to build an 820-question contrast set. After validating our contrast set, we test 12 LLMs, finding that these models do not exhibit reliance on choice-only shortcuts when given both the question and choices. Thus, despite the susceptibility~of MCQA to high choices-only accuracy, we argue that LLMs are not obtaining high ranks on MCQA leaderboards just due to their ability to exploit choices-only shortcuts.
翻訳日:2024-07-03 16:34:10 公開日:2024-07-02
# ニューロシンボリック知識グラフ補完のための論理規則の簡易拡張

Simple Augmentations of Logical Rules for Neuro-Symbolic Knowledge Graph Completion ( http://arxiv.org/abs/2407.01994v1 )

ライセンス: Link先を確認
Ananjan Nandi, Navdeep Kaur, Parag Singla, Mausam, (参考訳) 高品質かつ高カバレッジのルールセットは、すべてのシンボリック推論の基礎を形成するため、ニューロシンボリック知識グラフ補完(NS-KGC)モデルの成功に不可欠である。 最近の文献ではルールセットを生成するためのニューラルモデルを構築しているが、予備実験では高いカバレッジを維持するのに苦労していることが示されている。 本研究では,(1)規則を帰納形式に変換すること,(2)構成関係の逆形式を用いる等価な規則を生成すること,(3)新しい規則を提案するランダムウォークという,既存の規則集合への単純な拡張を提案する。 最後に、潜在的に低品質なルールを実践します。 4つのデータセットと5つのルールセットベースライン設定に対する実験は、これらの単純な拡張が結果を継続的に改善し、最大7.1 pt MRRと8.5 pt Hits@1が、拡張なしでルールを使用することで得られることを示唆している。

High-quality and high-coverage rule sets are imperative to the success of Neuro-Symbolic Knowledge Graph Completion (NS-KGC) models, because they form the basis of all symbolic inferences. Recent literature builds neural models for generating rule sets, however, preliminary experiments show that they struggle with maintaining high coverage. In this work, we suggest three simple augmentations to existing rule sets: (1) transforming rules to their abductive forms, (2) generating equivalent rules that use inverse forms of constituent relations and (3) random walks that propose new rules. Finally, we prune potentially low quality rules. Experiments over four datasets and five ruleset-baseline settings suggest that these simple augmentations consistently improve results, and obtain up to 7.1 pt MRR and 8.5 pt Hits@1 gains over using rules without augmentations.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 空間モード多重化による光源分離推定における雑音の抑制

Suppression of noise in separation estimation of optical sources with spatial-mode demultiplexing ( http://arxiv.org/abs/2407.01995v1 )

ライセンス: Link先を確認
Fattah Sakuldee, Łukasz Rudnicki, (参考訳) 空間モードデマルチプレキシングは、非コヒーレントなソース間の分離を推定するための成功ツールであることが証明された。 しかし、測定ノイズの存在により、この技術によってもたらされた超解像は急速に悪化する。 形式的には、これはレイリーの呪いと呼ばれる直接的なイメージから知られており、理想的な空間モードのデマルチプレキシングを欠いているが、ノイズの多いシナリオで再び現れる。 本稿では,ノイズの破壊効果を抑制する手法を提案し,誤り訂正を効果的に行う方法を提案する。 生成の多項式と消滅演算子によって生じるランダムなユニタリチャネルによって与えられるノイズモデルに対し、モードデマルチプレクサを繰り返すことで、多数の繰り返しと小さなノイズ強度の制限の下で、それらを回転のグループで介入することで、完全ノイズデカップリングに到達できることを実証する。 変位雑音の特殊な場合, 除算器を2回使用し, パリティ演算子でインターレースすることにより, ノイズ構成が第1段と第2段の間に凍結されていることを考慮し, 完全な解法を実現することができる。 これにより、変位演算子によって生成される特別な種類のノイズに対する超解像の回復が可能となる。 さらに,この2つのステップ間の強い雑音相関を求めるため,このプロトコルにより測定精度が向上した。

Spatial mode demultiplexing was proved to be a successful tool for estimation of the separation between incoherent sources, allowing for sensitivity much below the Rayleigh limit. However, with the presence of measurement's noise, superresolution brought by this technique deteriorates rapidly. On a formal ground, this can be seen in terms of, so called, Rayleigh curse known from direct imaging, which while being absent for ideal spatial mode demultiplexing, goes back in a noisy scenario. In this article, we introduce a procedure to suppress the destructive effect of the noise, proposing a procedure effectively working as an error correction. For noise models given by a random unitary channel generated by a polynomial of creation and annihilation operators, we demonstrate that perfect noise decoupling can be reached by repeating the mode demultiplexers and intervening them by a group of rotations, in the limit of a large number of repetitions and small noise strength. For a special case of displacement noise, our solution is simplified: by using the demultiplexer twice, and interlacing it by a parity operator, given that the noise configuration is frozen between the first and the second step, a perfect decoupling can be achieved. This allows for a recovery of superresolution for a special class of noise generated by displacement operators. Furthermore, for a strong noise correlation between these two steps, our protocol provides an improved measurement resolution.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# ViG-Bias:ビジュアルなバイアス発見と緩和

ViG-Bias: Visually Grounded Bias Discovery and Mitigation ( http://arxiv.org/abs/2407.01996v1 )

ライセンス: Link先を確認
Marani Badr-Eddine, Hanini Mohamed, Malayarukil Nihitha, Christodoulidis Stergios, Vakalopoulou Maria, Ferrante Enzo, (参考訳) 批判的な意思決定プロセスにおける機械学習モデルの拡散は、バイアス発見と緩和戦略の必要性を浮き彫りにした。 バイアスのあるシステムの背後にある理由を特定するのは簡単ではない。 標準的なアプローチは、事前に定義されたデータサンプルのサブグループでモデルパフォーマンスを分析することで実行されるバイアス監査に頼っている。 しかし、視覚認識システムの障害モードを定義する特定の属性をa-prioriで知ることは必ずしも不可能である。 近年のアプローチでは, 大規模な視覚言語モデルを用いて, クロスモーダルな埋め込みの抽出とテキスト記述の生成を可能とし, 特定のモデルが不十分な部分群を特徴付ける手法が提案されている。 本研究では、視覚的説明(例えば、GradCAMなどの手法で生成したヒートマップ)を取り入れることで、そのようなバイアス発見や緩和フレームワークの性能を高めることができると論じる。 この目的のために、我々はVisually Grounded Bias Discovery and Mitigation (ViG-Bias)を紹介した。 我々の総合的な評価は、ビジュアルな説明を取り入れることで、CelebA、Waterbirds、NICO++など、いくつかの挑戦的なデータセットをまたいだDOMINO、FACTS、Bias-to-Textといった既存のテクニックが強化されることを示している。

The proliferation of machine learning models in critical decision making processes has underscored the need for bias discovery and mitigation strategies. Identifying the reasons behind a biased system is not straightforward, since in many occasions they are associated with hidden spurious correlations which are not easy to spot. Standard approaches rely on bias audits performed by analyzing model performance in pre-defined subgroups of data samples, usually characterized by common attributes like gender or ethnicity when it comes to people, or other specific attributes defining semantically coherent groups of images. However, it is not always possible to know a-priori the specific attributes defining the failure modes of visual recognition systems. Recent approaches propose to discover these groups by leveraging large vision language models, which enable the extraction of cross-modal embeddings and the generation of textual descriptions to characterize the subgroups where a certain model is underperforming. In this work, we argue that incorporating visual explanations (e.g. heatmaps generated via GradCAM or other approaches) can boost the performance of such bias discovery and mitigation frameworks. To this end, we introduce Visually Grounded Bias Discovery and Mitigation (ViG-Bias), a simple yet effective technique which can be integrated to a variety of existing frameworks to improve both, discovery and mitigation performance. Our comprehensive evaluation shows that incorporating visual explanations enhances existing techniques like DOMINO, FACTS and Bias-to-Text, across several challenging datasets, including CelebA, Waterbirds, and NICO++.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# SAVE:Segment Anything Modelを用いたSegment Audio-Visual Easy Way

SAVE: Segment Audio-Visual Easy way using Segment Anything Model ( http://arxiv.org/abs/2407.02004v1 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Chae Jung Park, (参考訳) オーディオ・ビジュアル・セグメンテーション(AVS)の主な目的は、ピクセルレベルでのセグメンテーション・マスクを正確に予測することにより、視覚シーン内の聴覚要素を正確に識別し、特定することである。 これを達成するには、このタスクに効果的に対処するために、データとモデルの側面を包括的に考慮する必要がある。 本研究は,AVSタスクに対して,事前訓練されたセグメントアプライスモデル(SAM)を効率的に適応する軽量なアプローチSAVEを提案する。 画像エンコーダアダプタをトランスフォーマブロックに組み込んで、異なるデータセット情報をよりよくキャプチャし、音声特徴をスパースプロンプトとしてエンコードする残差オーディオエンコーダアダプタを提案することにより、符号化段階における効果的なオーディオ-視覚融合と相互作用を実現する。 提案手法は,入力解像度を1024から256ピクセルに削減し,従来のSOTAと比較して高い性能を実現し,トレーニングと推論速度を高速化する。 大規模な実験により,提案手法が他のSOTA法よりも優れていることを示す。 さらに、合成データに事前トレーニングされたモデルを利用することで、実際のAVSBenchデータの性能が向上し、S4(V1S)サブセットで84.59 mIoU、入力画像に256ピクセルしか持たないMS3(V1M)セットで70.28 mIoUが達成される。 これにより、S4(V1S)では86.16 mIoU、MS3(V1M)では70.83 mIoUまで増加し、入力は1024ピクセルである。

The primary aim of Audio-Visual Segmentation (AVS) is to precisely identify and locate auditory elements within visual scenes by accurately predicting segmentation masks at the pixel level. Achieving this involves comprehensively considering data and model aspects to address this task effectively. This study presents a lightweight approach, SAVE, which efficiently adapts the pre-trained segment anything model (SAM) to the AVS task. By incorporating an image encoder adapter into the transformer blocks to better capture the distinct dataset information and proposing a residual audio encoder adapter to encode the audio features as a sparse prompt, our proposed model achieves effective audio-visual fusion and interaction during the encoding stage. Our proposed method accelerates the training and inference speed by reducing the input resolution from 1024 to 256 pixels while achieving higher performance compared with the previous SOTA. Extensive experimentation validates our approach, demonstrating that our proposed model outperforms other SOTA methods significantly. Moreover, leveraging the pre-trained model on synthetic data enhances performance on real AVSBench data, achieving 84.59 mIoU on the S4 (V1S) subset and 70.28 mIoU on the MS3 (V1M) set with only 256 pixels for input images. This increases up to 86.16 mIoU on the S4 (V1S) and 70.83 mIoU on the MS3 (V1M) with inputs of 1024 pixels.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 大規模言語モデルを用いたエンドツーエンド音声要約

An End-to-End Speech Summarization Using Large Language Model ( http://arxiv.org/abs/2407.02005v1 )

ライセンス: Link先を確認
Hengchao Shang, Zongyao Li, Jiaxin Guo, Shaojun Li, Zhiqiang Rao, Yuanchang Luo, Daimeng Wei, Hao Yang, (参考訳) 抽象音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。 長文入力の処理や長文入力と短文要約の複雑なクロスモーダルマッピングの取得に困難を伴う。 大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、これらの課題に対処するための新たな洞察をもたらした。 本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用し、LLMを用いて音声特徴から直接テキスト要約を生成するエンドツーエンドのSSumモデルを提案する。 LLM ベースの ASR と Text Summarization (TSum) タスクを補助タスクとして含む多段階トレーニングアプローチを採用する。 ASRタスクは、特徴空間を整列させ、LLMのより長い音声処理能力を高めるために使用される。 次に,TSumからSSumへのモデル移行を容易にするために,カリキュラム学習戦略を利用する。 最後に、我々のモデルは、How-2データセット上での競合性能を達成する。

Abstractive Speech Summarization (SSum) aims to generate human-like text summaries from spoken content. It encounters difficulties in handling long speech input and capturing the intricate cross-modal mapping between long speech inputs and short text summaries. Research on large language models (LLMs) and multimodal information fusion has provided new insights for addressing these challenges. In this paper, we propose an end-to-end SSum model that utilizes Q-Former as a connector for the audio-text modality and employs LLMs to generate text summaries directly from speech features. We adopt a multi-stage training approach that includes LLM based ASR and Text Summarization (TSum) tasks as auxiliary tasks. ASR tasks are used to align feature spaces and enhance the LLM's ability to handle longer speech. Then, we utilize a curriculum learning strategy to facilitate the model's transition from TSum to SSum. Finally, our model achieves competitive performance on the How-2 dataset.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# Feynman-Kac Operator expectation Estimator

Feynman-Kac Operator Expectation Estimator ( http://arxiv.org/abs/2407.02010v1 )

ライセンス: Link先を確認
Jingyuan Li, Wei Liu, (参考訳) Feynman-Kac Operator expectation Estimator (FKEE) は、MCMC(Markov Chain Monte Carlo) expectation Estimator)とは対照的に、多数のサンプルに頼らずに、対象の数学的期待を推定するための革新的な方法である。 FKEEは拡散ブリッジモデルとファインマン・カック作用素の近似から構成される。 鍵となる考え方は、初期時刻 $u(x_0,0)=\mathbb{E}[f(X_T)|X_0=x_0]$ でファインマン・カック方程式の解を使うことである。 本研究では,Physically Informed Neural Networks (PINN) を用いてFeynman-Kac演算子を近似し,予測推定器に拡散ブリッジモデルを組み込むことにより,データの利用効率を大幅に向上し,分散を大幅に低減する。 拡散ブリッジモデルはより一般的なMCMC法である。 広範囲なMCMCアルゴリズムを組み込むために,最小ワッサーシュタイン距離に基づく新しい拡散ブリッジモデルを提案する。 この拡散ブリッジモデルは普遍的であり、PINNのトレーニング時間を短縮する。 FKEEはまた、次元の呪いの悪影響を減らし、一般的なMCMC予測推定器において、$X$とパフォーマンス関数$f$の分布に対する仮定を弱める。 この普遍拡散橋模型の理論的性質も示されている。 最後に、Isingモデルのようなランダムグラフモデルにおける分割関数の近似に挑戦するタスクを含む、様々な具体的な実験を通して、本手法の利点と応用の可能性を示す。

The Feynman-Kac Operator Expectation Estimator (FKEE) is an innovative method for estimating the target Mathematical Expectation $\mathbb{E}_{X\sim P}[f(X)]$ without relying on a large number of samples, in contrast to the commonly used Markov Chain Monte Carlo (MCMC) Expectation Estimator. FKEE comprises diffusion bridge models and approximation of the Feynman-Kac operator. The key idea is to use the solution to the Feynmann-Kac equation at the initial time $u(x_0,0)=\mathbb{E}[f(X_T)|X_0=x_0]$. We use Physically Informed Neural Networks (PINN) to approximate the Feynman-Kac operator, which enables the incorporation of diffusion bridge models into the expectation estimator and significantly improves the efficiency of using data while substantially reducing the variance. Diffusion Bridge Model is a more general MCMC method. In order to incorporate extensive MCMC algorithms, we propose a new diffusion bridge model based on the Minimum Wasserstein distance. This diffusion bridge model is universal and reduces the training time of the PINN. FKEE also reduces the adverse impact of the curse of dimensionality and weakens the assumptions on the distribution of $X$ and performance function $f$ in the general MCMC expectation estimator. The theoretical properties of this universal diffusion bridge model are also shown. Finally, we demonstrate the advantages and potential applications of this method through various concrete experiments, including the challenging task of approximating the partition function in the random graph model such as the Ising model.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# DiGRAF: グラフ適応活性化関数

DiGRAF: Diffeomorphic Graph-Adaptive Activation Function ( http://arxiv.org/abs/2407.02013v1 )

ライセンス: Link先を確認
Krishna Sri Ipsit Mantri, Xinzhi Wang, Carola-Bibiane Schönlieb, Bruno Ribeiro, Beatrice Bevilacqua, Moshe Eliasof, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)のグラフデータに特化して設計された,新しいアクティベーション関数を提案する。 グラフ適応型およびフレキシブルなアクティベーション関数の必要性から,我々はDiGRAFを導入し,連続的なPiecewise-Affine Based (CPAB)変換を利用してグラフ適応型微分型アクティベーション関数をエンドツーエンドに学習する。 グラフ適応性と柔軟性に加えて、DiGRAFは、微分可能性、領域内の有界性、計算効率など、活性化関数に望ましいと広く認識されている特性も持っている。 我々は、様々なデータセットやタスクにまたがる広範な実験を行い、従来のグラフ固有のアクティベーション機能と比較して、DiGRAFの一貫性と優れた性能を示し、GNNのアクティベーション機能としての有効性を強調した。

In this paper, we propose a novel activation function tailored specifically for graph data in Graph Neural Networks (GNNs). Motivated by the need for graph-adaptive and flexible activation functions, we introduce DiGRAF, leveraging Continuous Piecewise-Affine Based (CPAB) transformations, which we augment with an additional GNN to learn a graph-adaptive diffeomorphic activation function in an end-to-end manner. In addition to its graph-adaptivity and flexibility, DiGRAF also possesses properties that are widely recognized as desirable for activation functions, such as differentiability, boundness within the domain and computational efficiency. We conduct an extensive set of experiments across diverse datasets and tasks, demonstrating a consistent and superior performance of DiGRAF compared to traditional and graph-specific activation functions, highlighting its effectiveness as an activation function for GNNs.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# データ効率の良い教師なし表現学習のためのマルチグラインドコントラスト

Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning ( http://arxiv.org/abs/2407.02014v1 )

ライセンス: Link先を確認
Chengchao Shen, Jianzhong Chen, Jianxin Wang, (参考訳) 既存のコントラスト学習手法は主に、一粒度表現学習(例えば、部分レベル、オブジェクトレベル、シーンレベル)に焦点を当てているため、他の粒度レベルの表現の伝達性は必然的に無視される。 本稿では,様々な粒度レベルの画像を効果的に表現し,広範囲な下流タスクの一般化を向上する多粒度表現の学習を目指す。 そこで本研究では,教師なし表現学習のためのMGC(Multi-Grained Contrast Method)を提案する。 具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。 大規模データセットを事前学習することなく、オブジェクト検出、インスタンスセグメンテーション、シーン解析、セマンティックセグメンテーション、キーポイント検出などの広範囲な下流タスクにおいて、既存の最先端手法よりも大幅に優れています。 さらに,本手法では,データ効率特性と表現伝達性に優れた実験結果が得られた。 ソースコードとトレーニングされたウェイトは、 \url{https://github.com/visresearch/mgc} で入手できる。

The existing contrastive learning methods mainly focus on single-grained representation learning, e.g., part-level, object-level or scene-level ones, thus inevitably neglecting the transferability of representations on other granularity levels. In this paper, we aim to learn multi-grained representations, which can effectively describe the image on various granularity levels, thus improving generalization on extensive downstream tasks. To this end, we propose a novel Multi-Grained Contrast method (MGC) for unsupervised representation learning. Specifically, we construct delicate multi-grained correspondences between positive views and then conduct multi-grained contrast by the correspondences to learn more general unsupervised representations. Without pretrained on large-scale dataset, our method significantly outperforms the existing state-of-the-art methods on extensive downstream tasks, including object detection, instance segmentation, scene parsing, semantic segmentation and keypoint detection. Moreover, experimental results support the data-efficient property and excellent representation transferability of our method. The source code and trained weights are available at \url{https://github.com/visresearch/mgc}.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 単光子強結合限界におけるパラメトリック光-物質相互作用

Parametric Light-Matter Interaction in the Single-Photon Strong Coupling Limit ( http://arxiv.org/abs/2407.02024v1 )

ライセンス: Link先を確認
C. A. Potts, R. C. Dekker, S. Deve, E. W. Strijbis, G. A. Steel, (参考訳) 共振器間のパラメトリック結合は、例えば空洞光学において、線形共振器の特別な測定精度と制御を可能にしている。 このレベルの制御は、強いサイドバンドドライブを使用することで可能となり、相互作用を線形化しながら結合率を高めた。 本稿では,超伝導トランスモン量子ビットに置き換えるパラメトリック結合マイクロ波回路の新たなパラダイムを示す。 本システムは,光-圧力相互作用のマイクロ波アナログであるトランスモン量子ビットと高線形マイクロ波共振器との光-圧力結合を利用する。 強いサイドバンド駆動を適用すると、オンデマンドで非線形のJaynes-Cummingsが線形共振器と相互作用する。 また, 単一光子結合率を全崩壊速度より桁違いに大きくし, デバイスを単一光子結合系に配置する。 この光子-圧力Jaynes-Cummings相互作用の実証は、新しい光子-圧力量子情報処理ハードウェアの開発の道を開くものであり、この新しいプラットフォームを機械共振器で対向させることで、将来量子重力のエキゾチックなテストを可能にする。

Parametric coupling between harmonic oscillators has enabled exquisite measurement precision and control of linear resonators, being extensively studied, for example, in cavity optomechanics. This level of control has been made possible by using strong sideband drives, enhancing the coupling rate while also linearizing the interaction. In this article, we demonstrate a new paradigm of parametrically coupled microwave circuits replacing one \textit{linear} microwave cavity with a superconducting transmon qubit. Our system utilizes photon-pressure coupling between the transmon qubit and a highly linear microwave resonator, a microwave analog of the radiation-pressure interaction. Applying a strong sideband drive results in an on-demand, non-linear Jaynes-Cummings interaction with the linear resonator. We also observe a single-photon coupling rate an order of magnitude larger than all decay rates, placing the device in the single-photon strong coupling regime. This demonstration of photon-pressure Jaynes-Cummings interactions paves the way for developing novel photon-pressure quantum information processing hardware and will enable exotic tests of quantum gravity in the future by interfacing this new platform with mechanical resonators.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 疎幾何MPNNの表現力について

On the Expressive Power of Sparse Geometric MPNNs ( http://arxiv.org/abs/2407.02025v1 )

ライセンス: Link先を確認
Yonatan Sverdlov, Nadav Dym, (参考訳) 化学およびその他の科学の応用によって動機付けられ, ノード特徴が3次元位置に対応する幾何学グラフに対するメッセージパッシングニューラルネットワークの表現力について検討する。 最近の研究は、そのようなモデルが非等価な幾何グラフの一般的なペアを分離できることを示した。 しかしながら、これらの結果は、各ノードが他のすべてのノードの完全な知識を持つ完全連結グラフを仮定する。 対照的に、応用において、どのノードも少数の近接する近傍の知識しか持たない。 本稿では,非等価な幾何グラフの一般対を,基礎となるグラフが接続されている限り,回転同変特性を持つメッセージパッシングネットワークで分離可能であることを示す。 不変な中間特徴のみを許す場合、汎用的に大域的に厳密なグラフに対して一般的な分離が保証される。 EGENNETというシンプルなアーキテクチャを導入し、理論的保証を達成し、合成および化学ベンチマーク上の代替アーキテクチャと比較する。

Motivated by applications in chemistry and other sciences, we study the expressive power of message-passing neural networks for geometric graphs, whose node features correspond to 3-dimensional positions. Recent work has shown that such models can separate generic pairs of non-equivalent geometric graphs, though they may fail to separate some rare and complicated instances. However, these results assume a fully connected graph, where each node possesses complete knowledge of all other nodes. In contrast, often, in application, every node only possesses knowledge of a small number of nearest neighbors. This paper shows that generic pairs of non-equivalent geometric graphs can be separated by message-passing networks with rotation equivariant features as long as the underlying graph is connected. When only invariant intermediate features are allowed, generic separation is guaranteed for generically globally rigid graphs. We introduce a simple architecture, EGENNET, which achieves our theoretical guarantees and compares favorably with alternative architecture on synthetic and chemical benchmarks.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# Rydberg原子の高次相互作用のプログラミング

Programming higher-order interactions of Rydberg atoms ( http://arxiv.org/abs/2407.02026v1 )

ライセンス: Link先を確認
Andrew Byun, Seokho Jeong, Jaewook Ahn, (参考訳) スピンベースのハミルトニアンにおける高次相互作用は、多くの基本的な物理的問題に対処するために不可欠である。 本研究では、Rydberg-atom graph gadgets を導入し、Rydberg atom system 内の$K$-thorder 相互作用を効果的にプログラムする。 このアプローチは、高次非制約最適化問題を解くために符号化されたイジン型ハミルトンの基底状態の決定を容易にする。 よいスケーリングの振る舞いである$O(N^K)$は、$N$-頂点ハイパーグラフ最適化問題に必要な原子の数で期待できる。

Higher-order interactions in spin-based Hamiltonians are crucial in addressing numerous fundamentally significant physical problems. In this work, Rydberg-atom graph gadgets are introduced to effectively program $K$-th order interactions within a Rydberg atom system. This approach facilitates the determination of the ground states of an Ising-type Hamiltonian, encoded to solve higher-order unconstrained optimization problems. A favorable scaling behavior, $O(N^K)$, is expected in terms of the number of atoms required for $N$-vertex hypergraph optimization problems.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 汎用AIシステムのプライバシリスク:実践者の視点を調査するための基盤

Privacy Risks of General-Purpose AI Systems: A Foundation for Investigating Practitioner Perspectives ( http://arxiv.org/abs/2407.02027v1 )

ライセンス: Link先を確認
Stephen Meisenbacher, Alexandra Klymenko, Patrick Gage Kelley, Sai Teja Peddinti, Kurt Thomas, Florian Matthes, (参考訳) 強力なAIモデルの台頭、より正式には$\textit{General-Purpose AI Systems}$ (GPAIS)は、幅広いタスクでパフォーマンスが飛躍的に向上した。 同時に、研究者や実践者たちも、多くのプライバシー上の懸念を提起し、その結果、さまざまなプライバシーリスクとAIモデルの脆弱性に関する多くの文献が報告された。 このようなリスクを調査する作業は、異なる焦点を与え、明確に分類を統一することなく、異なるプライバシーリスクのセットを生み出す。 我々は,これらの調査論文の体系的レビューを行い,GPAISにおけるプライバシーリスクの簡潔かつ有用な概観と緩和策を提案する。 開発されたプライバシフレームワークは、特定されたプライバシのリスクと軽減を、非専門家がアクセス可能な技術的レベルで統一することを目指している。 これは、GPAISのプライバシーリスクと緩和に関する技術ステークホルダーの認識を評価する実践者中心のインタビュー研究の基礎となる。

The rise of powerful AI models, more formally $\textit{General-Purpose AI Systems}$ (GPAIS), has led to impressive leaps in performance across a wide range of tasks. At the same time, researchers and practitioners alike have raised a number of privacy concerns, resulting in a wealth of literature covering various privacy risks and vulnerabilities of AI models. Works surveying such risks provide differing focuses, leading to disparate sets of privacy risks with no clear unifying taxonomy. We conduct a systematic review of these survey papers to provide a concise and usable overview of privacy risks in GPAIS, as well as proposed mitigation strategies. The developed privacy framework strives to unify the identified privacy risks and mitigations at a technical level that is accessible to non-experts. This serves as the basis for a practitioner-focused interview study to assess technical stakeholder perceptions of privacy risks and mitigations in GPAIS.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 文脈内学習はなぜ失敗するのか? オープンおよびクローズドな質問に対する文脈内学習の評価

Why does in-context learning fail sometimes? Evaluating in-context learning on open and closed questions ( http://arxiv.org/abs/2407.02028v1 )

ライセンス: Link先を確認
Xiang Li, Haoran Tang, Siyu Chen, Ziwei Wang, Ryan Chen, Marcin Abram, (参考訳) オープン・クローズドな質問に対するタスクノベルティと難解さの関数として,文脈内学習の性能を測定した。 その目的のために、我々は、それぞれが様々な関連性の文脈と組み合わせて、硬い科学的疑問からなる新しいベンチマークを作成しました。 反故意に、トピックとより整合したコンテキストは、必ずしもあまり関係のないコンテキストに役立ちません。 この効果は、特にオープンな質問や、高い難易度や斬新さに関する質問に顕著である。 この結果から,大規模モデルによるクローズドフォームとオープンフォームの問合せの扱いの根本的な違いが明らかとなり,様々な種類の問合せに対して,文脈内学習をより堅牢に評価することの必要性が示唆された。 また、特にレトリーバル拡張生成(RAG)システムのコンテキストにおいて、大規模言語モデルのコンテキストをどのように最適に選択するかという新しい疑問も提起している。 この結果から,質問の形式,質問の難易度,求めている情報の新規性や人気度などの要因を考慮すれば,この質問に対する回答は高いアプリケーション依存性を持つ可能性が示唆された。

We measure the performance of in-context learning as a function of task novelty and difficulty for open and closed questions. For that purpose, we created a novel benchmark consisting of hard scientific questions, each paired with a context of various relevancy. We show that counter-intuitively, a context that is more aligned with the topic does not always help more than a less relevant context. This effect is especially visible for open questions and questions of high difficulty or novelty. This result reveals a fundamental difference between the treatment of close-form and open-form questions by large-language models and shows a need for a more robust evaluation of in-context learning on the variety of different types of questions. It also poses a new question of how to optimally select a context for large language models, especially in the context of Retrieval Augmented Generation (RAG) systems. Our results suggest that the answer to this question can be highly application-dependent and might be contingent on factors including the format of the question, the perceived difficulty level of the questions, and the novelty or popularity of the information we seek.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# 橋梁の破断性:接触仮説によるLCMにおける社会的バイアスの評価と緩和

Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis ( http://arxiv.org/abs/2407.02030v1 )

ライセンス: Link先を確認
Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu, (参考訳) 大規模言語モデル(LLM)は、訓練データに偏見を反映し、社会的ステレオタイプや不平等を補強する社会バイアスを持続させる。 我々の研究は、LLMを嫌悪する社会心理学の概念であるコンタクト仮説の可能性を探求する。 LLMを通して様々な形の社会接触をシミュレートし、モデルのバイアスに与える影響を計測し、集団間相互作用が社会的文脈における偏見を減らし得るかを反映する。 我々は、13の社会的バイアス次元にわたる3つのLLM(LLaMA, Tulu, NousHermes)におけるバイアスを測定するために、社会的接触を複製する原則的なアプローチに従って、108,000のプロンプトのデータセットを作成する。 本稿では,これらのモデルにプロンプトに対する非バイアス応答を付与する独自のデバイアス処理手法であるSocial Contact Debiasing(SCD)を提案する。 我々の研究は、LLM応答が接触探究の際の社会的バイアスを示すことを示したが、より重要なことは、これらのバイアスは、SCD戦略に従ってLLaMA 2を指導する1つの時代において、最大40%減少させることができることである。 私たちのコードとデータはhttps://github.com/chahatraj/breakingbias.comで公開されています。

Large Language Models (LLMs) perpetuate social biases, reflecting prejudices in their training data and reinforcing societal stereotypes and inequalities. Our work explores the potential of the Contact Hypothesis, a concept from social psychology for debiasing LLMs. We simulate various forms of social contact through LLM prompting to measure their influence on the model's biases, mirroring how intergroup interactions can reduce prejudices in social contexts. We create a dataset of 108,000 prompts following a principled approach replicating social contact to measure biases in three LLMs (LLaMA 2, Tulu, and NousHermes) across 13 social bias dimensions. We propose a unique debiasing technique, Social Contact Debiasing (SCD), that instruction-tunes these models with unbiased responses to prompts. Our research demonstrates that LLM responses exhibit social biases when subject to contact probing, but more importantly, these biases can be significantly reduced by up to 40% in 1 epoch of instruction tuning LLaMA 2 following our SCD strategy. Our code and data are available at https://github.com/chahatraj/breakingbias.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# SwiftDiffusion: アドオンモジュールを使った効率的な拡散モデル

SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules ( http://arxiv.org/abs/2407.02031v1 )

ライセンス: Link先を確認
Suyi Li, Lingyun Yang, Xiaoxiao Jiang, Hanfeng Lu, Zhipeng Di, Weiyi Lu, Jiawei Chen, Kan Liu, Yinghao Yu, Tao Lan, Guodong Yang, Lin Qu, Liping Zhang, Wei Wang, (参考訳) 本稿では,テキスト・ツー・イメージ・リクエストを安定な拡散モデルで実運用で提供するための特徴的研究と実践について述べる。 まず、商用のテキスト・ツー・イメージ・アプリケーションにおける推論要求トレースを包括的に分析する。 ベースとなる安定拡散モデルを拡張したアドオンモジュールであるControlNetsとLoRAsは、商用アプリケーション用の画像生成においてユビキタスである、という私たちの観察から始まります。 有効性にもかかわらず、これらのアドオンモジュールは高いロードオーバヘッドをもたらし、サービスレイテンシを長くし、高価なGPUリソースを飲み込む。 スウィフトディフュージョン(SwiftDiffusion)とは,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムである。 これを実現するために、SwiftDiffusionは、並列計算の機会を特定し、複数のGPUにまたがるControlNet計算を分散することにより、既存のテキスト・ツー・イメージ・サービスワークフローを再構築する。 さらに、SwiftDiffusionは、画像生成のダイナミクスを徹底的に分析し、画像品質を保ちながら、LoRAのロードとパッチに伴うオーバーヘッドを取り除く技術を開発した。 最後に、SwiftDiffusionは、安定した拡散モデルのバックボーンアーキテクチャにおける特別な最適化を提案している。 最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。

This paper documents our characterization study and practices for serving text-to-image requests with stable diffusion models in production. We first comprehensively analyze inference request traces for commercial text-to-image applications. It commences with our observation that add-on modules, i.e., ControlNets and LoRAs, that augment the base stable diffusion models, are ubiquitous in generating images for commercial applications. Despite their efficacy, these add-on modules incur high loading overhead, prolong the serving latency, and swallow up expensive GPU resources. Driven by our characterization study, we present SwiftDiffusion, a system that efficiently generates high-quality images using stable diffusion models and add-on modules. To achieve this, SwiftDiffusion reconstructs the existing text-to-image serving workflow by identifying the opportunities for parallel computation and distributing ControlNet computations across multiple GPUs. Further, SwiftDiffusion thoroughly analyzes the dynamics of image generation and develops techniques to eliminate the overhead associated with LoRA loading and patching while preserving the image quality. Last, SwiftDiffusion proposes specialized optimizations in the backbone architecture of the stable diffusion models, which are also compatible with the efficient serving of add-on modules. Compared to state-of-the-art text-to-image serving systems, SwiftDiffusion reduces serving latency by up to 5x and improves serving throughput by up to 2x without compromising image quality.
翻訳日:2024-07-03 16:24:25 公開日:2024-07-02
# TrAME:テキスト誘導型3Dガウス平滑マニピュレーションのための軌道対応マルチビュー編集

TrAME: Trajectory-Anchored Multi-View Editing for Text-Guided 3D Gaussian Splatting Manipulation ( http://arxiv.org/abs/2407.02034v1 )

ライセンス: Link先を確認
Chaofan Luo, Donglin Di, Yongjia Ma, Zhou Xue, Chen Wei, Xun Yang, Yebin Liu, (参考訳) 3Dシーン編集の分野では大きな進歩があったが、現在の手法は特に多視点編集プロセスにおける3D一貫性の維持において大きな課題に直面している。 この課題に対処するために,2重ブランチ編集機構を備えたTrajectory-Anchored Scheme (TAS) による複数ビューの整合性を保証するプログレッシブ3次元編集手法を提案する。 具体的には、TASは2次元ビュー編集と3次元更新の間に密結合された反復プロセスを促進し、テキスト・ツー・イメージ・プロセスから得られるエラーの蓄積を防止する。 さらに,最適化手法と再構成手法の関係を考察し,優れた設計選択を選択するための統一的な視点を提供し,設計されたTASの背後にある理論的根拠を支持する。 さらに,2次元ビューの編集中に,ソースブランチからのクロスビューセマンティクスと幾何参照を活用して,対象ブランチからアライメントされたビューを出力する,調整不要なビュー一貫性注意制御(VCAC)モジュールを提案する。 提案手法の有効性を検証するため,VCACモジュールとの整合性向上を実証するために2次元例を分析した。 テキスト誘導3Dシーン編集における定量的および定性的な結果から,本手法は最先端の手法に比べて優れた編集品質が得られることが示唆された。 ダブルブラインドレビュープロセスの完了後、完全なコードベースを公開します。

Despite significant strides in the field of 3D scene editing, current methods encounter substantial challenge, particularly in preserving 3D consistency in multi-view editing process. To tackle this challenge, we propose a progressive 3D editing strategy that ensures multi-view consistency via a Trajectory-Anchored Scheme (TAS) with a dual-branch editing mechanism. Specifically, TAS facilitates a tightly coupled iterative process between 2D view editing and 3D updating, preventing error accumulation yielded from text-to-image process. Additionally, we explore the relationship between optimization-based methods and reconstruction-based methods, offering a unified perspective for selecting superior design choice, supporting the rationale behind the designed TAS. We further present a tuning-free View-Consistent Attention Control (VCAC) module that leverages cross-view semantic and geometric reference from the source branch to yield aligned views from the target branch during the editing of 2D views. To validate the effectiveness of our method, we analyze 2D examples to demonstrate the improved consistency with the VCAC module. Further extensive quantitative and qualitative results in text-guided 3D scene editing indicate that our method achieves superior editing quality compared to state-of-the-art methods. We will make the complete codebase publicly available following the conclusion of the double-blind review process.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 等次元表現におけるPT対称フェルミオン粒子振動

PT symmetric fermionic particle oscillations in even dimensional representations ( http://arxiv.org/abs/2407.02036v1 )

ライセンス: Link先を確認
Leqian Chen, Sarben Sarkar, (参考訳) 相対論的および非相対論的両系における量子力学的粒子振動の新しいクラスを,$PT$対称性と$T^2=-1$に基づいて記述し,$P$はパリティであり,$T$は時間反転である。 ハミルトン群は、PT内積に関して自己共役であるように、最初から選択される。 量子力学的時間進化は、適切なC演算子によって構成された改良されたCPT内部積に基づいている。 結果として生じる量子力学的進化はユニタリであり、確率は振動によって保存される。

We describe a novel class of quantum mechanical particle oscillations in both relativistic and nonrelativistic systems based on $PT$ symmetry and $T^2=-1$, where $P$ is parity and $T$ is time reversal. The Hamiltonians are chosen at the outset to be self-adjoint with respect to a PT inner product. The quantum mechanical time evolution is based on a modified CPT inner product constructed in terms of a suitable C operator. The resulting quantum mechanical evolution is shown to be unitary and probability is conserved by the oscillations.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# カメラ-LiDARクロスモダリティ歩行認識

Camera-LiDAR Cross-modality Gait Recognition ( http://arxiv.org/abs/2407.02038v1 )

ライセンス: Link先を確認
Wenxuan Guo, Yingping Liang, Zhiyu Pan, Ziheng Xi, Jianjiang Feng, Jie Zhou, (参考訳) 歩行認識は重要な生体認証技術である。 カメラによる歩行認識は、研究分野と産業分野の両方に広く応用されている。 LiDARに基づく歩行認識も、3D構造情報の提供により、近年進化し始めている。 しかし、特定のアプリケーションでは、LiDARがうまく機能する低照度環境や長距離認識シナリオなど、カメラは人を認識することができない。 一方、LiDARシステムのデプロイメントコストと複雑さは、より広範なアプリケーションを制限する。 したがって,カメラとLiDAR間のクロスモダリティ歩行認識を幅広い用途で検討することが不可欠である。 そこで本研究では,カメラとLiDAR,すなわちCL-Gait間の最初のモダリティ間歩行認識フレームワークを提案する。 両方のモダリティを組み込むために2ストリームネットワークを採用している。 これは、3Dデータと2Dデータとの固有なマッチングにより、重要なモダリティの相違を示すため、困難な認識課題となる。 両モードの特徴空間,すなわちカメラシルエットとLiDAR点の特徴空間を整列するために,モダリティの相違を緩和するための対照的な事前学習戦略を提案する。 プレトレーニングのためのペアカメラ-LiDARデータの欠如を補うため,大規模にデータを生成する戦略も導入する。 この戦略は、単一のRGB画像と仮想カメラから推定される単眼深度を利用して、対照的な事前学習のための擬似点雲を生成する。 広汎な実験により、モダリティの歩行認識は非常に困難であるが、提案したモデルと事前学習戦略への可能性と実現可能性を含んでいることが示された。 私たちの知る限りでは、これはモダリティ間の歩行認識に対処する最初の試みである。

Gait recognition is a crucial biometric identification technique. Camera-based gait recognition has been widely applied in both research and industrial fields. LiDAR-based gait recognition has also begun to evolve most recently, due to the provision of 3D structural information. However, in certain applications, cameras fail to recognize persons, such as in low-light environments and long-distance recognition scenarios, where LiDARs work well. On the other hand, the deployment cost and complexity of LiDAR systems limit its wider application. Therefore, it is essential to consider cross-modality gait recognition between cameras and LiDARs for a broader range of applications. In this work, we propose the first cross-modality gait recognition framework between Camera and LiDAR, namely CL-Gait. It employs a two-stream network for feature embedding of both modalities. This poses a challenging recognition task due to the inherent matching between 3D and 2D data, exhibiting significant modality discrepancy. To align the feature spaces of the two modalities, i.e., camera silhouettes and LiDAR points, we propose a contrastive pre-training strategy to mitigate modality discrepancy. To make up for the absence of paired camera-LiDAR data for pre-training, we also introduce a strategy for generating data on a large scale. This strategy utilizes monocular depth estimated from single RGB images and virtual cameras to generate pseudo point clouds for contrastive pre-training. Extensive experiments show that the cross-modality gait recognition is very challenging but still contains potential and feasibility with our proposed model and pre-training strategy. To the best of our knowledge, this is the first work to address cross-modality gait recognition.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 大規模言語モデルを用いたテキストアノテーションのプロンプト安定スコーリング

Prompt Stability Scoring for Text Annotation with Large Language Models ( http://arxiv.org/abs/2407.02039v1 )

ライセンス: Link先を確認
Christopher Barrie, Elli Palaiologou, Petter Törnberg, (参考訳) 研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。 これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。 LM出力の再現性は、にもかかわらず、プロンプト設計の小さな変更に対して脆弱である。 これは分類ルーチンの複製可能性に疑問を投げかける。 この問題に対処するため、研究者は通常、我々が「急速安定」と呼ぶものを決定するために、意味論的に類似した様々なプロンプトをテストしてきた。 これらのアプローチは、アドホックかつタスク固有のままである。 本稿では,コーダ内およびコーダ間信頼性スコアリングに従来のアプローチを適用することにより,迅速な安定性を診断するための一般的な枠組みを提案する。 得られたメトリクスをPSS(Prompt Stability Score)と呼び、その推定のためにPythonパッケージのPromptStabilityを提供する。 6つの異なるデータセットと12の結果を使って、データの150k行を次のように分類します。 a) 迅速な安定性が低いときに診断すること、及び b) パッケージの機能を示す。 我々は、応用研究者にベストプラクティスの勧告を提供することで結論付ける。

Researchers are increasingly using language models (LMs) for text annotation. These approaches rely only on a prompt telling the model to return a given output according to a set of instructions. The reproducibility of LM outputs may nonetheless be vulnerable to small changes in the prompt design. This calls into question the replicability of classification routines. To tackle this problem, researchers have typically tested a variety of semantically similar prompts to determine what we call "prompt stability." These approaches remain ad-hoc and task specific. In this article, we propose a general framework for diagnosing prompt stability by adapting traditional approaches to intra- and inter-coder reliability scoring. We call the resulting metric the Prompt Stability Score (PSS) and provide a Python package PromptStability for its estimation. Using six different datasets and twelve outcomes, we classify >150k rows of data to: a) diagnose when prompt stability is low; and b) demonstrate the functionality of the package. We conclude by providing best practice recommendations for applied researchers.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# ScaleDreamer: 非同期スコア蒸留によるスケーラブルテキストから3D合成

ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation ( http://arxiv.org/abs/2407.02040v1 )

ライセンス: Link先を確認
Zhiyuan Ma, Yuxiang Wei, Yabin Zhang, Xiangyu Zhu, Zhen Lei, Lei Zhang, (参考訳) テキスト・ツー・イメージの拡散先を利用することにより、スコア蒸留は、ペアのテキスト3Dトレーニングデータなしで3Dコンテンツを合成することができる。 最近の研究では、テキストプロンプトごとのオンライン最適化に何時間も費やす代わりに、複数のテキスト3D関係を記憶するためのテキストから3D生成ネットワークの学習に焦点が当てられている。 しかし,様々なテキストプロンプトからの描画画像の分布に先行して,事前学習した拡散の調整が困難であることから,既存のスコア蒸留法は大量のテキストプロンプトにスケールアップすることが困難である。 変分スコア蒸留のような現在の最先端技術は、事前訓練された拡散モデルを微調整し、ノイズ予測誤差を最小限に抑え、トレーニングには不安定であり、多くのテキストプロンプトに対するモデルの理解能力を損なうような分布を整列させる。 拡散モデルが早期の時間ステップでノイズ予測誤差を小さくする傾向にあるという観測に基づいて,拡散時間ステップを早期の時間ステップにシフトすることでノイズ予測誤差を最小化する非同期スコア蒸留(ASD)を提案する。 ASDは訓練に安定しており、最大100kのプロンプトまでスケールできる。 事前学習した拡散モデルの重みを変更せずにノイズ予測誤差を低減し、その強い理解能力をプロンプトに維持する。 安定拡散やMVDream,Hyper-iNGP, 3DConv-Net, Triplane-Transformerなどのテキスト・ツー・3Dジェネレータなど,様々な2次元拡散モデルの広範な実験を行った。 その結果, 安定な3Dジェネレータの訓練, 高品質な3Dコンテンツ合成, 特に大規模プロンプトコーパスにおいて, 優れたプロンプト一貫性が得られた。

By leveraging the text-to-image diffusion priors, score distillation can synthesize 3D contents without paired text-3D training data. Instead of spending hours of online optimization per text prompt, recent studies have been focused on learning a text-to-3D generative network for amortizing multiple text-3D relations, which can synthesize 3D contents in seconds. However, existing score distillation methods are hard to scale up to a large amount of text prompts due to the difficulties in aligning pretrained diffusion prior with the distribution of rendered images from various text prompts. Current state-of-the-arts such as Variational Score Distillation finetune the pretrained diffusion model to minimize the noise prediction error so as to align the distributions, which are however unstable to train and will impair the model's comprehension capability to numerous text prompts. Based on the observation that the diffusion models tend to have lower noise prediction errors at earlier timesteps, we propose Asynchronous Score Distillation (ASD), which minimizes the noise prediction error by shifting the diffusion timestep to earlier ones. ASD is stable to train and can scale up to 100k prompts. It reduces the noise prediction error without changing the weights of pre-trained diffusion model, thus keeping its strong comprehension capability to prompts. We conduct extensive experiments across different 2D diffusion models, including Stable Diffusion and MVDream, and text-to-3D generators, including Hyper-iNGP, 3DConv-Net and Triplane-Transformer. The results demonstrate ASD's effectiveness in stable 3D generator training, high-quality 3D content synthesis, and its superior prompt-consistency, especially under large prompt corpus.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 大規模視覚言語モデルによるフェイクニュースの検出とマニピュレーション推論

Fake News Detection and Manipulation Reasoning via Large Vision-Language Models ( http://arxiv.org/abs/2407.02042v1 )

ライセンス: Link先を確認
Ruihan Jin, Ruibo Fu, Zhengqi Wen, Shuai Zhang, Yukun Liu, Jianhua Tao, (参考訳) フェイクニュースは、情報セキュリティと世論に対する脅威となり、メディア操作が急速に急増している。 そのため、偽ニュース検出は学術界から広く注目を集めている。 従来の偽ニュース検出モデルは、真正性二項分類において顕著な性能を示すが、ニュースコンテンツに基づいて詳細な偽の痕跡を推論する能力は、まだ探索されていない。 さらに、外部知識の欠如により、事実関連ニュースにおける既存手法の性能が疑問視され、実践的実装が不明確になる。 本稿では,新たなマルチメディア研究,すなわち操作推論を提案する。 操作推論はニュースコンテンツに基づいた操作を推論することを目的としている。 本研究を支援するために,Human-centric and Fact-related Fake News (HFFN) と呼ばれる偽ニュースの検出・操作推論のためのベンチマークを導入する。 このベンチマークでは、詳細なマニュアルアノテーションによって、人間の中心性と、高い事実的関連性を強調している。 HFFNは、3つの操作アプローチによって生成されたフェイクニュースサンプルを持つ4つの現実的なドメインを含んでいる。 さらに、マルチモーダルニュースの検出・推論言語Uage Model (M-DRUM) は、マルチモーダルニュースの信頼性を判断するだけでなく、潜在的操作に関する分析的理由も提起する。 特徴抽出レベルでは、多モード入力から微細な融合特徴を抽出するために、クロスアテンション機構を用いる。 推論レベルでは、大きな視覚言語モデル(LVLM)が事実関連推論を促進するバックボーンとして機能する。 2段階のトレーニングフレームワークがデプロイされ、識別と推論の能力をより活性化する。 GPT-4やLLaVAのような強力なLVLMやフェイクニュース検出モデルよりも優れた結果が得られた。

Fake news becomes a growing threat to information security and public opinion with the rapid sprawl of media manipulation. Therefore, fake news detection attracts widespread attention from academic community. Traditional fake news detection models demonstrate remarkable performance on authenticity binary classification but their ability to reason detailed faked traces based on the news content remains under-explored. Furthermore, due to the lack of external knowledge, the performance of existing methods on fact-related news is questionable, leaving their practical implementation unclear. In this paper, we propose a new multi-media research topic, namely manipulation reasoning. Manipulation reasoning aims to reason manipulations based on news content. To support the research, we introduce a benchmark for fake news detection and manipulation reasoning, referred to as Human-centric and Fact-related Fake News (HFFN). The benchmark highlights the centrality of human and the high factual relevance, with detailed manual annotations. HFFN encompasses four realistic domains with fake news samples generated through three manipulation approaches. Moreover, a Multi-modal news Detection and Reasoning langUage Model (M-DRUM) is presented not only to judge on the authenticity of multi-modal news, but also raise analytical reasoning about potential manipulations. On the feature extraction level, a cross-attention mechanism is employed to extract fine-grained fusion features from multi-modal inputs. On the reasoning level, a large vision-language model (LVLM) serves as the backbone to facilitate fact-related reasoning. A two-stage training framework is deployed to better activate the capacity of identification and reasoning. Comprehensive experiments demonstrate that our model outperforms state-of-the-art (SOTA) fake news detection models and powerful LVLMs like GPT-4 and LLaVA.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# ツール・ユース言語モデルにおける簡潔で高精度な文脈圧縮

Concise and Precise Context Compression for Tool-Using Language Models ( http://arxiv.org/abs/2407.02043v1 )

ライセンス: Link先を確認
Yang Xu, Yunlong Feng, Honglin Mu, Yutai Hou, Yitong Li, Xinghao Wang, Wanjun Zhong, Zhongyang Li, Dandan Tu, Qingfu Zhu, Min Zhang, Wanxiang Che, (参考訳) ドキュメントをコンテキストで読むことで、ツールを使用する言語モデルは、外部ツールを使用して動的に機能を拡張することができる。 コストは、モデルがツールを使用する必要があるたびに、長いドキュメントを入力し、入力ウィンドウを占有し、デコードプロセスを遅くすることです。 汎用圧縮の進歩を考えると、ソフトコンテキスト圧縮は問題を緩和するための適切なアプローチである。 しかしながら、ツールドキュメントを圧縮する場合、既存のメソッドはキー情報損失(特にツール/パラメータ名エラー)の弱点と、ドキュメントの長さに基づいて圧縮シーケンスの長さを調整するのが困難である。 これらの問題に対処するために,ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ正確な要約シーケンスに圧縮する2つの方法を提案する。 1)選択圧縮戦略は、キー情報を生のテキストトークンとして意図的に保持することにより、キー情報の損失を軽減する。 2) ブロック圧縮戦略では, ツールドキュメントを短いチャンクに分割し, 可変長圧縮を実現するために固定長圧縮モデルを用いる。 この戦略は圧縮比の柔軟な調整を容易にする。 API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。

Through reading the documentation in the context, tool-using language models can dynamically extend their capability using external tools. The cost is that we have to input lengthy documentation every time the model needs to use the tool, occupying the input window as well as slowing down the decoding process. Given the progress in general-purpose compression, soft context compression is a suitable approach to alleviate the problem. However, when compressing tool documentation, existing methods suffer from the weaknesses of key information loss (specifically, tool/parameter name errors) and difficulty in adjusting the length of compressed sequences based on documentation lengths. To address these problems, we propose two strategies for compressing tool documentation into concise and precise summary sequences for tool-using language models. 1) Selective compression strategy mitigates key information loss by deliberately retaining key information as raw text tokens. 2) Block compression strategy involves dividing tool documentation into short chunks and then employing a fixed-length compression model to achieve variable-length compression. This strategy facilitates the flexible adjustment of the compression ratio. Results on API-Bank and APIBench show that our approach reaches a performance comparable to the upper-bound baseline under up to 16x compression ratio.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# CountFormer: マルチビューの群衆カウント変換器

CountFormer: Multi-View Crowd Counting Transformer ( http://arxiv.org/abs/2407.02047v1 )

ライセンス: Link先を確認
Hong Mo, Xiong Zhang, Jianchao Tan, Cheng Yang, Qiong Gu, Bo Hang, Wenqi Ren, (参考訳) 多視点計数法(MVC)は、特に重閉塞と重度の視点歪みを特徴とする状況において、一視点計数法よりも優れていることを示す。 しかし,従来のMVC手法では,手作りのヒューリスティックな特徴と同一のカメラレイアウト要件により,実世界のシナリオにおける適用性とスケーラビリティが制限される。本研究では,シーンレベルのボリューム表現に多視点画像レベルの特徴を高め,ボリューム特徴に基づいて3次元密度マップを推定する,「textbf{CountFormer}」と呼ばれる簡潔な3D MVCフレームワークを提案する。 カメラエンコーディング戦略を取り入れたCountFormerは,カメラパラメータをボリュームクエリや画像レベルの特徴に組み込むことで,様々なカメラレイアウトを大きな違いなく扱えるようにした。 その後、マルチビューボリューム集約モジュールは、様々なマルチビューボリュームを注意深く集約して総合的なシーンレベルのボリューム表現を作成し、任意のダイナミックカメラレイアウトによってキャプチャされた画像を処理する。 提案手法は,従来のMVCフレームワークと比較して,現実のデプロイメントに適していることを示す。

Multi-view counting (MVC) methods have shown their superiority over single-view counterparts, particularly in situations characterized by heavy occlusion and severe perspective distortions. However, hand-crafted heuristic features and identical camera layout requirements in conventional MVC methods limit their applicability and scalability in real-world scenarios.In this work, we propose a concise 3D MVC framework called \textbf{CountFormer}to elevate multi-view image-level features to a scene-level volume representation and estimate the 3D density map based on the volume features. By incorporating a camera encoding strategy, CountFormer successfully embeds camera parameters into the volume query and image-level features, enabling it to handle various camera layouts with significant differences.Furthermore, we introduce a feature lifting module capitalized on the attention mechanism to transform image-level features into a 3D volume representation for each camera view. Subsequently, the multi-view volume aggregation module attentively aggregates various multi-view volumes to create a comprehensive scene-level volume representation, allowing CountFormer to handle images captured by arbitrary dynamic camera layouts. The proposed method performs favorably against the state-of-the-art approaches across various widely used datasets, demonstrating its greater suitability for real-world deployment compared to conventional MVC frameworks.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# ChatGPTによるロールプレイングゲームの発展

Revolutionising Role-Playing Games with ChatGPT ( http://arxiv.org/abs/2407.02048v1 )

ライセンス: Link先を確認
Rita Stampfl, Barbara Geyer, Marie Deissl-O'Meara, Igor Ivkić, (参考訳) 本研究は,応用科学バーゲンランド大学のクラウドコンピューティング工学修士課程におけるロールプレイングゲームにおけるChatGPTの利用について検討した。 本研究の目的は,AIによるシミュレーションが学生の学習経験に与える影響を分析することである。 ヴィゴツキーの社会文化的理論に基づいて、ChatGPTは学生にシミュレートされたビジネスシナリオにおける戦略的意思決定プロセスのより深い理解を与えるために用いられた。 方法として,20の学生反射のロールプレイングと質的内容分析を行った。 この結果から,ChatGPTは,理論知識の有効活用に寄与するだけでなく,学生のエンゲージメント,批判的思考,コミュニケーションスキルを高めることが示唆された。 さらに、シミュレーションは理論知識の効果的な応用に寄与することができる。 その結果,デジタル・リテラシーの推進と,デジタル・ワークスにおける学習者の育成における適応的な教育手法の重要性を浮き彫りにした。 カリキュラムへのAIの統合と高等教育における継続的なイノベーションの必要性もまた、優れた未来の指導を保証する手段として強調されている。 この発見は、特にAIとChatGPTの可能性を浮き彫りにしており、学習経験を高め、教育を通じて持続可能な開発目標(SDG)を達成するのに役立つ革新的な最先端の教育ツールである。

Digitalisation in education and its influence on teaching methods is the focus of this study, which examines the use of ChatGPT in a role-playing game used in the Cloud Computing Engineering Master's programme at the University of Applied Sciences Burgenland. The aim of the study was to analyse the impact of AI-based simulations on students' learning experience. Based on Vygotsky's sociocultural theory, ChatGPT was used to give students a deeper understanding of strategic decision-making processes in simulated business scenarios. The methodological approach included role-playing and qualitative content analysis of 20 student reflections. The findings suggest that ChatGPT enhances students' engagement, critical thinking, and communication skills, in addition to contributing to the effective application of theoretical knowledge. Furthermore, simulations can contribute to the effective application of theoretical knowledge. The results underscore the significance of adaptive teaching approaches in promoting digital literacy and equipping learners for the digital workplace. The integration of AI into curricula and the need for ongoing innovation in higher education are also emphasised as a means of guaranteeing excellent, future-focused instruction. The findings highlight the potential of AI and ChatGPT in particular, as an innovative cutting-edge educational tool that can both enhance the learning experience and help achieve the Sustainable Development Goals (SDGs) through education.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 完全テキスト制御メロディによる伴奏歌声合成

Accompanied Singing Voice Synthesis with Fully Text-controlled Melody ( http://arxiv.org/abs/2407.02049v1 )

ライセンス: Link先を確認
Ruiqi Li, Zhiqing Hong, Yongqi Wang, Lichao Zhang, Rongjie Huang, Siqi Zheng, Zhou Zhao, (参考訳) Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。 現在のTTSong法は、歌声合成(SVS)から受け継がれており、音楽スコアやMIDIシーケンスなど、時には非現実的なメロディ関連の情報を必要とする。 我々は,テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案し,最小限のユーザ要件と最大制御柔軟性を実現する。 メロディLMは、MIDIを中間メロディ関連の特徴として明示的にモデル化し、テキストと音声のプロンプトに基づいて、言語モデルで声楽トラックを逐次生成する。 その後、伴奏音楽は、時間的アライメントのためのハイブリッド条件付潜時拡散モデルにより合成される。 最小限の要件で、ユーザは歌詞と参照音声を入力するだけで、歌のサンプルを合成できる。 完全な制御を行うには、テキストプロンプトを入力するか、直接MIDIを入力すればよい。 実験結果から,MelodyLMは客観的,主観的両指標の両面において優れた性能を示した。 オーディオサンプルはhttps://melodylm666.github.io.comで入手できる。

Text-to-song (TTSong) is a music generation task that synthesizes accompanied singing voices. Current TTSong methods, inherited from singing voice synthesis (SVS), require melody-related information that can sometimes be impractical, such as music scores or MIDI sequences. We present MelodyLM, the first TTSong model that generates high-quality song pieces with fully text-controlled melodies, achieving minimal user requirements and maximum control flexibility. MelodyLM explicitly models MIDI as the intermediate melody-related feature and sequentially generates vocal tracks in a language model manner, conditioned on textual and vocal prompts. The accompaniment music is subsequently synthesized by a latent diffusion model with hybrid conditioning for temporal alignment. With minimal requirements, users only need to input lyrics and a reference voice to synthesize a song sample. For full control, just input textual prompts or even directly input MIDI. Experimental results indicate that MelodyLM achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://melodylm666.github.io.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# Paired Adversarial Residual Networksによるセキュアなセマンティック通信

Secure Semantic Communication via Paired Adversarial Residual Networks ( http://arxiv.org/abs/2407.02053v1 )

ライセンス: Link先を確認
Boxiang He, Fanggang Wang, Tony Q. S. Quek, (参考訳) 本稿では,セキュリティを意識したセマンティック通信システムに対する敵攻撃の正の側面について検討する。 具体的には、セマンティックトランスミッターの後に、セマンティックレシーバーの前に、一対のプラグ可能なモジュールがインストールされる。 送信機のモジュールは訓練可能な敵残差ネットワーク(ARN)を使用して敵の例を生成する一方、受信機のモジュールは別の訓練可能なARNを使用して敵の攻撃とチャネルノイズを除去する。 セマンティック盗難の脅威を軽減するため、訓練可能なALNは、敵攻撃の威力の重み付け和、セマンティック通信の平均2乗誤差、盗難者の信頼度を極力小さくするために共同最適化される。 提案手法は,高品質なセマンティック通信を維持しつつ,盗聴者を騙すことができることを示す。

This letter explores the positive side of the adversarial attack for the security-aware semantic communication system. Specifically, a pair of matching pluggable modules is installed: one after the semantic transmitter and the other before the semantic receiver. The module at transmitter uses a trainable adversarial residual network (ARN) to generate adversarial examples, while the module at receiver employs another trainable ARN to remove the adversarial attacks and the channel noise. To mitigate the threat of semantic eavesdropping, the trainable ARNs are jointly optimized to minimize the weighted sum of the power of adversarial attack, the mean squared error of semantic communication, and the confidence of eavesdropper correctly retrieving private information. Numerical results show that the proposed scheme is capable of fooling the eavesdropper while maintaining the high-quality semantic communication.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 抽象辞書フレームワークはBoolean Networks(フルバージョン)

Abstract Dialectical Frameworks are Boolean Networks (full version) ( http://arxiv.org/abs/2407.02055v1 )

ライセンス: Link先を確認
Jesse Heyninck, Matthias Knorr, João Leite, (参考訳) 弁証的フレームワークは形式的議論の統一モデルであり、議論間の議論的関係は、受け入れ条件を原子的議論に割り当てることによって表される。 それらの一般性は、議論構造を表現する様々な形態の様々なアプローチをカバーできる。 ブール制御ネットワークは、タンパク質や遺伝子などの生物学的化合物の相互作用を考慮して、複雑な生物学的過程のダイナミクスをモデル化するために用いられる。 これらのモデルは、例えば新しい医学的治療の文脈において、既知の振る舞いを再現し、新しい仮説とシリコの予測をテストすることができるように、そのような生物学的プロセスを理解するのに非常に有用であることが証明されている。 どちらのアプローチも全く異なるコミュニティに由来するが、その出現には顕著な類似点があることが判明した。 本稿では,これらの2つの形式主義の関係と,その相違点を明らかにすること,および,個々の形式主義に新たな結果を与えるための対応を導入することを提案する。

Dialectical frameworks are a unifying model of formal argumentation, where argumentative relations between arguments are represented by assigning acceptance conditions to atomic arguments. Their generality allow them to cover a number of different approaches with varying forms of representing the argumentation structure. Boolean regulatory networks are used to model the dynamics of complex biological processes, taking into account the interactions of biological compounds, such as proteins or genes. These models have proven highly useful for comprehending such biological processes, allowing to reproduce known behaviour and testing new hypotheses and predictions in silico, for example in the context of new medical treatments. While both these approaches stem from entirely different communities, it turns out that there are striking similarities in their appearence. In this paper, we study the relation between these two formalisms revealing their communalities as well as their differences, and introducing a correspondence that allows to establish novel results for the individual formalisms.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# Essence の統合と Dross の排除:自由言語生成のためのファイングラインド型自己整合性

Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation ( http://arxiv.org/abs/2407.02056v1 )

ライセンス: Link先を確認
Xinglin Wang, Yiwei Li, Shaoxiong Feng, Peiwen Yuan, Boyuan Pan, Heda Wang, Yao Hu, Kan Li, (参考訳) LLMの複数のサンプルを活用する自己整合性(SC)は、様々な推論タスクにおいて顕著に向上するが、回答の集約が困難であるため、自由形式生成に苦慮する。 UCSとUSCの変種は、出力品質を改善するためにサンプルの選択や投票機構に依存している。 しかしながら、これらの手法は、複数の候補サンプルに存在するニュアンスドコンセンサス知識を十分に活用できないために制限に直面しており、しばしば準最適出力をもたらす。 提案するFSC(Fen-Grained Self-Consistency)は,候補サンプルからセグメントレベルの共通点を抽出・統合し,オープンエンドタスクと推論タスクの両方においてLLMの性能を向上させることで,これらの制約に対処する。 これに基づいて、非常に類似した候補集合を識別することで全体的な品質を高める候補フィルタリングと、類似したサンプルを組み合わせることで入力トークン要求を減らすマージの2つの戦略を提案する。 FSCの有効性は、GPT-3.5-turbo と GPT-4 を用いて、要約、コード生成、数学的推論を含む様々なタスクに関する広範な実験によって実証される。 その結果,複数のサンプルから微細なコンセンサス知識を効果的に合成することにより,FSCが出力品質を最適化する可能性を示した。

Self-consistency (SC), leveraging multiple samples from LLMs, shows significant gains on various reasoning tasks but struggles with free-form generation due to the difficulty of aggregating answers. Its variants, UCS and USC, rely on sample selection or voting mechanisms to improve output quality. These methods, however, face limitations due to their inability to fully utilize the nuanced consensus knowledge present within multiple candidate samples, often resulting in suboptimal outputs. We propose Fine-Grained Self-Consistency (FSC) to addresses these limitations by extracting and integrating segment-level commonalities from candidate samples, enhancing the performance of LLMs both in open-ended and reasoning tasks. Based on this, we present two additional strategies: candidate filtering, which enhances overall quality by identifying highly similar candidate sets, and merging, which reduces input token requirements by combining similar samples. The effectiveness of FSC is demonstrated through extensive experiments on various tasks, including summarization, code generation, and mathematical reasoning, using GPT-3.5-turbo and GPT-4. The results indicate significant improvements over baseline methods, showcasing the potential of FSC to optimize output quality by effectively synthesizing fine-grained consensus knowledge from multiple samples.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# HC-GLAD:教師なしグラフレベル異常検出のための双曲双曲双曲型コントラスト学習

HC-GLAD: Dual Hyperbolic Contrastive Learning for Unsupervised Graph-Level Anomaly Detection ( http://arxiv.org/abs/2407.02057v1 )

ライセンス: Link先を確認
Yali Fu, Jindong Li, Jiahong Liu, Qianli Xing, Qi Wang, Irwin King, (参考訳) 教師なしグラフレベルの異常検出(UGAD)は近年,その重要性から注目を集めている。 しかしながら、既存のほとんどの手法は、ペアワイズ関係を探索するために伝統的なグラフニューラルネットワークにのみ依存しているが、このようなペアワイズエッジは、異常を含む多面的関係を記述するのに十分ではない。 UGADにおいて重要な役割を果たすノードグループ情報を利用する必要がある。 加えて、これまでのほとんどの研究は、現実世界のグラフデータセットに共通するグローバルな基盤特性(階層構造やパワーロー構造)を無視しているため、UGADタスクには必須の要素である。 本稿では,非教師付きグラフレベル異常検出(HC-GLAD,略してHC-GLAD)のための新しい双対双曲的コントラスト学習を提案する。 ノード群接続を利用するために、金モチーフに基づいてハイパーグラフを構築し、その後ハイパーグラフ畳み込みを行う。 さらに、実世界のグラフの階層性を維持するために、この領域に双曲幾何学を導入し、双曲モデルを用いた双曲空間におけるグラフと双曲埋め込み学習の両方を実行する。 我々の知る限りでは、これはノード群接続を持つハイパーグラフと双曲幾何学を同時にこの分野に適用する最初の研究である。 異なる分野の複数の実世界のデータセットに対する大規模な実験は、UGADタスクにおけるHC-GLADの優位性を示している。 コードはhttps://github.com/Yali-F/HC-GLADで公開されている。

Unsupervised graph-level anomaly detection (UGAD) has garnered increasing attention in recent years due to its significance. However, most existing methods only rely on traditional graph neural networks to explore pairwise relationships but such kind of pairwise edges are not enough to describe multifaceted relationships involving anomaly. There is an emergency need to exploit node group information which plays a crucial role in UGAD. In addition, most previous works ignore the global underlying properties (e.g., hierarchy and power-law structure) which are common in real-world graph datasets and therefore are indispensable factors on UGAD task. In this paper, we propose a novel Dual Hyperbolic Contrastive Learning for Unsupervised Graph-Level Anomaly Detection (HC-GLAD in short). To exploit node group connections, we construct hypergraphs based on gold motifs and subsequently perform hypergraph convolution. Furthermore, to preserve the hierarchy of real-world graphs, we introduce hyperbolic geometry into this field and conduct both graph and hypergraph embedding learning in hyperbolic space with hyperboloid model. To the best of our knowledge, this is the first work to simultaneously apply hypergraph with node group connections and hyperbolic geometry into this field. Extensive experiments on several real world datasets of different fields demonstrate the superiority of HC-GLAD on UGAD task. The code is available at https://github.com/Yali-F/HC-GLAD.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 分化可能な木の専門家を駆除する

Terminating Differentiable Tree Experts ( http://arxiv.org/abs/2407.02060v1 )

ライセンス: Link先を確認
Jonathan Thomm, Michael Hersche, Giacomo Camposampiero, Aleksandar Terzić, Bernhard Schölkopf, Abbas Rahimi, (参考訳) 本稿では, 変圧器とテンソル積表現を組み合わせた木操作を学習するニューラルシンボリック微分木機械を提案する。 アーキテクチャを調査し,2つの重要なコンポーネントを提案する。 まず、専門家の混在を導入することで、各ステップで使用される一連の異なるトランスフォーマーレイヤを取り除きます。 これにより、線形成長を持つ微分可能木機械の以前の手法と比較して、任意のステップ数に対して定数数のパラメータを持つ微分可能木エキスパートモデルが得られる。 このフレキシビリティをステップ数で考慮し、モデルに自動生成するステップ数を選択するための新しい終端アルゴリズムを提案する。 その結果、決定可能な木の専門家モデルは、託宣なしでステップの数を予測するのを緩やかに学習する。 最適なステップの量に収束しながら、モデルの学習能力を維持しながら、それを実現できます。

We advance the recently proposed neuro-symbolic Differentiable Tree Machine, which learns tree operations using a combination of transformers and Tensor Product Representations. We investigate the architecture and propose two key components. We first remove a series of different transformer layers that are used in every step by introducing a mixture of experts. This results in a Differentiable Tree Experts model with a constant number of parameters for any arbitrary number of steps in the computation, compared to the previous method in the Differentiable Tree Machine with a linear growth. Given this flexibility in the number of steps, we additionally propose a new termination algorithm to provide the model the power to choose how many steps to make automatically. The resulting Terminating Differentiable Tree Experts model sluggishly learns to predict the number of steps without an oracle. It can do so while maintaining the learning capabilities of the model, converging to the optimal amount of steps.
翻訳日:2024-07-03 16:14:40 公開日:2024-07-02
# 名前付きエンティティ認識におけるデータ拡張法は不確実性推定に有効か?

Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation? ( http://arxiv.org/abs/2407.02062v1 )

ライセンス: Link先を確認
Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 本研究では,NERタスクにおけるデータ拡張が信頼度校正および不確実性評価に与える影響について検討する。 医療や金融といった安全クリティカルな分野におけるNERの将来的な進歩のためには、実世界のアプリケーションとして、事前学習言語モデル(PLM)を含むディープニューラルネットワーク(DNN)を適用する際に、正確な信頼度で正確な予測を達成することが不可欠である。 しかし、DNNは誤校正の傾向があり、適用性が制限される。 さらに、キャリブレーションと不確実性推定のための既存の手法は計算コストが高い。 NERで行った調査では、特にドメイン内設定において、データの増大により、言語間および言語間設定におけるキャリブレーションと不確実性が向上することがわかった。 さらに,データ拡張による文の難易度が低い場合には,NERの校正がより効果的である傾向にあり,さらに,データ増大による文のキャリブレーションの増大により校正と不確実性がさらに向上することを示した。

This work investigates the impact of data augmentation on confidence calibration and uncertainty estimation in Named Entity Recognition (NER) tasks. For the future advance of NER in safety-critical fields like healthcare and finance, it is essential to achieve accurate predictions with calibrated confidence when applying Deep Neural Networks (DNNs), including Pre-trained Language Models (PLMs), as a real-world application. However, DNNs are prone to miscalibration, which limits their applicability. Moreover, existing methods for calibration and uncertainty estimation are computational expensive. Our investigation in NER found that data augmentation improves calibration and uncertainty in cross-genre and cross-lingual setting, especially in-domain setting. Furthermore, we showed that the calibration for NER tends to be more effective when the perplexity of the sentences generated by data augmentation is lower, and that increasing the size of the augmentation further improves calibration and uncertainty.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# BiasDora:ビジョンランゲージモデルで隠れたバイアス付き協会を探る

BiasDora: Exploring Hidden Biased Associations in Vision-Language Models ( http://arxiv.org/abs/2407.02066v1 )

ライセンス: Link先を確認
Chahat Raj, Anjishnu Mukherjee, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu, (参考訳) 社会バイアスの視覚言語モデル(VLM)を調べる既存の研究は、主に、性別:職業または人種:犯罪のような、文書化されたバイアス関係の限られたセットに焦点を当てている。 この狭い範囲はしばしば、特定を制限し、従ってそのような偏見を緩和する、多くの未検討の暗黙の関連を見落としている。 我々は、VLMを(1)9つのバイアス次元にまたがる隠れた暗黙の関連を明らかにすることによって、このギャップに対処する。 多様な入力と出力のモダリティを体系的に検討し,(2) 相関関係が負性, 毒性, 極度にどのように変化するかを示した。 我々の研究(3)は、既存の方法論では認識されない微妙で極端なバイアスを識別する。 検索されたアソシエーションのデータセット(Dora)を、https://github.com/chahatraj/BiasDora.comで公開しています。

Existing works examining Vision Language Models (VLMs) for social biases predominantly focus on a limited set of documented bias associations, such as gender:profession or race:crime. This narrow scope often overlooks a vast range of unexamined implicit associations, restricting the identification and, hence, mitigation of such biases. We address this gap by probing VLMs to (1) uncover hidden, implicit associations across 9 bias dimensions. We systematically explore diverse input and output modalities and (2) demonstrate how biased associations vary in their negativity, toxicity, and extremity. Our work (3) identifies subtle and extreme biases that are typically not recognized by existing methodologies. We make the Dataset of retrieved associations, (Dora), publicly available here https://github.com/chahatraj/BiasDora.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# 大陸横断:大規模マルチモーダルモデルによる文化的適応のための自動人工物抽出

Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models ( http://arxiv.org/abs/2407.02067v1 )

ライセンス: Link先を確認
Anjishnu Mukherjee, Ziwei Zhu, Antonios Anastasopoulos, (参考訳) 本研究では,(1)文化的文脈の認識における大規模マルチモーダルモデル(LMM)の有効性,(2)多様な文化の表現の精度,(3)文化的境界を越えてコンテンツに適応する能力について,総合的な3段階の研究を行った。 まず、DALL-E 3によって生成され、人間によって検証された大規模なデータセットであるDalle Streetを紹介し、67か国9,935枚の画像と10のコンセプトクラスを含む。 本研究では,Dale Street などの既存ベンチマークにおいて,オープンウェイト (LLaVA) モデルとクローズドソース (GPT-4V) モデルの両方を用いて,サブリージョンレベルでの文化的理解の差異を明らかにする。 次に、人工物抽出タスクによるモデルの深い文化理解を評価し、異なる国に関連する18,000以上の人工物を特定する。 最後に,文化から文化へイメージを適応させるために,高度に構成可能なパイプラインであるCultureAdaptを提案する。 以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。 データセットとコードはhttps://github.com/iamshnoo/crossroadsで入手できる。

In this work, we present a comprehensive three-phase study to examine (1) the effectiveness of large multimodal models (LMMs) in recognizing cultural contexts; (2) the accuracy of their representations of diverse cultures; and (3) their ability to adapt content across cultural boundaries. We first introduce Dalle Street, a large-scale dataset generated by DALL-E 3 and validated by humans, containing 9,935 images of 67 countries and 10 concept classes. We reveal disparities in cultural understanding at the sub-region level with both open-weight (LLaVA) and closed-source (GPT-4V) models on Dalle Street and other existing benchmarks. Next, we assess models' deeper culture understanding by an artifact extraction task and identify over 18,000 artifacts associated with different countries. Finally, we propose a highly composable pipeline, CultureAdapt, to adapt images from culture to culture. Our findings reveal a nuanced picture of the cultural competence of LMMs, highlighting the need to develop culture-aware systems. Dataset and code are available at https://github.com/iamshnoo/crossroads
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# LPViT:ビジョントランス用低消費電力半構造化プルーニング

LPViT: Low-Power Semi-structured Pruning for Vision Transformers ( http://arxiv.org/abs/2407.02068v1 )

ライセンス: Link先を確認
Kaixin Xu, Zhe Wang, Chunyun Chen, Xue Geng, Jie Lin, Xulei Yang, Min Wu, Xiaoli Li, Weisi Lin, (参考訳) ビジョントランスフォーマーは、様々な画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替として登場し、同等または優れたパフォーマンスを提供している。 しかし、ViTの重大な欠点は、そのリソース集約性であり、メモリフットプリントの増加、計算の複雑さ、電力消費につながる。 この高性能技術を民主化し、環境に優しいものにするためには、ViTモデルを圧縮し、高い性能を維持しながらリソース要求を減らすことが不可欠である。 本稿では,ViTの資源集約的な問題に対処するブロック構造化プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。 非構造化プルーニングやチャネルワイドプルーニングとは異なり、ブロックプルーニングは線形層のブロックワイド構造を利用しており、より効率的な行列乗算をもたらす。 このプルーニング方式を最適化するために,ブロック間隔構造に合わせて,高速化と推論時の消費電力の最小化を同時に行う,ハードウェア対応学習目標を提案する。 この目的は、経験的なルックアップテーブルの必要性を排除し、パラメタライズされたレイヤ接続の削減にのみ焦点をあてる。 さらに,本論文では,2次テイラー近似と経験的最適化を用いて,ViTの学習後プルーニングを実現するための軽量なアルゴリズムを提案する。 ImageNetの大規模な実験は、DeiT-BやDeiT-Sなど様々なViTアーキテクチャで行われ、他のプルーニング手法と競合する性能を示し、精度の保存と省電力の両立を実現している。 特に,DeiT-Bでは専用ハードウェアで最大3.93倍,GPUで1.79倍の高速化を実現し,実世界のGPUで1.4倍の推論パワー低下を観測した。

Vision transformers have emerged as a promising alternative to convolutional neural networks for various image analysis tasks, offering comparable or superior performance. However, one significant drawback of ViTs is their resource-intensive nature, leading to increased memory footprint, computation complexity, and power consumption. To democratize this high-performance technology and make it more environmentally friendly, it is essential to compress ViT models, reducing their resource requirements while maintaining high performance. In this paper, we introduce a new block-structured pruning to address the resource-intensive issue for ViTs, offering a balanced trade-off between accuracy and hardware acceleration. Unlike unstructured pruning or channel-wise structured pruning, block pruning leverages the block-wise structure of linear layers, resulting in more efficient matrix multiplications. To optimize this pruning scheme, our paper proposes a novel hardware-aware learning objective that simultaneously maximizes speedup and minimizes power consumption during inference, tailored to the block sparsity structure. This objective eliminates the need for empirical look-up tables and focuses solely on reducing parametrized layer connections. Moreover, our paper provides a lightweight algorithm to achieve post-training pruning for ViTs, utilizing second-order Taylor approximation and empirical optimization to solve the proposed hardware-aware objective. Extensive experiments on ImageNet are conducted across various ViT architectures, including DeiT-B and DeiT-S, demonstrating competitive performance with other pruning methods and achieving a remarkable balance between accuracy preservation and power savings. Especially, we achieve up to 3.93x and 1.79x speedups on dedicated hardware and GPUs respectively for DeiT-B, and also observe an inference power reduction by 1.4x on real-world GPUs.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# 気候シミュレーションのアンサンブル生成のための潜時拡散モデル

Latent Diffusion Model for Generating Ensembles of Climate Simulations ( http://arxiv.org/abs/2407.02070v1 )

ライセンス: Link先を確認
Johannes Meuer, Maximilian Witte, Claudia Timmreck, Thomas Ludwig, Christopher Kadow, (参考訳) 気候シナリオにおける不確実性の正確な推定を行うには、しばしば計算に高価でメモリ集約的なプロセスである高解像度の気候シミュレーションの大規模なアンサンブルを生成する必要がある。 この課題に対処するために、気候シミュレーションの広範なセットに対して、新しい生成的深層学習アプローチを訓練する。 このモデルは2つのコンポーネントから構成される:次元減少のための変分オートエンコーダと、複数のアンサンブル部材を生成するデノイング拡散確率モデルである。 我々は,マックス・プランク研究所グランド・アンサンブルのモデルを検証するとともに,可変性の観点から,オリジナル・アンサンブルと良好な一致を示した。 遅延空間表現を利用することで、我々のモデルは最小限のメモリ要件で高速に大規模なアンサンブルを生成でき、気候シミュレーションにおける不確実な定量化の効率を大幅に向上させることができる。

Obtaining accurate estimates of uncertainty in climate scenarios often requires generating large ensembles of high-resolution climate simulations, a computationally expensive and memory intensive process. To address this challenge, we train a novel generative deep learning approach on extensive sets of climate simulations. The model consists of two components: a variational autoencoder for dimensionality reduction and a denoising diffusion probabilistic model that generates multiple ensemble members. We validate our model on the Max Planck Institute Grand Ensemble and show that it achieves good agreement with the original ensemble in terms of variability. By leveraging the latent space representation, our model can rapidly generate large ensembles on-the-fly with minimal memory requirements, which can significantly improve the efficiency of uncertainty quantification in climate simulations.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# 原型表現によるフェデレーション学習における異種参加者の貢献評価

Contribution Evaluation of Heterogeneous Participants in Federated Learning via Prototypical Representations ( http://arxiv.org/abs/2407.02073v1 )

ライセンス: Link先を確認
Qi Guo, Minghao Yao, Zhen Tian, Saiyu Qi, Yong Qi, Yun Lin, Jin Song Dong, (参考訳) フェデレーションラーニング(FL)における貢献評価は、低品質データセットの検出、モデルロバスト性の向上、インセンティブ機構の設計など、さまざまな分野に適用可能なことから、重要な研究領域となっている。 既存のコントリビューション評価手法は、主にデータボリューム、モデル類似性、補助的なテストデータセットに依存しており、様々なシナリオで成功している。 しかし、データ分布の不均一性のため、その効果はしばしば減少し、適用性に大きな課題が浮かび上がっている。 そこで本研究では,FLにおけるコントリビューション評価について,まったく新しい表現の視点から検討する。 本研究では,フェデレートラーニング(FLCE)における異種参加者のコントリビューション評価のための新しい手法を提案する。 我々の中核的な考え方は、個人、相対的、および全体論的視点からクラス寄与モーメントインジケータの構築と応用であり、これにより、補助的なテストデータセットに頼ることなく、異種参加者の効果的かつ効率的な貢献評価を実現することができる。 実験結果から, 各種シナリオの忠実度, 有効性, 効率性, 不均一性の観点から, 提案手法の優位性を実証した。

Contribution evaluation in federated learning (FL) has become a pivotal research area due to its applicability across various domains, such as detecting low-quality datasets, enhancing model robustness, and designing incentive mechanisms. Existing contribution evaluation methods, which primarily rely on data volume, model similarity, and auxiliary test datasets, have shown success in diverse scenarios. However, their effectiveness often diminishes due to the heterogeneity of data distributions, presenting a significant challenge to their applicability. In response, this paper explores contribution evaluation in FL from an entirely new perspective of representation. In this work, we propose a new method for the contribution evaluation of heterogeneous participants in federated learning (FLCE), which introduces a novel indicator \emph{class contribution momentum} to conduct refined contribution evaluation. Our core idea is the construction and application of the class contribution momentum indicator from individual, relative, and holistic perspectives, thereby achieving an effective and efficient contribution evaluation of heterogeneous participants without relying on an auxiliary test dataset. Extensive experimental results demonstrate the superiority of our method in terms of fidelity, effectiveness, efficiency, and heterogeneity across various scenarios.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# Label Anything:ビジュアルプロンプトによる複数クラスのFew-Shotセマンティックセマンティックセマンティックセグメンテーション

Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts ( http://arxiv.org/abs/2407.02075v1 )

ライセンス: Link先を確認
Pasquale De Marinis, Nicola Fanelli, Raffaele Scaringi, Emanuele Colonna, Giuseppe Fiameni, Gennaro Vessio, Giovanna Castellano, (参考訳) これは、クラス毎に必要最小限の例で複数のクラスにまたがる顕著な一般化性を実証する、数ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャである。 サポートイメージのアノテートにマスクに大きく依存する従来のFSSメソッドとは違い,Ravell Anythingでは,ポイントやバウンディングボックス,マスクなど,さまざまな視覚的なプロンプトを導入して,フレームワークの汎用性と適応性の向上を実現している。 このアプローチに似て、Label Anythingは、マルチクラスのFSSシナリオをまたいだエンドツーエンドのトレーニングのために設計されています。 このアプローチは、$$$-way $1$-shotから複雑な$N$-way $K$-shot設定まで、さまざまなFSSの課題に対して"ユニバーサル"なアプリケーションを可能にすると同時に、特定のクラスの例の数に依存しないままである。 この革新的なトレーニング戦略は、計算要求を減らし、様々なセグメンテーションタスクにおけるモデルの適応性と一般化を大幅に改善する。 包括的実験検証,特にCOCO-$20^i$ベンチマークの最先端結果の達成は,Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものだ。 ソースコードは、https://github.com/pasqualedem/LabelAnything.comで公開されている。

We present Label Anything, an innovative neural network architecture designed for few-shot semantic segmentation (FSS) that demonstrates remarkable generalizability across multiple classes with minimal examples required per class. Diverging from traditional FSS methods that predominantly rely on masks for annotating support images, Label Anything introduces varied visual prompts -- points, bounding boxes, and masks -- thereby enhancing the framework's versatility and adaptability. Unique to our approach, Label Anything is engineered for end-to-end training across multi-class FSS scenarios, efficiently learning from diverse support set configurations without retraining. This approach enables a "universal" application to various FSS challenges, ranging from $1$-way $1$-shot to complex $N$-way $K$-shot configurations while remaining agnostic to the specific number of class examples. This innovative training strategy reduces computational requirements and substantially improves the model's adaptability and generalization across diverse segmentation tasks. Our comprehensive experimental validation, particularly achieving state-of-the-art results on the COCO-$20^i$ benchmark, underscores Label Anything's robust generalization and flexibility. The source code is publicly available at: https://github.com/pasqualedem/LabelAnything.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# カメラベースセマンティックシーン補完のための階層的時間文脈学習

Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion ( http://arxiv.org/abs/2407.02077v1 )

ライセンス: Link先を確認
Bohan Li, Jiajun Deng, Wenyao Zhang, Zhujin Liang, Dalong Du, Xin Jin, Wenjun Zeng, (参考訳) カメラベースの3Dセマンティックシーン補完(SSC)は、2D画像の観察に制限のある複雑な3Dレイアウトを予測するために重要である。 既存の主流のソリューションは一般的に、履歴フレームを概ね積み重ねて現在のフレームを補うことで、時間的情報を活用する。 この問題に対処するために、カメラベースのセマンティックシーン補完を改善するための新しい階層型時間文脈学習パラダイムであるHTCLを提案する。 この研究の主な革新は、時間的文脈学習を2つの階層的なステップに分解することである。 a)クロスフレーム親和性測定および (b)親和性に基づくダイナミックリファインメント。 まず、重要コンテキストを冗長な情報から分離するために、パターン親和性とスケールアウェアアイソレーションと、よりきめ細かいコンテキスト対応モデリングのための複数の独立した学習者を導入する。 その後、不完全観測を動的に補償するために、初期同定されたアフィニティの高い位置とその周辺地域に基づいて特徴サンプリング位置を適応的に洗練する。 提案手法はSemanticKITTIベンチマークで1^{st}$をランク付けし,OpenOccupancyベンチマークでmIoUの点でLiDARベースのメソッドを超えている。 私たちのコードはhttps://github.com/Arlo0o/HTCL.comで利用可能です。

Camera-based 3D semantic scene completion (SSC) is pivotal for predicting complicated 3D layouts with limited 2D image observations. The existing mainstream solutions generally leverage temporal information by roughly stacking history frames to supplement the current frame, such straightforward temporal modeling inevitably diminishes valid clues and increases learning difficulty. To address this problem, we present HTCL, a novel Hierarchical Temporal Context Learning paradigm for improving camera-based semantic scene completion. The primary innovation of this work involves decomposing temporal context learning into two hierarchical steps: (a) cross-frame affinity measurement and (b) affinity-based dynamic refinement. Firstly, to separate critical relevant context from redundant information, we introduce the pattern affinity with scale-aware isolation and multiple independent learners for fine-grained contextual correspondence modeling. Subsequently, to dynamically compensate for incomplete observations, we adaptively refine the feature sampling locations based on initially identified locations with high affinity and their neighboring relevant regions. Our method ranks $1^{st}$ on the SemanticKITTI benchmark and even surpasses LiDAR-based methods in terms of mIoU on the OpenOccupancy benchmark. Our code is available on https://github.com/Arlo0o/HTCL.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# MARLIN:リテールでイントラロジクスをサポートするクラウド統合型ロボットソリューション

MARLIN: A Cloud Integrated Robotic Solution to Support Intralogistics in Retail ( http://arxiv.org/abs/2407.02078v1 )

ライセンス: Link先を確認
Dennis Mronga, Andreas Bresser, Fabian Maas, Adrian Danzglock, Simon Stelter, Alina Hawkin, Hoang Giang Nguyen, Michael Beetz, Frank Kirchner, (参考訳) 本稿では,サービスロボットのMARLINとK4Rプラットフォームとの統合について述べる。 このプラットフォームの中核には、セマンティックデジタルツインと呼ばれる小売店のセマンティックアノテート表現が含まれている。 MARLINはK4Rプラットフォームとデータを継続的に交換し、知覚、自律ナビゲーション、タスク計画におけるロボットの能力を改善する。 我々はこれらの機能を、特に在庫棚の店員を支援することで、小売イントロロジクスのシナリオで活用する。 我々は、MARLINが、障害を検出して分類し、自律的に計画し、補充ミッションを実行し、予期せぬ環境の変化に適応し、店員と対話することで、小売店のデジタル表現を更新できることを実証した。 実験はシミュレーション,実験室環境,実店舗で実施される。 また, トラクタ・トレーラシステムの自律走行のための新しいアルゴリズムを記述し, 評価する。 このアルゴリズムはプロプライエタリなナビゲーション手法より優れており、制限された空間におけるMARLINのナビゲーション能力が改善されている。

In this paper, we present the service robot MARLIN and its integration with the K4R platform, a cloud system for complex AI applications in retail. At its core, this platform contains so-called semantic digital twins, a semantically annotated representation of the retail store. MARLIN continuously exchanges data with the K4R platform, improving the robot's capabilities in perception, autonomous navigation, and task planning. We exploit these capabilities in a retail intralogistics scenario, specifically by assisting store employees in stocking shelves. We demonstrate that MARLIN is able to update the digital representation of the retail store by detecting and classifying obstacles, autonomously planning and executing replenishment missions, adapting to unforeseen changes in the environment, and interacting with store employees. Experiments are conducted in simulation, in a laboratory environment, and in a real store. We also describe and evaluate a novel algorithm for autonomous navigation of articulated tractor-trailer systems. The algorithm outperforms the manufacturer's proprietary navigation approach and improves MARLIN's navigation capabilities in confined spaces.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# GPTCast:降水量予測のための気象言語モデル

GPTCast: a weather language model for precipitation nowcasting ( http://arxiv.org/abs/2407.02089v1 )

ライセンス: Link先を確認
Gabriele Franch, Elena Tomasi, Rishabh Wanjari, Virginia Poli, Chiara Cardinali, Pier Paolo Alberoni, Marco Cristoforetti, (参考訳) GPTCastは、大規模言語モデル(LLM)の進歩にインスパイアされたレーダベースの降水量計をアンサンブルする、生成的なディープラーニング手法である。 我々は、トークン化レーダ画像を用いて時空間降水動態を学習するために、GPTモデルを用いて予測を行う。 The tokenizer is based on a Quantized Variational Autoencoder with a novel reconstruction loss for the skewed distribution of rain rate。 このアプローチは現実的なアンサンブル予測を生成し、正確な不確実性推定を伴う確率的出力を提供する。 モデルはランダム性に頼らずに訓練され、すべての変数はデータからのみ学習され、アンサンブル生成のためのモデルによって露出される。 イタリア北部のエミリア・ロマニャ地方で6年間のレーダーデータを用いてGPTCastを訓練・試験し,最先端のアンサンブル外挿法と比較して優れた結果を示した。

This work introduces GPTCast, a generative deep-learning method for ensemble nowcast of radar-based precipitation, inspired by advancements in large language models (LLMs). We employ a GPT model as a forecaster to learn spatiotemporal precipitation dynamics using tokenized radar images. The tokenizer is based on a Quantized Variational Autoencoder featuring a novel reconstruction loss tailored for the skewed distribution of precipitation that promotes faithful reconstruction of high rainfall rates. The approach produces realistic ensemble forecasts and provides probabilistic outputs with accurate uncertainty estimation. The model is trained without resorting to randomness, all variability is learned solely from the data and exposed by model at inference for ensemble generation. We train and test GPTCast using a 6-year radar dataset over the Emilia-Romagna region in Northern Italy, showing superior results compared to state-of-the-art ensemble extrapolation methods.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# トラベリングセールスマン問題に対するアニーリング付きファクトリゼーションマシンの効率的なビットラベリング

Efficient Bit Labeling in Factorization Machines with Annealing for Traveling Salesman Problem ( http://arxiv.org/abs/2407.02091v1 )

ライセンス: Link先を確認
Shota Koshikawa, Aruto Hosaka, Tsuyoshi Yoshida, (参考訳) 大規模問題における最適パラメータの組み合わせを効率的に見つけるためには,パラメータを実マシンで利用可能な変数に変換することが重要である。 具体的には、生パラメータをバイナリ変数に変換するアニール付き因子化マシンなどの機械学習の助けを借りて、二次的に制約のないバイナリ最適化問題を解く。 本研究は, 収束速度と2値ラベリング法への精度の依存性について検討し, コスト関数の形状に影響を及ぼし, 局所最小解で捕捉される確率について検討した。 旅行セールスマンの問題を例示することにより,二元ラベルにおけるハミング距離と走行距離との相関関係を示すグレーラベルの提案と評価を行う。 限られた回数で15都市を走行するセールスマンの問題を数値シミュレーションすることで、グレイラベルは自然ラベルよりも局所的なミニマパーセンテージが小さく、走行距離も短いことを示す。

To efficiently find an optimum parameter combination in a large-scale problem, it is a key to convert the parameters into available variables in actual machines. Specifically, quadratic unconstrained binary optimization problems are solved with the help of machine learning, e.g., factorization machines with annealing, which convert a raw parameter to binary variables. This work investigates the dependence of the convergence speed and the accuracy on binary labeling method, which can influence the cost function shape and thus the probability of being captured at a local minimum solution. By exemplifying traveling salesman problem, we propose and evaluate Gray labeling, which correlates the Hamming distance in binary labels with the traveling distance. Through numerical simulation of traveling salesman problem up to 15 cities at a limited number of iterations, the Gray labeling shows less local minima percentages and shorter traveling distances compared with natural labeling.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# TIGER: 実践的なPython型推論のための生成テーマランキングフレームワーク

TIGER: A Generating-Then-Ranking Framework for Practical Python Type Inference ( http://arxiv.org/abs/2407.02095v1 )

ライセンス: Link先を確認
Chong Wang, Jian Zhang, Yiling Lou, Mingwei Liu, Weisong Sun, Yang Liu, Xin Peng, (参考訳) Pythonの動的型付けシステムは柔軟性と表現力を提供するが、型関連のエラーを引き起こす可能性があるため、型ヒントを強化するために自動型推論が必要になる。 既存の学習ベースのアプローチは有望な推論精度を示しているが、複雑なジェネリックタイプや(見えない)ユーザ定義型など、さまざまなタイプを包括的に扱うという実践的な課題に苦慮している。 本稿では,Pythonの多種多様な型カテゴリを効果的に扱えるように設計された2段階生成レベル(GTR)フレームワークであるTIGERを紹介する。 TIGERは、微調整された事前訓練されたコードモデルを利用して、スパンマスキングの目的を持つ生成モデルを訓練し、対照的なトレーニングの目的を持つ類似モデルを訓練する。 このアプローチにより、TIGERは生成段階の複雑なジェネリクスを含む幅広い型候補を生成し、ランキング段階のユーザ定義型を正確にランク付けすることができる。 ManyTypes4Pyデータセットに対する評価は、TIGERが様々なタイプのカテゴリで既存のメソッドよりも優れていることを示し、特にTop-5 Exact Matchにおいて、ユーザ定義型と未確認型をそれぞれ11.2%、20.1%の精度で推測する際の精度を向上している。 さらに、実験結果は、TIGERの優れた性能と効率を示すだけでなく、自動型推論の自動化における生成およびランキングステージの重要性も示している。

Python's dynamic typing system offers flexibility and expressiveness but can lead to type-related errors, prompting the need for automated type inference to enhance type hinting. While existing learning-based approaches show promising inference accuracy, they struggle with practical challenges in comprehensively handling various types, including complex generic types and (unseen) user-defined types. In this paper, we introduce TIGER, a two-stage generating-then-ranking (GTR) framework, designed to effectively handle Python's diverse type categories. TIGER leverages fine-tuned pre-trained code models to train a generative model with a span masking objective and a similarity model with a contrastive training objective. This approach allows TIGER to generate a wide range of type candidates, including complex generics in the generating stage, and accurately rank them with user-defined types in the ranking stage. Our evaluation on the ManyTypes4Py dataset shows TIGER's advantage over existing methods in various type categories, notably improving accuracy in inferring user-defined and unseen types by 11.2% and 20.1% respectively in Top-5 Exact Match. Moreover, the experimental results not only demonstrate TIGER's superior performance and efficiency, but also underscore the significance of its generating and ranking stages in enhancing automated type inference.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# DM3D:ロスレス3Dオブジェクト検出のための歪み最小化軽量プルーニング

DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection ( http://arxiv.org/abs/2407.02098v1 )

ライセンス: Link先を確認
Kaixin Xu, Qingtian Feng, Hao Chen, Zhe Wang, Xue Geng, Xulei Yang, Min Wu, Xiaoli Li, Weisi Lin, (参考訳) ディープニューラルネットワークを3Dポイントクラウド処理に適用することは、AR/VR、自律運転、ロボット工学など、多くの分野で高度なパフォーマンスのために注目を集めている。 しかし、ニューラルネットワークモデルと3Dポイントクラウドのサイズが拡大するにつれて、現実のアプリケーションにおけるレイテンシとエネルギーの制約を満たすために、計算とメモリオーバーヘッドを減らすことが重要な課題となる。 既存の手法では計算コストとメモリフットプリントの両方を削減することが提案されているが、そのほとんどは入力における空間的冗長性(つまり3Dデータにおける背景点の冗長性)にのみ対応している。 本稿では,(1)既存のクラウドスペーシング手法に直交する3次元物体検出のための新しいトレーニング後プルーニング手法を提案する。これは,局所性と信頼性の両面において最小の歪みを生じる事前学習モデルにおける冗長パラメータを決定するもので,(2)任意の3次元検出モデルで動作する汎用的なプラグアンドプレイプルーニングフレームワークである。 本フレームワークは,2次テイラー近似に基づく層次間隔の同定により,ネットワーク出力の歪みの最小化と検出精度の最大化を図ることを目的とする。 2次情報を利用する一方、我々はヘッセン情報を効率的に取得する軽量なスキームを導入し、その後動的プログラミングを行い、階層的疎性を解決する。 KITTI, Nuscenes および ONCE データセットの大規模な実験により,本手法が顕著な計算削減(FLOPs)の下でのプルーニングモデルの検出精度を維持および向上できることが実証された。 特にCenterPointとPVRCNNの3.89倍,3.72倍のFLOPs削減を実現し,mAPの低下を伴わずに実現した。

Applying deep neural networks to 3D point cloud processing has attracted increasing attention due to its advanced performance in many areas, such as AR/VR, autonomous driving, and robotics. However, as neural network models and 3D point clouds expand in size, it becomes a crucial challenge to reduce the computational and memory overhead to meet latency and energy constraints in real-world applications. Although existing approaches have proposed to reduce both computational cost and memory footprint, most of them only address the spatial redundancy in inputs, i.e. removing the redundancy of background points in 3D data. In this paper, we propose a novel post-training weight pruning scheme for 3D object detection that is (1) orthogonal to all existing point cloud sparsifying methods, which determines redundant parameters in the pretrained model that lead to minimal distortion in both locality and confidence (detection distortion); and (2) a universal plug-and-play pruning framework that works with arbitrary 3D detection model. This framework aims to minimize detection distortion of network output to maximally maintain detection precision, by identifying layer-wise sparsity based on second-order Taylor approximation of the distortion. Albeit utilizing second-order information, we introduced a lightweight scheme to efficiently acquire Hessian information, and subsequently perform dynamic programming to solve the layer-wise sparsity. Extensive experiments on KITTI, Nuscenes and ONCE datasets demonstrate that our approach is able to maintain and even boost the detection precision on pruned model under noticeable computation reduction (FLOPs). Noticeably, we achieve over 3.89x, 3.72x FLOPs reduction on CenterPoint and PVRCNN model, respectively, without mAP decrease, significantly improving the state-of-the-art.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# 援助的アシスタントか実りあるファシリテーターか : ペルソナが言語モデル行動に与える影響について

Helpful assistant or fruitful facilitator? Investigating how personas affect language model behavior ( http://arxiv.org/abs/2407.02099v1 )

ライセンス: Link先を確認
Pedro Henrique Luz de Araujo, Benjamin Roth, (参考訳) 大規模言語モデル(LLM)から世代をパーソナライズし、ステアリングする方法の1つは、パーソナを割り当てることである。 本稿では,ペルソナがモデル行動の多様な側面に与える影響について考察する。 我々は、性別、性的指向、職業など、12のカテゴリから7つのLDM162ペルソナを割り当てる。 目的(例えば、数学と歴史に関する質問)と主観的タスク(例えば、信念と価値観に関する質問)をカバーする5つのデータセットからの質問に答えるよう促します。 また,モデルの迅速な感度を制御するための「補助アシスタント」の30パラフレーズを持つ制御ペルソナ設定と,ペルソナが割り当てられない空のペルソナ設定の2つのベースライン設定を比較した。 すべてのモデルとデータセットに対して、ペルソナは制御設定よりも大きな変数を示し、パーソナの振る舞いのいくつかの尺度がモデル全体にわたって一般化されることに気付きました。

One way to personalize and steer generations from large language models (LLM) is to assign a persona: a role that describes how the user expects the LLM to behave (e.g., a helpful assistant, a teacher, a woman). This paper investigates how personas affect diverse aspects of model behavior. We assign to seven LLMs 162 personas from 12 categories spanning variables like gender, sexual orientation, and occupation. We prompt them to answer questions from five datasets covering objective (e.g., questions about math and history) and subjective tasks (e.g., questions about beliefs and values). We also compare persona's generations to two baseline settings: a control persona setting with 30 paraphrases of "a helpful assistant" to control for models' prompt sensitivity, and an empty persona setting where no persona is assigned. We find that for all models and datasets, personas show greater variability than the control setting and that some measures of persona behavior generalize across models.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# テキスト・ツー・モーション検索のための共同データセット学習とクロス一貫性正規化

Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval ( http://arxiv.org/abs/2407.02104v1 )

ライセンス: Link先を確認
Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tomáš Rebok, (参考訳) ポーズ推定法は、一般的なビデオから3Dスケルトン配列の構造化形式で人間の動きを抽出することを可能にする。 アプリケーションの大きな機会にもかかわらず、このような時空間的な動きデータへの効果的なコンテンツベースのアクセスは難しい問題である。 本稿では,最近導入されたテキスト・ムーブメント検索タスクに着目し,特定の自然言語のテキスト記述(テキスト・トゥ・モーション)とバイス・ヴァーサ(モーション・トゥ・テキスト)に最も関連があるデータベース・ムーブメントを探索する。 これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルを効果的にトレーニングする上で利用可能な不十分なデータである。 そこで本研究では,複数のテキストモーションデータセットを同時にトレーニングする共同データセット学習と,トレーニングされたネットワークの表現能力を増大させる一様制約を課すことで,学習されたテキストモーション共通空間を正規化するクロスコントラスト・トラスト・ロス関数(CCCL)を導入することを提案する。 適切な動作表現を学習するために、スケルトンデータのプロセスシーケンスに時空間的に注意を払うMoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。 我々は,広範に利用されているKIT Motion-LanguageとHumanML3Dデータセットに対する提案手法の利点を実証する。 共同データセット学習とクロスデータセットのシナリオについて詳細な実験を行い、各導入モジュールの有効性を慎重に研究し、その結果、最先端手法の限界を指摘する。

Pose-estimation methods enable extracting human motion from common videos in the structured form of 3D skeleton sequences. Despite great application opportunities, effective content-based access to such spatio-temporal motion data is a challenging problem. In this paper, we focus on the recently introduced text-motion retrieval tasks, which aim to search for database motions that are the most relevant to a specified natural-language textual description (text-to-motion) and vice-versa (motion-to-text). Despite recent efforts to explore these promising avenues, a primary challenge remains the insufficient data available to train robust text-motion models effectively. To address this issue, we propose to investigate joint-dataset learning - where we train on multiple text-motion datasets simultaneously - together with the introduction of a Cross-Consistent Contrastive Loss function (CCCL), which regularizes the learned text-motion common space by imposing uni-modal constraints that augment the representation ability of the trained network. To learn a proper motion representation, we also introduce a transformer-based motion encoder, called MoT++, which employs spatio-temporal attention to process sequences of skeleton data. We demonstrate the benefits of the proposed approaches on the widely-used KIT Motion-Language and HumanML3D datasets. We perform detailed experimentation on joint-dataset learning and cross-dataset scenarios, showing the effectiveness of each introduced module in a carefully conducted ablation study and, in turn, pointing out the limitations of state-of-the-art methods.
翻訳日:2024-07-03 16:04:54 公開日:2024-07-02
# 外部磁場中における水素様イオンに対する反陽子の影響

Effect of antiprotons on hydrogen-like ions in external magnetic fields ( http://arxiv.org/abs/2407.02105v1 )

ライセンス: Link先を確認
A. Anikin, A. Danilov, D. Glazov, A. Kotov, D. Solovyev, (参考訳) 本研究では、1つのアンチプロトン(\bar{p}$)と1つの水素様イオンからなる準分子化合物について検討する: $\mathrm{He}^{+} - \bar{p}$, $\mathrm{Li}^{2+} - \bar{p}$, $\mathrm{C}^{5+} - \bar{p}$, $\mathrm{S}^{15+} - \bar{p}$, $\mathrm{Kr}^{35+} - \bar{p}$, $\mathrm{Ho}^{66+} - \bar{p}$, $\mathrm{Re}^{74+} - \bar{p}$, $\mathrm{C}^{5+} - \bar{p}$ 2中心ポテンシャルを持つディラック方程式は、軸対称系(A-DKB)に適応した双対平衡有限基底集合法を用いて数値的に解く。 上記の準分子化合物の基底状態に対して、A-DKBアプローチの枠組みで断熱ポテンシャル曲線を構築した。 また、外部磁場の場合の計算も行った(磁場は非摂動的に考慮される)。 準分子項のゼーマンシフトは、分子の軸に沿って方向付けられた実験室オーダー(最大100 Tesla)の強さを持つ均質磁場に対して得られる。

In the present work, quasi-molecular compounds consisting of one antiproton ($\bar{p}$) and one hydrogen-like ion are investigated: $\mathrm{He}^{+} - \bar{p}$, $\mathrm{Li}^{2+} - \bar{p}$, $\mathrm{C}^{5+} - \bar{p}$, $\mathrm{S}^{15+} - \bar{p}$, $\mathrm{Kr}^{35+} - \bar{p}$, $\mathrm{Ho}^{66+} - \bar{p}$, $\mathrm{Re}^{74+} - \bar{p}$, $\mathrm{U}^{91+} - \bar{p}$. For the calculations, the Dirac equation with two-center potential is solved numerically using the dual-kinetically balanced finite-basis-set method adapted to systems with axial symmetry (A-DKB). Adiabatic potential curves are constructed for the ground state of the above quasi-molecular compounds in the framework of the A-DKB approach. Calculations were also performed for the case of an external magnetic field (the field is taken into account non-perturbatively). Zeeman shifts of the quasi-molecular terms are obtained for a homogeneous magnetic field with a strength of the laboratory order (up to 100 Tesla) directed along the axis of the molecule.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 産業プロセスにおける知識グラフ学習の自動化

Automated Knowledge Graph Learning in Industrial Processes ( http://arxiv.org/abs/2407.02106v1 )

ライセンス: Link先を確認
Lolitta Ammann, Jorge Martinez-Gil, Michael Mayr, Georgios C. Chasparis, (参考訳) 産業プロセスは膨大な時系列データを生成するが、意味のある関係や洞察を抽出することは依然として困難である。 本稿では,時系列データから知識グラフを自動学習するフレームワークについて紹介する。 我々のフレームワークは、産業データセットに固有の複雑さに対処し、意思決定、プロセス最適化、知識発見を改善する知識グラフに変換する。 さらに、予測モデルの設計を知らせるキー属性を識別するために、Granger因果性(Granger causality)を使用している。 また,本手法の実用性を説明するために,実世界の産業シナリオにおけるフレームワークのメリットを示すモチベーションのあるユースケースを提案する。 さらに、時系列データを知識グラフに自動変換することで、重要なプロセスパラメータ間の因果的影響や依存関係を特定する方法を示す。

Industrial processes generate vast amounts of time series data, yet extracting meaningful relationships and insights remains challenging. This paper introduces a framework for automated knowledge graph learning from time series data, specifically tailored for industrial applications. Our framework addresses the complexities inherent in industrial datasets, transforming them into knowledge graphs that improve decision-making, process optimization, and knowledge discovery. Additionally, it employs Granger causality to identify key attributes that can inform the design of predictive models. To illustrate the practical utility of our approach, we also present a motivating use case demonstrating the benefits of our framework in a real-world industrial scenario. Further, we demonstrate how the automated conversion of time series data into knowledge graphs can identify causal influences or dependencies between important process parameters.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# HRSAM:高解像度画像の効率的なセグメンテーション

HRSAM: Efficiently Segment Anything in High-Resolution Images ( http://arxiv.org/abs/2407.02109v1 )

ライセンス: Link先を確認
You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji, (参考訳) Segment Anything Model (SAM) はインタラクティブセグメンテーションが大幅に進歩しているが、高精度セグメンテーションに欠かせない高解像度画像に苦慮している。 これは、SAMで実装された注意の2次空間の複雑さと、一般的なグローバルな注意における長さ外挿の問題が原因である。 本稿では,Flash Attentionを統合し,Plain,Shifted,新たに提案されたCycle-Scan Window (PSCWin) を取り入れたHRSAMを提案する。 シフトしたウィンドウの注意は、一貫したウィンドウサイズを維持するためにパディングで再設計され、有効長さの補間を可能にする。 サイクルスキャンウィンドウアテンションは、計算オーバーヘッドを最小限に抑えるため、最近開発されたステートスペースモデル(SSM)を採用している。 このようなウィンドウベースのアテンションにより、HRSAMは低レイテンシを維持しながら、スケールした入力画像に対して効果的なアテンション計算を行うことができる。 さらに,HRSAMの性能向上のためのマルチスケール戦略も導入したHRSAM++を提案する。 高精度セグメンテーションデータセットHQSeg44KとDAVISの実験は、SAM蒸留HRSAMモデルが低レイテンシを維持しながら教師モデルより優れていることを示す。 SOTAと比較すると、HRSAMはインタラクティブセグメンテーションのNoC95メトリックをわずか31%で1.56改善している。 HRSAM++はパフォーマンスをさらに向上し、NoC95で1.63の改善を実現した。

The Segment Anything Model (SAM) has significantly advanced interactive segmentation but struggles with high-resolution images crucial for high-precision segmentation. This is primarily due to the quadratic space complexity of SAM-implemented attention and the length extrapolation issue in common global attention. This study proposes HRSAM that integrates Flash Attention and incorporates Plain, Shifted and newly proposed Cycle-scan Window (PSCWin) attention to address these issues. The shifted window attention is redesigned with padding to maintain consistent window sizes, enabling effective length extrapolation. The cycle-scan window attention adopts the recently developed State Space Models (SSMs) to ensure global information exchange with minimal computational overhead. Such window-based attention allows HRSAM to perform effective attention computations on scaled input images while maintaining low latency. Moreover, we further propose HRSAM++ that additionally employs a multi-scale strategy to enhance HRSAM's performance. The experiments on the high-precision segmentation datasets HQSeg44K and DAVIS show that high-resolution inputs enable the SAM-distilled HRSAM models to outperform the teacher model while maintaining lower latency. Compared to the SOTAs, HRSAM achieves a 1.56 improvement in interactive segmentation's NoC95 metric with only 31% of the latency. HRSAM++ further enhances the performance, achieving a 1.63 improvement in NoC95 with just 38% of the latency.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# ブラック・アンド・ホワイトボックスDNNトラクタトレースのためのフェデレーション学習ダイナミクスの探索

Exploring Federated Learning Dynamics for Black-and-White-Box DNN Traitor Tracing ( http://arxiv.org/abs/2407.02111v1 )

ライセンス: Link先を確認
Elena Rodriguez-Lois, Fernando Perez-Gonzalez, (参考訳) ディープラーニングアプリケーションが普及するにつれて、広範なトレーニング例の必要性は、機密性、個人的、あるいはプロプライエタリなデータに対する懸念を提起する。 これを解決するために、フェデレートラーニング(FL)は、分散データオーナ間で協調的なモデルトレーニングを可能にするが、モデルオーナシップを保護し、リークが発生した場合の起点を特定するという課題を導入する。 先行研究に基づいて,異なるデータ所有者による共謀攻撃の脅威に対処するため,白黒裏切り者追跡透かしのFL分類器への適応について検討した。 この研究により、リーク耐性のホワイトボックス指紋はFLダイナミックスの影響を受けずに直接実装でき、ブラックボックス指紋は大幅に影響を受け、裏切り者の追跡能力を失うことが判明した。 この効果を緩和するために、ドロップアウト規則化によりブラックボックスサルエントニューロンの数を増やすことを提案する。 非I.d.データセットや過度パラメータ化モデルの分析など、未解決の問題はまだいくつかあるが、結果として、疑わしいリークに関わるすべてのデータ所有者を識別する、コラシオン耐性の裏切り者追跡が、訓練の初期段階であってもFLフレームワークで実現可能であることが示されている。

As deep learning applications become more prevalent, the need for extensive training examples raises concerns for sensitive, personal, or proprietary data. To overcome this, Federated Learning (FL) enables collaborative model training across distributed data-owners, but it introduces challenges in safeguarding model ownership and identifying the origin in case of a leak. Building upon prior work, this paper explores the adaptation of black-and-white traitor tracing watermarking to FL classifiers, addressing the threat of collusion attacks from different data-owners. This study reveals that leak-resistant white-box fingerprints can be directly implemented without a significant impact from FL dynamics, while the black-box fingerprints are drastically affected, losing their traitor tracing capabilities. To mitigate this effect, we propose increasing the number of black-box salient neurons through dropout regularization. Though there are still some open problems to be explored, such as analyzing non-i.i.d. datasets and over-parameterized models, results show that collusion-resistant traitor tracing, identifying all data-owners involved in a suspected leak, is feasible in an FL framework, even in early stages of training.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 語彙データに対する機械学習モデルの評価に関するデータ中心的視点

A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data ( http://arxiv.org/abs/2407.02112v1 )

ライセンス: Link先を確認
Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt, (参考訳) タブラルデータは実世界の機械学習アプリケーションで広く使われており、表形式のデータの教師付き学習のための新しいモデルが頻繁に提案されている。 モデルの性能を評価する比較研究は、典型的には、過度に標準化されたデータ前処理を伴うモデル中心の評価設定から成り立っている。 実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、そのようなモデル中心の評価は偏りがあることを実証する。 そこで本研究では,データ中心評価フレームワークを提案する。 Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。 我々は、モデル選択、HPO、機能工学、テスト時間適応の影響を定量化するために、異なる前処理パイプラインとハイパーパラメータ最適化(HPO)システムを用いて実験を行う。 主な発見は次のとおりである。 1. データセット固有の特徴工学の後, モデルランキングは大幅に変化し, 性能差が減少し, モデル選択の重要性が低下する。 2.最近のモデルは、測定可能な進歩にもかかわらず、手動機能工学の恩恵は大きい。 これはツリーベースモデルとニューラルネットワークの両方に当てはまる。 3. 表形式のデータは一般的に静的と考えられるが, サンプルは時間とともに収集されることが多く, 分布シフトへの適応は, 静的と思われるデータにおいても重要である。 これらの洞察は、研究努力がデータ中心の視点に向けられるべきであることを示唆し、表形式のデータには機能エンジニアリングが必要であり、しばしば時間的特性が現れることを認めている。

Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 工学最適化のための一般化進化メタヒューリスティック(GEM)アルゴリズム

A Generalized Evolutionary Metaheuristic (GEM) Algorithm for Engineering Optimization ( http://arxiv.org/abs/2407.02113v1 )

ライセンス: Link先を確認
Xin-She Yang, (参考訳) 工学および工業設計における多くの最適化問題は、複数の複雑な制約の下で、非常に非線形な目的を持つ最適化問題として定式化することができる。 このような最適化問題の解決には高度なアルゴリズムと最適化技術が必要である。 近年の大きなトレンドは、自然に着想を得たメタヒュースティックアルゴリズム(NIMA)の利用である。 自然に着想を得たメタヒューリスティックアルゴリズムの人気にもかかわらず、解決すべき課題やオープンな問題がまだいくつか残っている。 現在のNIMAには2つの大きな問題がある: 文献には540以上のアルゴリズムがあり、異なるアルゴリズムの探索機構を理解するための統一されたフレームワークはない。 そこで本研究では,異なるアルゴリズム間の類似点や相違点を分析し,既存のアルゴリズムを統一するために一般化された進化的メタヒューリスティック(GEM)を提案する。 自然にインスパイアされたアルゴリズムとオープンな問題に関するいくつかの知見に関する簡単な議論の後、我々は20以上の異なるアルゴリズムを統一し、それらの主要なステップと探索メカニズムを理解するための一般化された進化的メタヒューリスティックアルゴリズムを提案する。 次に、15のテストベンチマークを用いて統一GEMをテストし、その性能を検証する。 最後に,今後の研究課題について概説する。

Many optimization problems in engineering and industrial design applications can be formulated as optimization problems with highly nonlinear objectives, subject to multiple complex constraints. Solving such optimization problems requires sophisticated algorithms and optimization techniques. A major trend in recent years is the use of nature-inspired metaheustic algorithms (NIMA). Despite the popularity of nature-inspired metaheuristic algorithms, there are still some challenging issues and open problems to be resolved. Two main issues related to current NIMAs are: there are over 540 algorithms in the literature, and there is no unified framework to understand the search mechanisms of different algorithms. Therefore, this paper attempts to analyse some similarities and differences among different algorithms and then presents a generalized evolutionary metaheuristic (GEM) in an attempt to unify some of the existing algorithms. After a brief discussion of some insights into nature-inspired algorithms and some open problems, we propose a generalized evolutionary metaheuristic algorithm to unify more than 20 different algorithms so as to understand their main steps and search mechanisms. We then test the unified GEM using 15 test benchmarks to validate its performance. Finally, further research topics are briefly discussed.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 言語バリアを破る - 大規模での言語間連続的な事前トレーニング

Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale ( http://arxiv.org/abs/2407.02118v1 )

ライセンス: Link先を確認
Wenzhen Zheng, Wenbo Pan, Xu Xu, Libo Qin, Li Yue, Ming Zhou, (参考訳) 近年,Large Language Models (LLMs) は人工知能に大きく貢献している。 しかし、これらのモデルをスクラッチからトレーニングするには、かなりの計算資源と大量のテキストデータが必要である。 本稿では,既存の学習済みLLMから連続的に事前学習(CPT)を行うことで,ランダムに初期化パラメータを使わずに,新しい言語のためのLLMを構築するための代替手法を提案する。 40Mパラメーターから5Bパラメーターまでの40モデルの並列実験から、そのことが分かる。 1) CPTは、より早く収束し、スケーラブルな方法で重要なリソースを節約します。 2) CPTは,Hoffmann et al (2022)から派生した拡張スケーリング法に従属する。 3) CPTの計算最適データパラメータ割り当ては, 推定スケーリング因子によって大きく異なる。 4) CPTにおける破滅的忘れを効果的に緩和する手法であるデータ再生に頑健でありながら, 訓練期間や言語特性に影響される。 我々は,研究コミュニティにおけるLLMの大規模導入可能性について,より深い知見を得られることを願っている。

In recent years, Large Language Models (LLMs) have made significant strides towards Artificial General Intelligence. However, training these models from scratch requires substantial computational resources and vast amounts of text data. In this paper, we explore an alternative approach to constructing an LLM for a new language by continually pretraining (CPT) from existing pretrained LLMs, instead of using randomly initialized parameters. Based on parallel experiments on 40 model sizes ranging from 40M to 5B parameters, we find that 1) CPT converges faster and saves significant resources in a scalable manner; 2) CPT adheres to an extended scaling law derived from Hoffmann et al. (2022) with a joint data-parameter scaling term; 3) The compute-optimal data-parameter allocation for CPT markedly differs based on our estimated scaling factors; 4) The effectiveness of transfer at scale is influenced by training duration and linguistic properties, while robust to data replaying, a method that effectively mitigates catastrophic forgetting in CPT. We hope our findings provide deeper insights into the transferability of LLMs at scale for the research community.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# オン・ポリティクスとアクティブ・ラーニングを用いたコスト効果プロキシ・リワードモデルの構築

Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning ( http://arxiv.org/abs/2407.02119v1 )

ライセンス: Link先を確認
Yifang Chen, Shuohang Wang, Ziyi Yang, Hiteshi Sharma, Nikos Karampatziakis, Donghan Yu, Kevin Jamieson, Simon Shaolei Du, Yelong Shen, (参考訳) 現在の大規模言語モデルパイプラインで広く採用されているRLHF(Reinforcement Learning with Human feedback)は、人間の嗜好データのサイズに悩まされている。 従来の手法はオフラインの選好データセット構築に依存しているが、近年のオンライン設定では、学習者が少量のラベル付きシードデータとラベルなしの大量のプロンプトを使用して、自己生成された応答と高品質の報酬/参照フィードバックを通じて、新しい選好データを反復的に構築する。 しかし、現在のほとんどのオンラインアルゴリズムは、与えられたフィードバックのオーラクルでポリシーモデルの更新中に好みのラベル付けに重点を置いている。 私たちは、非常に限定されたラベル付きデータと専門的なクエリ予算で、さらにレコメンデーションや報酬をラベル付けするためのコスト効果の高いプロキシ報酬オークレス構築戦略を最初に探求しました。 提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。 これらの手法を用いて、専門家ラベル付きデータを最小限に抑えた評価モデルを訓練し、さらにRLHFトレーニングの9倍の選好ペアを効果的にラベル付けする。 例えば、DPO(Direct Preference Optimization)を用いたモデルでは、AlpacaEval2、MMLU-5shot、MMLU-0shotで平均1%以上の改善が得られ、クエリコストは1.7Kである。 我々の方法論は、他の専門家によるクエリベースの戦略と直交しているため、クエリコストをさらに削減するために、それらと統合される可能性がある。

Reinforcement learning with human feedback (RLHF), as a widely adopted approach in current large language model pipelines, is \textit{bottlenecked by the size of human preference data}. While traditional methods rely on offline preference dataset constructions, recent approaches have shifted towards online settings, where a learner uses a small amount of labeled seed data and a large pool of unlabeled prompts to iteratively construct new preference data through self-generated responses and high-quality reward/preference feedback. However, most current online algorithms still focus on preference labeling during policy model updating with given feedback oracles, which incurs significant expert query costs. \textit{We are the first to explore cost-effective proxy reward oracles construction strategies for further labeling preferences or rewards with extremely limited labeled data and expert query budgets}. Our approach introduces two key innovations: (1) on-policy query to avoid OOD and imbalance issues in seed data, and (2) active learning to select the most informative data for preference queries. Using these methods, we train a evaluation model with minimal expert-labeled data, which then effectively labels nine times more preference pairs for further RLHF training. For instance, our model using Direct Preference Optimization (DPO) gains around over 1% average improvement on AlpacaEval2, MMLU-5shot and MMLU-0shot, with only 1.7K query cost. Our methodology is orthogonal to other direct expert query-based strategies and therefore might be integrated with them to further reduce query costs.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 非コンテキスト配線の凸性とその相関集合の順序について

Convexity of noncontextual wirings and how they order the set of correlations ( http://arxiv.org/abs/2407.02120v1 )

ライセンス: Link先を確認
Tiago Santos, Rafael Wagner, Bárbara Amaral, (参考訳) 文脈性(英語版)の資源理論(英語版)は、リソースフルオブジェクトは相関や振る舞いとして知られる確率的なデータテーブルであり、コチェン=スペクター非コンテキストモデルの観点からは説明できないと考えている。 本研究では、自由操作を非コンテキスト配線(NCW)として考慮し、この資源理論を推し進める。 すべての配線が凸集合を形成することを示す。 ベルのシナリオに制限された場合、そのような配線は古典的共有ランダム性(LOSR)の共通源による局所的な操作と等価ではないことを示す。 全てのNCW操作の集合はLOSRを含むが、厳密には大きい。 また、NCWを介して異なるリソースを変換する方法に関するいくつかの基本的な事実も証明する。 具体例として、NCWを用いて一方を他方に変換できない行動対が存在することを示す。 資源変換は数学的にすべての挙動の集合上の事前順序を誘導するので,ベルシナリオ以外のシナリオにおいてNCWによって誘導される複雑な順序が明らかになる。

The resource theory of contextuality considers resourceful objects to be probabilistic data-tables, known as correlations or behaviors, that fail to have an explanation in terms of Kochen-Specker noncontextual models. In this work, we advance this resource theory, considering free operations to be noncontextual wirings (NCW). We show that all such wirings form a convex set. When restricted to Bell scenarios, we show that such wirings are not equivalent to local operations assisted by a common source of classical shared randomness (LOSR). The set of all NCW operations contains LOSR, but is strictly larger. We also prove several elementary facts about how different resources can be converted via NCW. As a concrete example, we show that there are pairs of behaviors that cannot be converted one into the other using NCW. Since resource conversion mathematically induces a pre-order over the set of all behaviors, our results reveal the intricate ordering induced by NCW in scenarios beyond Bell scenarios.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# Fake News Detection: すべてはデータにある!

Fake News Detection: It's All in the Data! ( http://arxiv.org/abs/2407.02122v1 )

ライセンス: Link先を確認
Soveatin Kuntur, Anna Wróblewska, Marcin Paprzycki, Maria Ganzha, (参考訳) この総合的な調査は、偽ニュース検出の旅を始める研究者にとって欠かせない資源となっている。 データセットの品質と多様性の重要な役割を強調することで、検出モデルの有効性と堅牢性において、これらの要素の重要性を強調します。 調査では、データセットの重要な特徴、採用されているさまざまなラベルシステム、モデルのパフォーマンスに影響を及ぼす偏見を慎重に概説している。 さらに、重要な倫理的問題とベストプラクティスに対処し、利用可能なデータセットの現状を概観する。 この領域への私たちのコントリビューションは、公開アクセス可能なデータセットを単一のユーザフレンドリなポータルに統合するGitHubリポジトリの提供によって、さらに強化されています。 このレポジトリは、フェイクニュースの広範にわたる問題に対処するために、さらなる研究と開発を促進、促進するために設計されている。

This comprehensive survey serves as an indispensable resource for researchers embarking on the journey of fake news detection. By highlighting the pivotal role of dataset quality and diversity, it underscores the significance of these elements in the effectiveness and robustness of detection models. The survey meticulously outlines the key features of datasets, various labeling systems employed, and prevalent biases that can impact model performance. Additionally, it addresses critical ethical issues and best practices, offering a thorough overview of the current state of available datasets. Our contribution to this field is further enriched by the provision of GitHub repository, which consolidates publicly accessible datasets into a single, user-friendly portal. This repository is designed to facilitate and stimulate further research and development efforts aimed at combating the pervasive issue of fake news.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# Few-Shot Fine-Grained Image Classificationのためのハイブリッド機能協調再構成ネットワーク

Hybrid Feature Collaborative Reconstruction Network for Few-Shot Fine-Grained Image Classification ( http://arxiv.org/abs/2407.02123v1 )

ライセンス: Link先を確認
Shulei Qiu, Wanqi Yang, Ming Yang, (参考訳) 本研究は,微細な物体の外観的類似性と限られたサンプル数との2つの大きな課題に直面する,少数のきめ細かい画像分類に焦点をあてる。 画像の外観を保存するために、従来の特徴再構成ネットワークは通常、空間的特徴再構成と再構成誤差の最小化により、重要な特徴の表現能力を向上する。 しかし、単一タイプの機能のみに依存すると、限られたサンプルを持つシナリオにおいて、きめ細かいオブジェクトのクラス間の違いを正確に捉えるには不十分であることがわかった。 対照的に、チャネル機能の導入は、細粒度オブジェクトのクラス間の違いをよりよく理解し、区別するのに役立つ追加情報ディメンションを提供する。 そこで本稿では,HFFP(Hybrid Feature Fusion Process)とHFRP(Hybrid Feature Restruction Process)を含む,画像分類のためのHFCR-Net(Hybrid Feature Collaborative Restruction Network)を新たに設計する。 HFRPでは,チャネルの特徴と空間的特徴を融合させる。 動的重み調整により、任意の2つの位置間の空間的依存関係と各画像の異なるチャンネル間の相関を集約し、クラス間差を増大させる。 さらに,HFRPにおけるチャネル次元の再構成についても紹介する。 チャネル次元と空間次元の協調的再構成により,サポート・ツー・クエリ・再構築の過程でクラス間差がさらに増加し,クエリ・ツー・サポート・再構築の過程でクラス内差が減少する。 最終的に、広く使われている3つのきめ細かいデータセットに関する広範な実験は、我々のアプローチの有効性と優位性を示している。

Our research focuses on few-shot fine-grained image classification, which faces two major challenges: appearance similarity of fine-grained objects and limited number of samples. To preserve the appearance details of images, traditional feature reconstruction networks usually enhance the representation ability of key features by spatial feature reconstruction and minimizing the reconstruction error. However, we find that relying solely on a single type of feature is insufficient for accurately capturing inter-class differences of fine-grained objects in scenarios with limited samples. In contrast, the introduction of channel features provides additional information dimensions, aiding in better understanding and distinguishing the inter-class differences of fine-grained objects. Therefore, in this paper, we design a new Hybrid Feature Collaborative Reconstruction Network (HFCR-Net) for few-shot fine-grained image classification, which includes a Hybrid Feature Fusion Process (HFFP) and a Hybrid Feature Reconstruction Process (HFRP). In HFRP, we fuse the channel features and the spatial features. Through dynamic weight adjustment, we aggregate the spatial dependencies between arbitrary two positions and the correlations between different channels of each image to increase the inter-class differences. Additionally, we introduce the reconstruction of channel dimension in HFRP. Through the collaborative reconstruction of channel dimension and spatial dimension, the inter-class differences are further increased in the process of support-to-query reconstruction, while the intra-class differences are reduced in the process of query-to-support reconstruction. Ultimately, our extensive experiments on three widely used fine-grained datasets demonstrate the effectiveness and superiority of our approach.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 降水アンサンブル予測後処理のための分布回帰U-Net

Distributional Regression U-Nets for the Postprocessing of Precipitation Ensemble Forecasts ( http://arxiv.org/abs/2407.02125v1 )

ライセンス: Link先を確認
Romain Pic, Clément Dombry, Philippe Naveau, Maxime Taillardat, (参考訳) 正確な降水予測は、輸送ネットワークや農業など様々な分野における意思決定における役割から、社会経済的価値が高い。 グリッド型降水アンサンブル予測のためのグローバル統計後処理手法を提案する。 このU-Netベースの分布回帰法は,スコアリングルールの最小化により推定されるパラメトリック分布の形の辺り分布を予測する。 分布回帰U-Netは,フランス南部の降水量3hの日平均21時間予測のための最先端のポストプロセッシング手法と比較した。 トレーニングデータは、M\'et\'eo-France気象モデルAROME-EPSから作成され、3年間に及ぶ。 一貫性のあるデータや再放送が利用できない場合には、現実的な課題が発生する。 分布回帰U-ネットは生のアンサンブルと良好に競合する。 連続的なランク付けされた確率スコアは、QRF(quantile regression forests)に匹敵するパフォーマンスに達する。 しかし, 降水量の多い地域では, 降水量の調整は不可能である。 降水量の予測力は, 準パラメトリックQRFと準パラメトリックQRFの双方を上回った。

Accurate precipitation forecasts have a high socio-economic value due to their role in decision-making in various fields such as transport networks and farming. We propose a global statistical postprocessing method for grid-based precipitation ensemble forecasts. This U-Net-based distributional regression method predicts marginal distributions in the form of parametric distributions inferred by scoring rule minimization. Distributional regression U-Nets are compared to state-of-the-art postprocessing methods for daily 21-h forecasts of 3-h accumulated precipitation over the South of France. Training data comes from the M\'et\'eo-France weather model AROME-EPS and spans 3 years. A practical challenge appears when consistent data or reforecasts are not available. Distributional regression U-Nets compete favorably with the raw ensemble. In terms of continuous ranked probability score, they reach a performance comparable to quantile regression forests (QRF). However, they are unable to provide calibrated forecasts in areas associated with high climatological precipitation. In terms of predictive power for heavy precipitation events, they outperform both QRF and semi-parametric QRF with tail extensions.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# ブラックビッグボックス:言語モデルは形容詞順の理論を隠しているか?

Black Big Boxes: Do Language Models Hide a Theory of Adjective Order? ( http://arxiv.org/abs/2407.02136v1 )

ライセンス: Link先を確認
Jaap Jumelet, Lisa Bylinina, Willem Zuidema, Jakub Szymanik, (参考訳) 英語や他の言語では、複雑な名詞句の複数の形容詞は、多くの言語理論の標的となった複雑な順序付けパターンを示している。 これらのパターンは、従来の構文、意味論、実践学を横断する要素を含む言語の微妙な規則を学習する言語モデル(LM)の能力を評価する機会を提供する。 我々は,ヒトにおける形容詞順選好(AOP)を説明するために設計された既存の仮説を概観し,形容詞対の再利用コーパスを提示し,LMのAOP対策を定義する。 これらのツールを用いて、トレーニング中の中間チェックポイントにまたがる一連のLMを調査する。 理論言語学で特定された因子によって生成される予測よりも,全てのモデルの予測が人間のAOPにずっと近いことが判明した。 同時に、LMにおける観測されたAOPが、トレーニングデータ中の形容詞対の頻度と強く相関していることを示し、未知の組合せに限定的な一般化を報告した。 このことは、LM性能と言語理論の関連性を確立することの難しさを浮き彫りにする。 そこで本研究では、今後の研究のロードマップと、LMにおける知識の性質と、学習セットを超えて一般化する能力に関する重要な疑問を議論する。

In English and other languages, multiple adjectives in a complex noun phrase show intricate ordering patterns that have been a target of much linguistic theory. These patterns offer an opportunity to assess the ability of language models (LMs) to learn subtle rules of language involving factors that cross the traditional divisions of syntax, semantics, and pragmatics. We review existing hypotheses designed to explain Adjective Order Preferences (AOPs) in humans and develop a setup to study AOPs in LMs: we present a reusable corpus of adjective pairs and define AOP measures for LMs. With these tools, we study a series of LMs across intermediate checkpoints during training. We find that all models' predictions are much closer to human AOPs than predictions generated by factors identified in theoretical linguistics. At the same time, we demonstrate that the observed AOPs in LMs are strongly correlated with the frequency of the adjective pairs in the training data and report limited generalization to unseen combinations. This highlights the difficulty in establishing the link between LM performance and linguistic theory. We therefore conclude with a road map for future studies our results set the stage for, and a discussion of key questions about the nature of knowledge in LMs and their ability to generalize beyond the training sets.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 自然言語処理タスクにおける近接近傍の効率の良い不確実性推定

Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks ( http://arxiv.org/abs/2407.02138v1 )

ライセンス: Link先を確認
Wataru Hashimoto, Hidetaka Kamigaito, Taro Watanabe, (参考訳) プレトレーニング言語モデル(PLM)を含むディープニューラルネットワーク(DNN)の信頼できる予測は、現実世界の安全クリティカルなアプリケーションにとって重要である。 しかし、DNNは誤校正などの不確実性評価に悩まされることが多い。 特に、複数の確率的推論を必要とするアプローチはこの問題を軽減することができるが、高価な推論コストはそれらを非現実的なものにする。 本研究では,近隣住民からの距離と近隣住民のラベル存在率を利用した不確実性推定手法であるk$Nearest Neearbor Uncertainty Estimation(k$NN-UE)を提案する。 感情分析,自然言語推論,名前付きエンティティ認識実験の結果,提案手法は信頼度校正,選択予測,分布外検出において,ベースラインや最近の密度に基づく手法よりも優れていた。 さらに,最近の$k$NN-LM研究にインスパイアされた,次元の縮小や近接した近傍探索の導入により,推定性能を適切に向上させることなく,推定オーバーヘッドを低減できることが示唆された。

Trustworthy prediction in Deep Neural Networks (DNNs), including Pre-trained Language Models (PLMs) is important for safety-critical applications in the real world. However, DNNs often suffer from uncertainty estimation, such as miscalibration. In particular, approaches that require multiple stochastic inference can mitigate this problem, but the expensive cost of inference makes them impractical. In this study, we propose $k$-Nearest Neighbor Uncertainty Estimation ($k$NN-UE), which is an uncertainty estimation method that uses the distances from the neighbors and label-existence ratio of neighbors. Experiments on sentiment analysis, natural language inference, and named entity recognition show that our proposed method outperforms the baselines or recent density-based methods in confidence calibration, selective prediction, and out-of-distribution detection. Moreover, our analyses indicate that introducing dimension reduction or approximate nearest neighbor search inspired by recent $k$NN-LM studies reduces the inference overhead without significantly degrading estimation performance when combined them appropriately.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# 長距離相互作用系は局所的に非相互作用的である

Long-range interacting systems are locally non-interacting ( http://arxiv.org/abs/2407.02141v1 )

ライセンス: Link先を確認
Robert Mattes, Igor Lesanovsky, Federico Carollo, (参考訳) 量子多体物理学の分野において、非局所的およびパワーロー崩壊相互作用を制御する実験能力の強化が、現在、激しい研究を加速させている。 短距離相互作用と比較すると、長距離相互作用系は情報伝達のための非線形光円錐や非等価熱力学的アンサンブルのような新しい物理学を示す。 本研究では、任意の次元の一般の長距離オープン量子系を考察し、いわゆる強長距離状態に着目する。 我々は、量子状態の減少によって得られた熱力学的極限局所的性質が、創発的非相互作用理論によって記述されていることを証明した。 ここで、力学は分解され、システムの個々の構成成分は独立に進化し、時間とともに相関が生じることはない。 この意味で、長距離相互作用系は局所的に非相互作用的である。 これは、例えば長寿命準定常状態の出現や熱化の欠如など、緩和挙動に重要な意味を持つ。

Enhanced experimental capabilities to control nonlocal and power-law decaying interactions are currently fuelling intense research in the domain of quantum many-body physics. Compared to their counterparts with short-ranged interactions, long-range interacting systems display novel physics, such as nonlinear light cones for the propagation of information or inequivalent thermodynamic ensembles. In this work, we consider generic long-range open quantum systems in arbitrary dimensions and focus on the so-called strong long-range regime. We prove that in the thermodynamic limit local properties, captured by reduced quantum states, are described by an emergent non-interacting theory. Here, the dynamics factorizes and the individual constituents of the system evolve independently such that no correlations are generated over time. In this sense, long-range interacting systems are locally non-interacting. This has significant implications for their relaxation behavior, for instance in relation to the emergence of long-lived quasi-stationary states or to the absence of thermalization.
翻訳日:2024-07-03 15:55:01 公開日:2024-07-02
# グラフ異常検出のためのデノベーション拡散によるデファクトデータ拡張

Counterfactual Data Augmentation with Denoising Diffusion for Graph Anomaly Detection ( http://arxiv.org/abs/2407.02143v1 )

ライセンス: Link先を確認
Chunjing Xiao, Shikang Pang, Xovee Xu, Xuan Li, Goce Trajcevski, Fan Zhou, (参考訳) グラフニューラルネットワーク(GNN)の重要な側面は、ノード近傍情報を集約することでノード表現を強化することである。 しかしながら、異常を検出する際、異常ノードの表現は通常の隣人によって平均化されがちであり、学習された異常表現を識別しにくくする。 この問題に対処するため、我々は、グラフ異常検出のための教師なしの対実データ拡張手法であるCAGADを提案し、これは、グラフポインターニューラルネットワークを異種ノード検出器として導入し、近隣が正常ノード優位な潜在的な異常を検出する。 同定された潜在的な異常に対して、我々はグラフ固有の拡散モデルを設計し、隣り合う部分(おそらくは正規である)の一部を異常なものに翻訳する。 最終的に、これらの翻訳された近隣住民をGNN近傍の集約に巻き込み、異常の非現実的表現を生成する。 翻訳された異常な隣人を集約することで、偽造表現はより識別しやすくなり、さらに検出性能を主張する。 4つのデータセットの実験結果から、CAGADはF1では2.35%、AUC-ROCでは2.53%、AUC-PRでは2.79%、強いベースラインを著しく上回ることが示された。

A critical aspect of Graph Neural Networks (GNNs) is to enhance the node representations by aggregating node neighborhood information. However, when detecting anomalies, the representations of abnormal nodes are prone to be averaged by normal neighbors, making the learned anomaly representations less distinguishable. To tackle this issue, we propose CAGAD -- an unsupervised Counterfactual data Augmentation method for Graph Anomaly Detection -- which introduces a graph pointer neural network as the heterophilic node detector to identify potential anomalies whose neighborhoods are normal-node-dominant. For each identified potential anomaly, we design a graph-specific diffusion model to translate a part of its neighbors, which are probably normal, into anomalous ones. At last, we involve these translated neighbors in GNN neighborhood aggregation to produce counterfactual representations of anomalies. Through aggregating the translated anomalous neighbors, counterfactual representations become more distinguishable and further advocate detection performance. The experimental results on four datasets demonstrate that CAGAD significantly outperforms strong baselines, with an average improvement of 2.35% on F1, 2.53% on AUC-ROC, and 2.79% on AUC-PR.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# 雑音量子ネットワークにおける状態伝達

State Transfer in Noisy Modular Quantum Networks ( http://arxiv.org/abs/2407.02145v1 )

ライセンス: Link先を確認
Markku Hahto, Jyrki Piilo, Johannes Nokkala, (参考訳) 量子状態伝達 (quantum state transfer) とは、量子ネットワーク内のあるシステムから別のシステムに量子情報のキャリアを物理的に輸送せずに転送する行為である。 量子ルーティングと呼ばれる量子状態移動の一般化は、量子ネットワーク内の複数のペア間の同時転送を懸念し、その構造に制限を与える。 本稿では,量子状態ルーティングに適したプラットフォームとして認識されてきたモジュラ構造を持つ雑音量子ネットワーク上でのガウス状態の転送について考察する。 ネットワークトポロジやネットワーク構成成分に影響を与える2つのノイズモデルを比較し,転送特性とネットワーク特性に与える影響について検討する。 この2つのモデルがネットワークの異なる特徴に影響を与え、ノイズの識別と定量化を可能にしていることがわかった。 次に、これらの特徴をノイズ補償のための異なる戦略のガイドとして使用し、補償戦略がどのように機能するかを検討する。 我々の結果は、一般にモジュラーネットワークはモノリシックネットワークよりもノイズに対して堅牢であることを示している。

Quantum state transfer is the act of transferring quantum information from one system in a quantum network to another without physically transporting carriers of quantum information, but instead engineering a Hamiltonian such that the state of the sender is transferred to the receiver through the dynamics of the whole network. A generalization of quantum state transfer called quantum routing concerns simultaneous transfers between multiple pairs in a quantum network, imposing limitations on its structure. In this article we consider transfer of Gaussian states over noisy quantum networks with modular structure, which have been identified as a suitable platform for quantum state routing. We compare two noise models, affecting either the network topology or the network constituents, studying their effects on both the transfer fidelities and the network properties. We find that the two models affect different features of the network allowing for the identification and quantification of the noise. We then use these features as a guide towards different strategies for the compensation of the noise, and examine how the compensation strategies perform. Our results show that in general, modular networks are more robust to noise than monolithic ones.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# LlamAr & GemmAr: アラビア語指導によるLLMの強化

LlamAr & GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning ( http://arxiv.org/abs/2407.02147v1 )

ライセンス: Link先を確認
Hasna Chouikhi, Manel Aloui, Cyrine Ben Hammou, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi, (参考訳) 大規模言語モデル(LLM)は、特に英語の自然言語処理(NLP)分野に大きな影響を与えている。 これらのモデルは、人間のようなテキストを理解して生成する能力を示している。 言語モデルの成功は、様々なプロンプトに正確に対処するためにモデルのトレーニングに不可欠である詳細なタスク記述とそれに対応する応答からなる高品質な命令データセットの可用性に大きく依存する。 しかし、これらのリソースの可用性と品質は言語によって異なる。 モデルは英語ではうまく機能するが、アラビア語のような言語では、微調整されたアラビア語固有のタスクのためのデータセットが不足しているため、しばしば苦労する。 InstAr-500kは、複数のドメインと命令タイプをカバーするコンテンツを生成し、収集するアラビア文字の命令データセットである。 次に,Llama-3-8B-Instruct と Gemma-7B-IT の2つのオープンソースモデルを下流タスクで微調整して,それらの機能改善をスケールすることで,このデータセットを評価する。 複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより最先端の性能が得られた。 これらの結果は、アラビア語の言語モデルの能力を高めるために、我々のデータセットの有効性を強調している。 我々の指導データセットは、アラビア語のNLP開発を増幅するリソースを提供することで、英語とアラビア語のモデルのパフォーマンスギャップを埋める。 この基礎の上に構築した2つの最先端モデルであるLlamAr-8BとGemmAr-7Bを開発した。

Large language models (LLMs) have greatly impacted the natural language processing (NLP) field, particularly for the English language. These models have demonstrated capabilities in understanding and generating human-like text. The success of language models largely depends on the availability of high-quality instruction datasets, which consist of detailed task descriptions and corresponding responses that are essential for training the models to accurately address a variety of prompts. However, the availability and quality of these resources vary by language. While models perform well in English, they often struggle with languages like Arabic, due to the lack of datasets for fine-tuning Arabic-specific tasks. To address this issue, we introduce InstAr-500k, a new Arabic instruction dataset created by generating and collecting content that covers several domains and instruction types. We then assess this dataset by fine-tuning two open-source models, Llama-3-8B-Instruct and Gemma-7B-IT, on several downstream tasks to scale improvements in their functionality. Based on multiple evaluations, our fine-tuned models achieve state-of-the-art performance on several Arabic NLP benchmarks. These outcomes emphasize the effectiveness of our dataset in elevating the capabilities of language models for Arabic. Our instruction dataset bridges the performance gap between English and Arabic language models by providing resources that amplify Arabic NLP development. Building on this foundation, we developed two state-of-the-art models, LlamAr-8B and GemmAr-7B, which are specifically tuned to excel at a wide range of Arabic NLP tasks.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# VRBiom:HMDの生体計測応用のための新しい眼周囲データセット

VRBiom: A New Periocular Dataset for Biometric Applications of HMD ( http://arxiv.org/abs/2407.02150v1 )

ライセンス: Link先を確認
Ketan Kotwal, Ibrahim Ulucan, Gokhan Ozbulak, Janani Selliah, Sebastien Marcel, (参考訳) ハードウェアの進歩に伴い、高品質のHMDデバイスは多くの企業によって開発され、AR、VR、MRアプリケーションへの消費者の関心が高まっている。 本研究では,VRヘッドセットを用いて取得した眼内ビデオの新たなデータセットであるVRBiomを提案する。 VRBiomはバイオメトリック・アプリケーションをターゲットにしており、NIRスペクトルで記録された25人の個人から取得した900本の短いビデオで構成されている。 この動画はMeta Quest Proの内部追跡カメラを使って72FPSで撮影されました。 実世界の変動を包含するために、データセットは3つの視線条件(安定、移動、部分的に閉じた目)で記録される。 また、アイウェアの分析を容易にするために、メガネを使わずに記録を均等に分割することも保証した。 これらのビデオは眼の非正面視と比較的低い空間分解能(400 x 400)によって特徴づけられ、様々な生体計測応用の最先端の研究に役立てることができる。 VRBiomデータセットは、虹彩や/または周辺眼の認識や、検出やセマンティックセグメンテーションなどの関連するサブタスクといったバイオメトリックなユースケースのモデルの評価、トレーニング、適応に使用することができる。 実際の個人データに加えて,92個のPA楽器から構築した約1100個のPAが含まれている。 これらのPAIは、プリントアタック(本物と合成のアイデンティティ)、偽の3Dアイボール、プラスチックの目、そして様々な種類のマスクとマネキンの組み合わせによって構築された6つのカテゴリに分類される。 これらのPAビデオは、本物の(bona-fide)データと組み合わせることで、スプーフィングに関連する懸念に対処することができる。 VRBiomデータセットは、生体認証アプリケーションのみに関する研究目的で公開されている。

With advancements in hardware, high-quality HMD devices are being developed by numerous companies, driving increased consumer interest in AR, VR, and MR applications. In this work, we present a new dataset, called VRBiom, of periocular videos acquired using a Virtual Reality headset. The VRBiom, targeted at biometric applications, consists of 900 short videos acquired from 25 individuals recorded in the NIR spectrum. These 10s long videos have been captured using the internal tracking cameras of Meta Quest Pro at 72 FPS. To encompass real-world variations, the dataset includes recordings under three gaze conditions: steady, moving, and partially closed eyes. We have also ensured an equal split of recordings without and with glasses to facilitate the analysis of eye-wear. These videos, characterized by non-frontal views of the eye and relatively low spatial resolutions (400 x 400), can be instrumental in advancing state-of-the-art research across various biometric applications. The VRBiom dataset can be utilized to evaluate, train, or adapt models for biometric use-cases such as iris and/or periocular recognition and associated sub-tasks such as detection and semantic segmentation. In addition to data from real individuals, we have included around 1100 PA constructed from 92 PA instruments. These PAIs fall into six categories constructed through combinations of print attacks (real and synthetic identities), fake 3D eyeballs, plastic eyes, and various types of masks and mannequins. These PA videos, combined with genuine (bona-fide) data, can be utilized to address concerns related to spoofing, which is a significant threat if these devices are to be used for authentication. The VRBiom dataset is publicly available for research purposes related to biometric applications only.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# 自由結び目とReLUニューラルネットワークの等価分布に基づく学習

Equidistribution-based training of Free Knot Splines and ReLU Neural Networks ( http://arxiv.org/abs/2407.02153v1 )

ライセンス: Link先を確認
Simone Appella, Simon Arridge, Chris Budd, Teo Deveney, Lisa Maria Kreusser, (参考訳) 直交線形ユニット(ReLU)アクティベーション機能を備えた浅層ニューラルネットワーク(NN)を用いた一次元関数近似の問題点を考察し,そのトレーニングをFKS(Univariate Free Knot Splines)のような従来の手法と比較する。 ReLU NN と FKS は同じ関数空間にまたがり、したがって同じ理論的表現性を持つ。 ReLU NN の場合,ネットワークの幅が大きくなるにつれて,悪条件が急速に低下することを示す。 これはしばしば FKS 表現とは対照的に、結び目の数が増加するにつれてよく条件付けされているため、近似が著しく劣る。 我々は、ReLU NNのトレーニング手順を改善するために、最適片方向線形補間理論を利用する。 等価分布原理を用いて、補間FKSの最適ノット位置を求める非線形問題を初めて解くことにより、FKSを訓練するための2段階の手順を提案する。 最適結び目を決定することは、FKSの重みを訓練するための良い出発点として機能する。 FKSのトレーニングは、ReLU NNを効果的にトレーニングし、等しく正確な近似を与える方法についての洞察を与える。 より正確には、ReLU NNのトレーニングと等価分布に基づく損失を組み合わせてReLU関数のブレークポイントを見つけ、ReLU NN近似(FKS形式を取る)を事前条件付けしてReLU関数のスケーリングを見つけ、目標関数に対する正確なReLU NN近似を見つけるための、十分に条件付き信頼性の高い方法をもたらす。 本手法は, 連続的, 正規的, 特異な, 急速に変化する対象関数に対して試験を行い, ネットワークの表現性を実現する。

We consider the problem of one-dimensional function approximation using shallow neural networks (NN) with a rectified linear unit (ReLU) activation function and compare their training with traditional methods such as univariate Free Knot Splines (FKS). ReLU NNs and FKS span the same function space, and thus have the same theoretical expressivity. In the case of ReLU NNs, we show that their ill-conditioning degrades rapidly as the width of the network increases. This often leads to significantly poorer approximation in contrast to the FKS representation, which remains well-conditioned as the number of knots increases. We leverage the theory of optimal piecewise linear interpolants to improve the training procedure for a ReLU NN. Using the equidistribution principle, we propose a two-level procedure for training the FKS by first solving the nonlinear problem of finding the optimal knot locations of the interpolating FKS. Determining the optimal knots then acts as a good starting point for training the weights of the FKS. The training of the FKS gives insights into how we can train a ReLU NN effectively to give an equally accurate approximation. More precisely, we combine the training of the ReLU NN with an equidistribution based loss to find the breakpoints of the ReLU functions, combined with preconditioning the ReLU NN approximation (to take an FKS form) to find the scalings of the ReLU functions, leads to a well-conditioned and reliable method of finding an accurate ReLU NN approximation to a target function. We test this method on a series or regular, singular, and rapidly varying target functions and obtain good results realising the expressivity of the network in this case.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# カスケード量子系からの超放射能放出の相関予測

Predicting correlations in superradiant emission from a cascaded quantum system ( http://arxiv.org/abs/2407.02154v1 )

ライセンス: Link先を確認
Felix Tebbenjohanns, Christopher D. Mink, Constanze Bach, Arno Rauschenbeutel, Michael Fleischhauer, (参考訳) 最近の実験では、ナノファイバー結合型冷原子アンサンブルを用いて、新しい種類のカスケード量子系が実現されている。 この設定により、最大1000個の原子からなる高励起の集合スピン状態の超ラジカル崩壊の研究が可能となり、導波路モードを介する一方向結合が実現された。 大規模な多励起アンサンブルと原子間のカスケード相互作用から生じる複雑さにより、従来のシミュレーション手法は1次以上の超放射能放出の相関を予測できない。 この課題に対処するため,スピンの回転ウィグナー近似に基づく新しいシミュレーション手法を開発した。 我々の確率的シミュレーションツールは、2階量子コヒーレンス関数である$g^{(2)}$を、2レベルエミッターの強い励起カスケード系によって放出される光場の他の相関子と共に予測することができる。 このアプローチは、多数の粒子を持つカスケード量子系を効果的かつスケーラブルに解析する方法を提供する。

In recent experiments, a novel type of cascaded quantum system has been realized using nanofiber-coupled cold atomic ensembles. This setup has enabled the study of superradiant decay of highly excited collective spin states of up to a thousand atoms, featuring unidirectional coupling mediated by the waveguide mode. The complexity arising from the large, multi-excited ensemble and the cascaded interactions between atoms makes conventional simulation methods unsuitable for predicting the correlations of superradiant emission beyond the first order. To address this challenge, we developed a new simulation technique based on the truncated Wigner approximation for spins. Our stochastic simulation tool can predict the second-order quantum coherence function, $g^{(2)}$, along with other correlators of the light field emitted by a strongly excited cascaded system of two-level emitters. This approach thus provides an effective and scalable method for analyzing cascaded quantum systems with large numbers of particles.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# 合成データを用いた音楽タガーの訓練に向けて

Towards Training Music Taggers on Synthetic Data ( http://arxiv.org/abs/2407.02156v1 )

ライセンス: Link先を確認
Nadine Kroher, Steven Manangu, Aggelos Pikrakis, (参考訳) 現代の音楽タグシステムの多くは、大量の注釈付きデータに依存している。 代替として,少量のアノテートコレクションしか入手できない場合に,合成された楽曲の抜粋がタグシステムを改善することができるかを検討する。 この目的のために、よく知られたGTZANデータセットの分類に従う合成データセットであるGTZAN-synthを、データボリュームの10倍の大きさでリリースする。 まず、GTZANのトレーニング分割にこの合成データセットを追加するだけでは、パフォーマンスが向上しないことを観察する。 次に、その課題に対するドメイン適応、伝達学習、微調整戦略の調査を進め、最後の2つの選択肢が精度の向上をもたらすという結論を導いた。 全体として、提案手法は将来の研究に期待できる分野における第1の指針とみなすことができる。

Most contemporary music tagging systems rely on large volumes of annotated data. As an alternative, we investigate the extent to which synthetically generated music excerpts can improve tagging systems when only small annotated collections are available. To this end, we release GTZAN-synth, a synthetic dataset that follows the taxonomy of the well-known GTZAN dataset while being ten times larger in data volume. We first observe that simply adding this synthetic dataset to the training split of GTZAN does not result into performance improvements. We then proceed to investigating domain adaptation, transfer learning and fine-tuning strategies for the task at hand and draw the conclusion that the last two options yield an increase in accuracy. Overall, the proposed approach can be considered as a first guide in a promising field for future research.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# FineCLIPER: 動的顔表情認識のためのマルチモーダルきめ細かなCLIP

FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs ( http://arxiv.org/abs/2407.02157v1 )

ライセンス: Link先を確認
Haodong Chen, Haojian Huang, Junhao Dong, Mingzhe Zheng, Dian Shao, (参考訳) 動的表情認識(DFER)は人間の行動を理解する上で重要である。 しかし, 現状の手法は, 高品質なデータの不足, 顔力学の不十分な利用, 表現意味論の曖昧さなどにより, 限られた性能を示す。 この目的のために, 動的顔表情認識のためのマルチモーダルきめ細かなCLIP(FineCLIPER)を提案する。 1)類似の表情をよりよく区別するために,CLIPモデルに基づく相互類似性を計算することにより,クラスラベルを肯定的・否定的両面からテキスト記述に拡張し,監督する。 2)FineCLIPERはDFEビデオから有用な手がかりを効果的にマイニングするために階層的手法を採用している。 具体的には,映像フレームを直接入力(セマンティックレベル)として埋め込む以外に,各フレーム(ミドルセマンティックレベル)に基づいて顔分割マスクやランドマークを抽出し,多モード大言語モデル(MLLM)を用いて,設計したプロンプト(ハイセマンティックレベル)を用いてフレーム間の顔変化の詳細な記述を生成することを提案する。 さらに,パラメータ効率の良いファインチューニング(PEFT)を採用して,大規模事前学習モデル(CLIP)を効率的に適用できるようにする。 我々はDFEW,FERV39k,MAFWの各データセットに対して,調整可能なパラメータがほとんどない教師付きおよびゼロショット設定でSOTA性能を実現する。 分析およびアブレーション研究は、その効果をさらに検証する。

Dynamic Facial Expression Recognition (DFER) is crucial for understanding human behavior. However, current methods exhibit limited performance mainly due to the scarcity of high-quality data, the insufficient utilization of facial dynamics, and the ambiguity of expression semantics, etc. To this end, we propose a novel framework, named Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs (FineCLIPER), incorporating the following novel designs: 1) To better distinguish between similar facial expressions, we extend the class labels to textual descriptions from both positive and negative aspects, and obtain supervision by calculating the cross-modal similarity based on the CLIP model; 2) Our FineCLIPER adopts a hierarchical manner to effectively mine useful cues from DFE videos. Specifically, besides directly embedding video frames as input (low semantic level), we propose to extract the face segmentation masks and landmarks based on each frame (middle semantic level) and utilize the Multi-modal Large Language Model (MLLM) to further generate detailed descriptions of facial changes across frames with designed prompts (high semantic level). Additionally, we also adopt Parameter-Efficient Fine-Tuning (PEFT) to enable efficient adaptation of large pre-trained models (i.e., CLIP) for this task. Our FineCLIPER achieves SOTA performance on the DFEW, FERV39k, and MAFW datasets in both supervised and zero-shot settings with few tunable parameters. Analysis and ablation studies further validate its effectiveness.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# 超高分解能画像合成技術「UltraPixel」

UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks ( http://arxiv.org/abs/2407.02158v1 )

ライセンス: Link先を確認
Jingjing Ren, Wenbo Li, Haoyu Chen, Renjing Pei, Bin Shao, Yong Guo, Long Peng, Fenglong Song, Lei Zhu, (参考訳) 超高解像度画像生成は、セマンティックプランニングの複雑さの増加や詳細な合成の難しさなど、かなりの訓練リソース要求とともに大きな課題を生んでいる。 我々は,カスケード拡散モデルを用いて,複数の解像度 (\textit{e g }, 1K から 6K) の高画質画像を生成する新しいアーキテクチャである UltraPixel について,計算効率を維持しながら述べる。 UltraPixelは、後段の低解像度画像のセマンティクスに富んだ表現を活用して、高精細な高解像度画像の全生成をガイドし、複雑さを著しく低減する。 さらに,様々な解像度に適応可能な連続的なアップサンプリングとスケールアウェア正規化のための暗黙的なニューラル表現を導入する。 特に、低解像度および高解像度のプロセスは、最もコンパクトな空間で実行され、ほとんどのパラメータを高解像度の出力に対する3$\%以下の追加パラメータで共有し、トレーニングと推論効率を大幅に向上させる。 提案モデルでは,データ要求を減らして高速なトレーニングを行ない,フォトリアリスティックな高解像度画像を生成し,広範囲な実験で最先端の性能を示す。

Ultra-high-resolution image generation poses great challenges, such as increased semantic planning complexity and detail synthesis difficulties, alongside substantial training resource demands. We present UltraPixel, a novel architecture utilizing cascade diffusion models to generate high-quality images at multiple resolutions (\textit{e.g.}, 1K to 6K) within a single model, while maintaining computational efficiency. UltraPixel leverages semantics-rich representations of lower-resolution images in the later denoising stage to guide the whole generation of highly detailed high-resolution images, significantly reducing complexity. Furthermore, we introduce implicit neural representations for continuous upsampling and scale-aware normalization layers adaptable to various resolutions. Notably, both low- and high-resolution processes are performed in the most compact space, sharing the majority of parameters with less than 3$\%$ additional parameters for high-resolution outputs, largely enhancing training and inference efficiency. Our model achieves fast training with reduced data requirements, producing photo-realistic high-resolution images and demonstrating state-of-the-art performance in extensive experiments.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# スパースSSP:スパースビュー透過光画像からの3次元細胞内構造予測

SparseSSP: 3D Subcellular Structure Prediction from Sparse-View Transmitted Light Images ( http://arxiv.org/abs/2407.02159v1 )

ライセンス: Link先を確認
Jintu Zheng, YI Ding, Qizhe Liu, Yi Cao, Ying Hu, Zenan Wang, (参考訳) 従来の蛍光染色は、生きた細胞に対して光毒性があり、遅く、高価であるため、透過光(TL)画像からの細胞構造予測(SSP)は、ラベルフリーで、高速で、低コストな代替品として現れている。 しかし、既存のアプローチでは、1対1のボクセルレベルの密度予測に3Dネットワークを使用しており、これは頻繁かつ時間を要するZ軸イメージングプロセスを必要とする。 さらに、3D畳み込みは必然的に大きな計算とGPUメモリオーバーヘッドにつながる。 そこで本研究では, 3次元トポロジに頼らずに, 対象ボクセル格子内の蛍光強度を効率的に予測する効率的なフレームワークSparseSSPを提案する。 特に、SparseSSPは以前の作業に2つの重要な改善を施している。 まず、SparseSSPは1対多のボクセルマッピングパラダイムを導入し、スパースTLスライスによって細胞内構造を再構築する。 次に,Z軸情報をチャネル特徴に折り畳むハイブリッド次元トポロジーを提案し,低計算コストで2次元ネットワーク層がSSPに取り組むことを可能にする。 本研究は,SparseSSPの様々なスパース画像比における有効性と有効性を検証するための広範囲な実験を行い,本手法は純粋な3次元トポロジと比較して高い性能を実現する。 SparseSSPは、以前の高密度なSSP(つまり、画像の数は87.5%まで減少する)と比較して、画像の周波数を減少させる。

Traditional fluorescence staining is phototoxic to live cells, slow, and expensive; thus, the subcellular structure prediction (SSP) from transmitted light (TL) images is emerging as a label-free, faster, low-cost alternative. However, existing approaches utilize 3D networks for one-to-one voxel level dense prediction, which necessitates a frequent and time-consuming Z-axis imaging process. Moreover, 3D convolutions inevitably lead to significant computation and GPU memory overhead. Therefore, we propose an efficient framework, SparseSSP, predicting fluorescent intensities within the target voxel grid in an efficient paradigm instead of relying entirely on 3D topologies. In particular, SparseSSP makes two pivotal improvements to prior works. First, SparseSSP introduces a one-to-many voxel mapping paradigm, which permits the sparse TL slices to reconstruct the subcellular structure. Secondly, we propose a hybrid dimensions topology, which folds the Z-axis information into channel features, enabling the 2D network layers to tackle SSP under low computational cost. We conduct extensive experiments to validate the effectiveness and advantages of SparseSSP on diverse sparse imaging ratios, and our approach achieves a leading performance compared to pure 3D topologies. SparseSSP reduces imaging frequencies compared to previous dense-view SSP (i.e., the number of imaging is reduced up to 87.5% at most), which is significant in visualizing rapid biological dynamics on low-cost devices and samples.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# WildAvatar:3Dアバター作成のためのWebスケールのIn-the-Wildビデオデータセット

WildAvatar: Web-scale In-the-wild Video Dataset for 3D Avatar Creation ( http://arxiv.org/abs/2407.02165v1 )

ライセンス: Link先を確認
Zihao Huang, ShouKang Hu, Guangcong Wang, Tianqi Liu, Yuhang Zang, Zhiguo Cao, Wei Li, Ziwei Liu, (参考訳) アバター作成のための既存の人間のデータセットは通常実験室環境に限られており、高品質なアノテーション(例えば、3Dスキャンやマルチビュー画像からのSMPL推定)を理想的に提供することができる。 しかし、それらの注釈付け要件は現実のイメージやビデオには実用的ではなく、現在のアバター作成方法における現実のアプリケーションに対する課題を提起している。 この目的のために,YouTubeから抽出したWebスケールの人体アバター生成データセットであるWildAvatarデータセットを提案する。 WildAvatarは、人間の3Dアバター作成のための以前のデータセットよりも、少なくとも$10\times$リッチだ。 我々は,アバター作成における現実のアプリケーションにおける未探索課題を,データセット上でいくつかの最先端アバター作成手法を評価した。 また,大規模データ提供時のアバター生成手法の一般化可能性を示す。 データソースリンクとアノテーションを公開し、現実世界のアプリケーションのための3Dヒューマンアバター作成や他の関連分野を前進させます。

Existing human datasets for avatar creation are typically limited to laboratory environments, wherein high-quality annotations (e.g., SMPL estimation from 3D scans or multi-view images) can be ideally provided. However, their annotating requirements are impractical for real-world images or videos, posing challenges toward real-world applications on current avatar creation methods. To this end, we propose the WildAvatar dataset, a web-scale in-the-wild human avatar creation dataset extracted from YouTube, with $10,000+$ different human subjects and scenes. WildAvatar is at least $10\times$ richer than previous datasets for 3D human avatar creation. We evaluate several state-of-the-art avatar creation methods on our dataset, highlighting the unexplored challenges in real-world applications on avatar creation. We also demonstrate the potential for generalizability of avatar creation methods, when provided with data at scale. We will publicly release our data source links and annotations, to push forward 3D human avatar creation and other related fields for real-world applications.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# DAGベースの合意プロトコルの再利用可能な形式検証

Reusable Formal Verification of DAG-based Consensus Protocols ( http://arxiv.org/abs/2407.02167v1 )

ライセンス: Link先を確認
Nathalie Bertrand, Pranav Ghorpade, Sasha Rubin, Bernhard Scholz, Pavle Subotic, (参考訳) DAGベースのコンセンサスプロトコルは、エネルギーフットプリントの削減とセキュリティ向上のために、ブロックチェーン企業によって採用されている。 DAGベースのコンセンサスプロトコルは、トランザクションのブロックの部分的な順序を協調的に構築し、線形に順序付けられたブロックを生成する。 ブロックチェーンの普遍性と戦略的重要性は、キーコンポーネント、すなわちコンセンサスプロトコルの正しさを正式に証明することを要求する。 本稿では,2つのDAGプロトコルの安全仕様について述べる。 本仕様では,2つのプロトコルを組み合わせて表現可能な,いくつかの分散化,DAGの構成,順序付けのバリエーションを強調している。 形式化はコンセンサスをモデル化するために洗練されたアプローチを必要とする。 抽象モデルでは、まず、DAGベースのリーダブロックに対するコンセンサスの安全性を示し、次に、すべてのプロセスのすべてのブロックを包含するように仕様をさらに洗練する。 与えられたプロトコルの TLA+ 仕様は 492-732 行で構成され、証明システム TLAPS は 6-8 分で 2025-2294 の義務を検証している。

DAG-based consensus protocols are being adoption by blockchain companies to decrease energy footprints and improve security. A DAG-based consensus protocol collaboratively constructs a partial order of blocks of transactions and produces linearly ordered blocks. The ubiquity and strategic importance of blockchains call for formal proof of the correctness of key components, namely, consensus protocols. This paper presents a safety-proven formal specification of two DAG-based protocols. Our specification highlights several dissemination, DAG construction, and ordering variations that can be combined to express the two protocols. The formalization requires a refinement approach for modeling the consensus. In an abstract model, we first show the safety of DAG-based consensus on leader blocks and then further refine the specification to encompass all blocks for all processes. The TLA+ specification for a given protocol consists of 492-732 lines, and the proof system TLAPS verifies 2025-2294 obligations in 6-8 minutes.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# RETINA:光収差を低減したループ式ハードウェア・イン・ザ・ループ光学設備

RETINA: a hardware-in-the-loop optical facility with reduced optical aberrations ( http://arxiv.org/abs/2407.02172v1 )

ライセンス: Link先を確認
Paolo Panicucci, Fabio Ornati, Francesco Topputo, (参考訳) 宇宙船の自律性への関心が高まり、宇宙船によって達成される複雑なタスクは、誘導、航法、制御の検証と検証を行うための信頼できるアプローチの必要性を高める。 自律的な操作の文脈において、視覚に基づくナビゲーションアルゴリズムは、低コストで汎用的なセンサーで軌道上の宇宙船の状態を決定する効果的な解決策として自らを確立してきた。 それでも、飛行ハードウェア上でのアルゴリズムの堅牢性と性能を理解するために、地上で詳細なテストを行う必要がある。 これらのアルゴリズムを直接軌道上でテストすることは不可能であるので、実験室で軌道環境をエミュレートするために専用のシミュレーションフレームワークを開発する必要がある。 本稿では,RETINAと呼ばれる低収差光学設備の設計について述べる。 RETINAは、カメラ検出器の正しい刺激を確保しつつ、異なる特性(例えば、センサーサイズ、焦点距離)のカメラを収容するように設計されている。 施設の要件に応じて施設内で使用可能なコンポーネントの範囲を特定するための予備設計を行う。 そして、Zemax OpticStudioで詳細な光学設計を行い、施設の光学系を構成するレンズの数と特性を最適化する。 最終設計は、この手法により達成された光学性能の優位性を示すために、予備設計と比較される。 本研究は,施設の誤調整と中心誤差を推定するための校正手順も提示する。 これらの推定パラメータは専用の補償アルゴリズムで利用され、カメラを数十秒の精度で刺激することができる。 最後に、2つの異なるアプリケーションを示し、異なるカメラを収容し、異なるミッションシナリオをシミュレートするRETINAの汎用性を示す。

The increasing interest in spacecraft autonomy and the complex tasks to be accomplished by the spacecraft raise the need for a trustworthy approach to perform Verification & Validation of Guidance, Navigation, and Control algorithms. In the context of autonomous operations, vision-based navigation algorithms have established themselves as effective solutions to determine the spacecraft state in orbit with low-cost and versatile sensors. Nevertheless, detailed testing must be performed on ground to understand the algorithm's robustness and performance on flight hardware. Given the impossibility of testing directly on orbit these algorithms, a dedicated simulation framework must be developed to emulate the orbital environment in a laboratory setup. This paper presents the design of a low-aberration optical facility called RETINA to perform this task. RETINA is designed to accommodate cameras with different characteristics (e.g., sensor size and focal length) while ensuring the correct stimulation of the camera detector. A preliminary design is performed to identify the range of possible components to be used in the facility according to the facility requirements. Then, a detailed optical design is performed in Zemax OpticStudio to optimize the number and characteristics of the lenses composing the facility's optical systems. The final design is compared against the preliminary design to show the superiority of the optical performance achieved with this approach. This work presents also a calibration procedure to estimate the misalignment and the centering errors in the facility. These estimated parameters are used in a dedicated compensation algorithm, enabling the stimulation of the camera at tens of arcseconds of precision. Finally, two different applications are presented to show the versatility of RETINA in accommodating different cameras and in simulating different mission scenarios.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# BeNeRF: 単一Blurry画像とイベントストリームからのニューラルラジアンス場

BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream ( http://arxiv.org/abs/2407.02174v1 )

ライセンス: Link先を確認
Wenpu Li, Pian Wan, Peng Wang, Jinhang Li, Yi Zhou, Peidong Liu, (参考訳) 視覚シーンのニューラルな暗黙の表現は、コンピュータビジョンとグラフィックスの最近の研究で多くの注目を集めている。 従来の手法では、画像の集合から3Dシーンの表現を再構築する方法に焦点が当てられていた。 本研究では,1つのぼやけた画像とそれに対応するイベントストリームからニューラル放射場(NeRF)を復元する可能性を示す。 カメラの動きをSE(3)空間の立方体B-Splineでモデル化する。 そして、立方体B−スプラインから補間された6−DoFポーズが与えられたとき、3Dシーン表現から、ぼやけた画像と、時間間隔内での明るさ変化の両方を合成することができる。 提案手法は,COLMAPから予め計算したカメラポーズを使わずに,合成データと実測値の違いを最小化することにより,暗黙的なニューラルシーン表現とカメラ動作の回復を両立させることができる。 提案手法を合成データと実データの両方を用いて評価する。 実験結果から,学習したNeRF画像から高画質のぼやけた画像が得られることがわかった。 コードとデータはhttps://github.com/WU-CVGL/BeNeRF.comで公開されている。

Neural implicit representation of visual scenes has attracted a lot of attention in recent research of computer vision and graphics. Most prior methods focus on how to reconstruct 3D scene representation from a set of images. In this work, we demonstrate the possibility to recover the neural radiance fields (NeRF) from a single blurry image and its corresponding event stream. We model the camera motion with a cubic B-Spline in SE(3) space. Both the blurry image and the brightness change within a time interval, can then be synthesized from the 3D scene representation given the 6-DoF poses interpolated from the cubic B-Spline. Our method can jointly learn both the implicit neural scene representation and recover the camera motion by minimizing the differences between the synthesized data and the real measurements without pre-computed camera poses from COLMAP. We evaluate the proposed method with both synthetic and real datasets. The experimental results demonstrate that we are able to render view-consistent latent sharp images from the learned NeRF and bring a blurry image alive in high quality. Code and data are available at https://github.com/WU-CVGL/BeNeRF.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# 閉塞型シームレスセグメンテーション

Occlusion-Aware Seamless Segmentation ( http://arxiv.org/abs/2407.02182v1 )

ライセンス: Link先を確認
Yihong Cao, Jiaming Zhang, Hao Shi, Kunyu Peng, Yuhongxuan Zhang, Hui Zhang, Rainer Stiefelhagen, Kailun Yang, (参考訳) パノラマ画像は視野(FoV)を広げ、オクルージョンを意識した予測はシーンの理解を深め、ドメイン適応は視野領域をまたいで転送することができる。 本稿では,OASS(Occlusion-Aware Seamless Segmentation)という新たな課題を紹介し,これら3つの課題に同時に取り組む。 OASSをベンチマークするために、Blending Panoramic Amodal Seamless Segmentation(BlendPASS)のための新しい人間アノテーションデータセットを構築した。 さらに,狭いFoV,オクルージョン,ドメインギャップを一度に解き放つことを目的とした,UnmaskFormerを提案する。 具体的には、UnmaskFormerには、Unmasking Attention (UA) と Amodal-oriented Mix (AoMix) の重要な設計が含まれている。 BlendPASSデータセットの最先端性能を達成し、26.58%、mIoU43.66%という驚くべきmAPQに達した。 公共パノラマセマンティックセマンティックセグメンテーションデータセット、すなわちSynPASSとDensePASSでは、従来の手法よりも優れ、mIoUでそれぞれ45.34%と48.08%を得る。 新しいBlendPASSデータセットとソースコードはhttps://github.com/yihong-97/OASSで公開されます。

Panoramic images can broaden the Field of View (FoV), occlusion-aware prediction can deepen the understanding of the scene, and domain adaptation can transfer across viewing domains. In this work, we introduce a novel task, Occlusion-Aware Seamless Segmentation (OASS), which simultaneously tackles all these three challenges. For benchmarking OASS, we establish a new human-annotated dataset for Blending Panoramic Amodal Seamless Segmentation, i.e., BlendPASS. Besides, we propose the first solution UnmaskFormer, aiming at unmasking the narrow FoV, occlusions, and domain gaps all at once. Specifically, UnmaskFormer includes the crucial designs of Unmasking Attention (UA) and Amodal-oriented Mix (AoMix). Our method achieves state-of-the-art performance on the BlendPASS dataset, reaching a remarkable mAPQ of 26.58% and mIoU of 43.66%. On public panoramic semantic segmentation datasets, i.e., SynPASS and DensePASS, our method outperforms previous methods and obtains 45.34% and 48.08% in mIoU, respectively. The fresh BlendPASS dataset and our source code will be made publicly available at https://github.com/yihong-97/OASS.
翻訳日:2024-07-03 15:45:15 公開日:2024-07-02
# Segment Anything Modelを用いたインビトロ創傷治癒スクラッチ測定の仮想的客観的定量化

Virtually Objective Quantification of in vitro Wound Healing Scratch Assays with the Segment Anything Model ( http://arxiv.org/abs/2407.02187v1 )

ライセンス: Link先を確認
Katja Löwenstein, Johanna Rehrl, Anja Schuster, Michael Gadermayr, (参考訳) インビトロ・スクラッチ・アッセイ(in vitro scratch assay)は、細胞生物学において、様々な治療介入に関連する創の閉鎖率を評価するために広く用いられるアッセイである。 手動測定は主観的で、サーバ内およびオブザーバ間の変動に弱いが、コンピュータベースのツールは理論的には客観的であるが、実際には、手動で調整されたパラメータ(画像やデータセットごとに個別に)を含み、従って主観性のための情報源を提供することが多い。 現代のディープラーニングアプローチは一般的に、即時適用性を複雑にする大規模な注釈付きトレーニングデータを必要とする。 本稿では,対話型ポイントプロンプトに基づくディープファンデーションモデルであるセグメンテーションモデルを用いて,ドメイン固有のトレーニングデータに基づいてネットワークのパラメータをチューニングすることなく,クラスに依存しないセグメンテーションを実現する。 提案手法は,手動検査を要し,必要であれば画像毎のパラメータの調整を行う半目的ベースライン法より明らかに優れていた。 提案手法のポイントプロンプトは理論的には主観性の源でもあるが, ドメインエキスパートの手動セグメンテーションと比較しても, サーバ内およびサーバ間変動性が極めて低いことが証明された。

The in vitro scratch assay is a widely used assay in cell biology to assess the rate of wound closure related to a variety of therapeutic interventions. While manual measurement is subjective and vulnerable to intra- and interobserver variability, computer-based tools are theoretically objective, but in practice often contain parameters which are manually adjusted (individually per image or data set) and thereby provide a source for subjectivity. Modern deep learning approaches typically require large annotated training data which complicates instant applicability. In this paper, we make use of the segment anything model, a deep foundation model based on interactive point-prompts, which enables class-agnostic segmentation without tuning the network's parameters based on domain specific training data. The proposed method clearly outperformed a semi-objective baseline method that required manual inspection and, if necessary, adjustment of parameters per image. Even though the point prompts of the proposed approach are theoretically also a source for subjectivity, results attested very low intra- and interobserver variability, even compared to manual segmentation of domain experts.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# ラベル付きノードの少ないグラフ上の構造認識コンセンサスネットワーク

Structure-Aware Consensus Network on Graphs with Few Labeled Nodes ( http://arxiv.org/abs/2407.02188v1 )

ライセンス: Link先を確認
Shuaike Xu, Xiaolin Zhang, Peng Zhang, Kun Zhan, (参考訳) ラベル付きノードがほとんどないグラフノード分類は、監督が限られているため、大きな課題となる。 従来の手法では、しばしばトランスダクティブな学習方法でグラフを利用する。 彼らは、豊富なラベルのないデータとグラフに固有の構造情報を効果的に活用することができない。 これらの課題に対処するために,3つの視点からSACN(Structure-Aware Consensus Network)を導入する。 第一に、SACNは2つの強く拡張された視点の間の新しい構造認識型コンセンサス学習戦略を利用する。 提案手法は,未ラベルノードの潜在的有用な情報とグラフ全体の構造情報を完全に活用することができる。 第2に、SACNはグラフの構造情報を一意に統合し、強力なコンセンサス学習を実現し、マルチビュー学習を維持しながらラベルなしデータの利用を改善する。 第3に、2ブランチグラフニューラルネットワークベースの手法とは異なり、SACNはシングルブランチアーキテクチャ内でのマルチビュー機能学習のために設計されている。 さらに、クラス認識型擬似ラベル選択戦略は、クラス不均衡に対処し、効果的に弱い対強の監視を実現するのに役立つ。 3つのベンチマークデータセットに対する大規模な実験は、SACNのノード分類タスク、特に非常に低いラベル率での優れたパフォーマンスを示し、計算の単純さを維持しながら最先端のメソッドよりも優れており、ソースコードはhttps://github.com/kunzhan/SACNで公開されている。

Graph node classification with few labeled nodes presents significant challenges due to limited supervision. Conventional methods often exploit the graph in a transductive learning manner. They fail to effectively utilize the abundant unlabeled data and the structural information inherent in graphs. To address these issues, we introduce a Structure-Aware Consensus Network (SACN) from three perspectives. Firstly, SACN leverages a novel structure-aware consensus learning strategy between two strongly augmented views. The proposed strategy can fully exploit the potentially useful information of the unlabeled nodes and the structural information of the entire graph. Secondly, SACN uniquely integrates the graph's structural information to achieve strong-to-strong consensus learning, improving the utilization of unlabeled data while maintaining multiview learning. Thirdly, unlike two-branch graph neural network-based methods, SACN is designed for multiview feature learning within a single-branch architecture. Furthermore, a class-aware pseudolabel selection strategy helps address class imbalance and achieve effective weak-to-strong supervision. Extensive experiments on three benchmark datasets demonstrate SACN's superior performance in node classification tasks, particularly at very low label rates, outperforming state-of-the-art methods while maintaining computational simplicity.The source code is available at https://github.com/kunzhan/SACN
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# ディファレンシャルプライバシのためのアタック・アウェアノイズ校正

Attack-Aware Noise Calibration for Differential Privacy ( http://arxiv.org/abs/2407.02191v1 )

ライセンス: Link先を確認
Bogdan Kulynych, Juan Felipe Gomez, Georgios Kaissis, Flavio du Pin Calmon, Carmela Troncoso, (参考訳) 差分プライバシー(DP)は、機密データに基づいて機械学習モデルをトレーニングする際のプライバシーリスクを軽減するために広く用いられるアプローチである。 DPメカニズムは、情報漏洩のリスクを制限するために、トレーニング中にノイズを追加する。 プライバシとユーティリティのトレードオフを決定するため、追加されるノイズの規模は極めて重要です。 標準のプラクティスは、プライバシ予算パラメータ$\epsilon$という観点からノイズスケールを選択することです。 このパラメータは、データのプライバシに対する推論攻撃の正確性や感度、特異性といった、運用上の攻撃リスクの観点から解釈される。 ノイズスケールをプライバシー予算$\epsilon$に調整し、リスクを攻撃するために$\epsilon$を翻訳するこの2段階の手順が、過度に保守的なリスク評価と必要最低限のユーティリティにつながることを実証する。 本稿では,ノイズスケールを望ましい攻撃リスクレベルに調整する手法を提案し,$\epsilon$を選択する中間ステップを回避した。 ターゲット攻撃リスクに対して、我々のアプローチはノイズスケールを著しく減少させ、同一のプライバシーレベルでの実用性の向上につながる。 プライバシ保存型MLモデルをトレーニングする場合、$\epsilon$ではなく、感度/特異性を攻撃するためのノイズの校正が、同じリスクレベルのモデル精度を大幅に向上することを示す。 私たちの仕事は、プライバシを犠牲にすることなく、プライバシ保護MLの有用性を改善するための原則的で実用的な方法を提供します。

Differential privacy (DP) is a widely used approach for mitigating privacy risks when training machine learning models on sensitive data. DP mechanisms add noise during training to limit the risk of information leakage. The scale of the added noise is critical, as it determines the trade-off between privacy and utility. The standard practice is to select the noise scale in terms of a privacy budget parameter $\epsilon$. This parameter is in turn interpreted in terms of operational attack risk, such as accuracy, or sensitivity and specificity of inference attacks against the privacy of the data. We demonstrate that this two-step procedure of first calibrating the noise scale to a privacy budget $\epsilon$, and then translating $\epsilon$ to attack risk leads to overly conservative risk assessments and unnecessarily low utility. We propose methods to directly calibrate the noise scale to a desired attack risk level, bypassing the intermediate step of choosing $\epsilon$. For a target attack risk, our approach significantly decreases noise scale, leading to increased utility at the same level of privacy. We empirically demonstrate that calibrating noise to attack sensitivity/specificity, rather than $\epsilon$, when training privacy-preserving ML models substantially improves model accuracy for the same risk level. Our work provides a principled and practical way to improve the utility of privacy-preserving ML without compromising on privacy.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 地下駐車場における信頼性・安全運転網予測に関する研究

Research on Reliable and Safe Occupancy Grid Prediction in Underground Parking Lots ( http://arxiv.org/abs/2407.02197v1 )

ライセンス: Link先を確認
JiaQi Luo, (参考訳) 科学と技術の進歩を背景に、自動運転車技術は学術界における厳しい監視の焦点として浮上してきた。 それでも、複雑なシナリオをナビゲートする際には、この技術の安全性と信頼性を保証することが課題である。 自律運転研究のかなりの部分は、都市道路や高速道路などの屋外環境での試験に費やされているが、そこでは無数の変数が慎重に検討されているため、地下駐車場のような囲い込み屋内空間は、学術的な議論では見過ごされている。 この不一致は、これらの制限された設定が自律ナビゲーションシステムにもたらすユニークな課題を克服する上でのギャップを浮き彫りにする。 この研究は、特に地下駐車場のような見過ごされがちな場所で、屋内自動運転に取り組む。 CARLAのシミュレーションプラットフォームを使用して、データ収集のための現実的な駐車モデルを作成する。 占有グリッドネットワークは、このデータを処理して車両の経路や障害物を予測し、複雑な屋内環境におけるシステムの知覚を高める。 最終的に、この戦略は自律駐車運転の安全性を向上させる。 本論文は、地下駐車場におけるモデルの有効性を検証し、モデルの有効性を慎重に評価する。 これらの複雑な屋内環境において,提案手法が自律走行車の性能向上に有効であることが確認された。 地下駐車場への適応性を向上し、安全対策と信頼性を強化した自律システムを備えている。 本研究は、屋内駐車場環境に関する研究不足に対処し、重要な基準点として機能することで、今後の発展と応用の道を開くものである。

Against the backdrop of advancing science and technology, autonomous vehicle technology has emerged as a focal point of intense scrutiny within the academic community. Nevertheless, the challenge persists in guaranteeing the safety and reliability of this technology when navigating intricate scenarios. While a substantial portion of autonomous driving research is dedicated to testing in open-air environments, such as urban roads and highways, where the myriad variables at play are meticulously examined, enclosed indoor spaces like underground parking lots have, to a significant extent, been overlooked in the scholarly discourse. This discrepancy highlights a gap in derstanding the unique challenges these confined settings pose for autonomous navigation systems. This study tackles indoor autonomous driving, particularly in overlooked spaces like underground parking lots. Using CARLA's simulation platform, a realistic parking model is created for data gathering. An occupancy grid network then processes this data to predict vehicle paths and obstacles, enhancing the system's perception in complex indoor environments. Ultimately, this strategy improves safety in autonomous parking operations. The paper meticulously evaluates the model's predictive capabilities, validating its efficacy in the context of underground parking. Our findings confirm that the proposed strategy successfully enhances autonomous vehicle performance in these complex indoor settings. It equips autonomous systems with improved adaptation to underground lots, reinforcing safety measures and dependability. This work paves the way for future advancements and applications by addressing the research shortfall concerning indoor parking environments, serving as a pivotal reference point.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 大規模言語モデルによる適応規則の自動最適化

Automatic Adaptation Rule Optimization via Large Language Models ( http://arxiv.org/abs/2407.02203v1 )

ライセンス: Link先を確認
Yusei Ishimizu, Jialong Li, Jinglue Xu, Jinyu Cai, Hitoshi Iba, Kenji Tei, (参考訳) ルールベースの適応は、人間の可読性と迅速な応答を特徴とする自己適応の基本的なアプローチである。 しかし、高パフォーマンスで堅牢な適応規則を構築することは、本質的には複素(変数)空間における最適設計を探索するので、しばしば困難である。 そこで本論文では,LLMに固有の共通感覚と推論機能を活用し,適応規則の構築と最適化のための最適化手法として,大規模言語モデル(LLM)を用いた。 SWIMにおける予備実験により,本手法の有効性と限界が検証された。

Rule-based adaptation is a foundational approach to self-adaptation, characterized by its human readability and rapid response. However, building high-performance and robust adaptation rules is often a challenge because it essentially involves searching the optimal design in a complex (variables) space. In response, this paper attempt to employ large language models (LLMs) as a optimizer to construct and optimize adaptation rules, leveraging the common sense and reasoning capabilities inherent in LLMs. Preliminary experiments conducted in SWIM have validated the effectiveness and limitation of our method.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 大規模フォトニック集積回路のグローバルキャリブレーション

Global calibration of large-scale photonic integrated circuits ( http://arxiv.org/abs/2407.02207v1 )

ライセンス: Link先を確認
Jin-Hao Zheng, Qin-Qin Wang, Lan-Tian Feng, Yu-Yang Ding, Xiao-Ye Xu, Xi-Feng Ren, Chuan-Feng Li, Guang-Can Guo, (参考訳) フォトニック集積回路(PIC)製造技術の進歩により、多くの光学部品を単一のチップに高集積化することができる。 回路の複雑化に伴い、大規模PICにおけるアクティブ位相シフト器の校正が重要となる。 従来の1対1のキャリブレーション技術は、キャリブレーション誤差の伝播に伴う大きなハードルに遭遇し、独立キャリブレーションのための全てのフェーズシフタの分離を達成することは容易ではない。 この問題に対処するために,大規模PICをグローバルに校正する機械学習手法を提案する。 本手法は,計測データセットの負の可能性を最小限に抑えて,PIC上の全熱光学位相シフト器の非線形位相電流関係を同時に学習するために,カスタムネットワークを利用する。 さらに、このキャリブレーション法により、全ての静的ビームスプリッタ成分の反射率を同期的に抽出することもできる。 例えば、回路深さ12の量子ウォークPICを校正し、プログラム可能な離散時間量子ウォークを実験的に示す。 これらの結果は、フォトニック量子情報処理における大規模PICの応用に大きな恩恵をもたらすだろう。

The advancing maturity of photonic integrated circuit (PIC) fabrication technology enables the high integration of an increasing number of optical components onto a single chip. With the incremental circuit complexity, the calibration of active phase shifters in a large-scale PIC becomes a crucially important issue. The traditional one-by-one calibration techniques encounter significant hurdles with the propagation of calibration errors, and achieving the decoupling of all phase shifters for independent calibration is not straightforward. To address this issue, we propose a machine-learning approach for globally calibrating the large-scale PIC. Our method utilizes a custom network to simultaneously learn the nonlinear phase-current relations for all thermo-optic phase shifters on the PIC by minimizing the negative likelihood of the measurement datasets. Moreover, the reflectivities of all static beamsplitter components can also be synchronizedly extracted using this calibration method. As an example, a quantum walk PIC with a circuit depth of 12 is calibrated, and a programmable discrete-time quantum walk is experimentally demonstrated. These results will greatly benefit the applications of large-scale PICs in photonic quantum information processing.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 騒々しい世界で学習する方法 : 機械翻訳における実世界のデータノイズの自己補正

How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation ( http://arxiv.org/abs/2407.02208v1 )

ライセンス: Link先を確認
Yan Meng, Di Wu, Christof Monz, (参考訳) 大量のウェブマイニングされた並列データには大量のノイズが含まれている。 ノイズの主な原因であるセマンティックなミスアライメントは、機械翻訳システムの訓練に挑戦する。 本稿では,意味的類似性によって制御される現実的不一致をシミュレートする手法を提案することによって,実世界の難聴者に対する誤認識音の影響を初めて研究する。 機械翻訳におけるシミュレートされたミスアライメントの影響を定量的に分析した結果,データノイズに対するよりきめ細かな処理方法の必要性が強調され,翻訳性能を向上させるために広く用いられているプレフィルタの有効性が限定的に示された。 トークンレベルでの不一致やクリーンなデータを識別するために,モデルの自己認識の信頼性が高まるのを観察することにより,モデルの予測分布を利用した自己補正手法を提案する。 総合的な実験を通して、我々の自己補正手法は、擬似誤認識ノイズの存在下での翻訳性能を向上させるだけでなく、8つの翻訳タスクにわたる実世界のノイズの多いウェブマイニングデータセットにも有効であることを示す。

The massive amounts of web-mined parallel data contain large amounts of noise. Semantic misalignment, as the primary source of the noise, poses a challenge for training machine translation systems. In this paper, we first study the impact of real-world hard-to-detect misalignment noise by proposing a process to simulate the realistic misalignment controlled by semantic similarity. After quantitatively analyzing the impact of simulated misalignment on machine translation, we show the limited effectiveness of widely used pre-filters to improve the translation performance, underscoring the necessity of more fine-grained ways to handle data noise. By observing the increasing reliability of the model's self-knowledge for distinguishing misaligned and clean data at the token-level, we propose a self-correction approach which leverages the model's prediction distribution to revise the training supervision from the ground-truth data over training time. Through comprehensive experiments, we show that our self-correction method not only improves translation performance in the presence of simulated misalignment noise but also proves effective for real-world noisy web-mined datasets across eight translation tasks.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 大規模言語モデルにおける生成的モノカルチャー

Generative Monoculture in Large Language Models ( http://arxiv.org/abs/2407.02209v1 )

ライセンス: Link先を確認
Fan Wu, Emily Black, Varun Chandrasekaran, (参考訳) 大規模言語モデル(LLM)で観察される行動である「生成モノカルチャー」は、与えられたタスクのトレーニングデータに対して、モデル出力の多様性を著しく狭めることによって特徴付けられる:例えば、混合受信された書籍に対する肯定的な本レビューのみを生成する。 生成的モノカルチャーはパフォーマンスを高める(例えば、LLMはより効率的なコードを生成する)が、危険は他の人によって悪化する(例えば、LLMは様々な意見を共有することを拒否する)。 LLMは、教育やWeb検索など、高度にインパクトのある環境での利用が増えているため、様々な事実や視点が時間とともに維持されるように、LCMの出力多様性の注意深いメンテナンスが不可欠である。 本研究は,本書レビューやコード生成タスクの分析を通じて生成モノカルチャーの出現率を実験的に実証し,サンプリングの変更やプロンプト戦略などの簡単な対策が不十分なことを見出した。 さらに,本研究の結果から, 生成単細胞栽培の根本原因がLCMのアライメントプロセスに組み込まれている可能性が示唆され, 多様性の維持・促進を目的とした微調整パラダイムの開発の必要性が示唆された。

We introduce {\em generative monoculture}, a behavior observed in large language models (LLMs) characterized by a significant narrowing of model output diversity relative to available training data for a given task: for example, generating only positive book reviews for books with a mixed reception. While in some cases, generative monoculture enhances performance (e.g., LLMs more often produce efficient code), the dangers are exacerbated in others (e.g., LLMs refuse to share diverse opinions). As LLMs are increasingly used in high-impact settings such as education and web search, careful maintenance of LLM output diversity is essential to ensure a variety of facts and perspectives are preserved over time. We experimentally demonstrate the prevalence of generative monoculture through analysis of book review and code generation tasks, and find that simple countermeasures such as altering sampling or prompting strategies are insufficient to mitigate the behavior. Moreover, our results suggest that the root causes of generative monoculture are likely embedded within the LLM's alignment processes, suggesting a need for developing fine-tuning paradigms that preserve or promote diversity.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# PromptIntern: 大規模言語モデルファインチューニング時の繰り返しプロンプトの内部化による推論コストの削減

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning ( http://arxiv.org/abs/2407.02211v1 )

ライセンス: Link先を確認
Jiaru Zou, Mengyu Zhou, Tao Li, Shi Han, Dongmei Zhang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、強力なプロンプト技術による基本的な役割を担っている。 しかし、現実世界のアプリケーションでは、しばしば繰り返しクエリに対して同様のプロンプトコンポーネントが存在し、推論中にかなりの計算負荷が発生する。 既存の高速圧縮と直接微調整手法はこれらの課題に対処することを目的としているが、特にNL2Codeのような複雑なタスクにおいて、コスト効率と性能効率の最適なバランスをとるのにしばしば苦労している。 本稿では,プログレッシブな微調整によるモデルパラメータへのプロンプト知識を内部化するための新しい手法であるPromptInternを提案する。 提案手法は,新たな課題に対する人間の学習プロセスのエミュレートを可能にし,課題に慣れたモデルが成長するにつれて,プロンプト内の詳細なテンプレートやサンプルが徐々に内部化され,段階的に段階的に段階的に段階的に展開される。 大規模な実験により、提案手法は推論トークンを90%以上削減し、推論を4.2倍高速化し、88.3%の金銭的コストを削減した。

Large language models (LLMs) have played a fundamental role in various natural language processing tasks with powerful prompt techniques. However, in real-world applications, there are often similar prompt components for repeated queries, which causes significant computational burdens during inference. Existing prompt compression and direct fine-tuning methods aim to tackle these challenges, yet they frequently struggle to strike an optimal balance between cost-efficiency and performance effectiveness, especially in complex tasks such as NL2Code. In this paper, we propose a novel method namely PromptIntern to internalize the prompt knowledge into model parameters via progressive fine-tuning. Our method enables LLMs to emulate the human learning process for a new task, where detailed templates and examples in a prompt are gradually internalized and phased out progressively as the model grows accustomed to the task. Extensive experiments demonstrate that our method reduces inference tokens over 90%, speedups inference by 4.2 times, and saves 88.3% monetary cost.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 効率的なダイナスタイル強化学習のための物理インフォームドモデルとハイブリッド計画

Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning ( http://arxiv.org/abs/2407.02217v1 )

ライセンス: Link先を確認
Zakariae El Asri, Olivier Sigaud, Nicolas Thome, (参考訳) 実世界のアプリケーションに強化学習(RL)を適用するには、漸近的パフォーマンス、サンプル効率、推論時間の間のトレードオフに対処する必要がある。 本研究では,システム力学の部分的な物理知識を活用することで,この3つの課題に対処する方法を実証する。 提案手法では,サンプル効率を高めるために物理インフォームドモデルを学習し,このモデルから仮想軌道を生成し,モデルフリーポリシーとQ関数を学習する。 さらに,学習方針とQ-関数を学習モデルと組み合わせたハイブリッド計画戦略を提案し,計画の時間効率を向上させる。 実演を通して,本手法はサンプル効率,時間効率,最先端手法に対する性能の妥協性を向上することを示した。

Applying reinforcement learning (RL) to real-world applications requires addressing a trade-off between asymptotic performance, sample efficiency, and inference time. In this work, we demonstrate how to address this triple challenge by leveraging partial physical knowledge about the system dynamics. Our approach involves learning a physics-informed model to boost sample efficiency and generating imaginary trajectories from this model to learn a model-free policy and Q-function. Furthermore, we propose a hybrid planning strategy, combining the learned policy and Q-function with the learned model to enhance time efficiency in planning. Through practical demonstrations, we illustrate that our method improves the compromise between sample efficiency, time efficiency, and performance over state-of-the-art methods.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 野生におけるマルチモーダルビデオ対話状態追跡

Multi-Modal Video Dialog State Tracking in the Wild ( http://arxiv.org/abs/2407.02218v1 )

ライセンス: Link先を確認
Adnen Abdessaied, Lei Shi, Andreas Bulling, (参考訳) MST-MIXER - 汎用マルチモーダル状態追跡方式上で動作する新しいビデオダイアログモデルを提案する。 マルチモーダル状態追跡を行うと主張する現在のモデルは、(1) 1つのモーダル(主に視覚入力)だけを追跡するか、(2)野生のシナリオにおける現実世界の複雑さを反映しない合成データセットをターゲットにしている。 私たちのモデルは、この重要な研究ギャップを埋めるために、これらの2つの制限に対処します。 具体的には、MST-MIXERはまず各入力モードの最も重要な成分を追跡する。 そして,新しいマルチモーダルグラフ構造学習法を用いて局所潜在グラフを学習することにより,各モーダル選択成分の欠落基盤構造を予測する。 その後、学習した局所グラフと特徴を解析して、すべてのモダリティを混合したグローバルグラフを形成し、その構造とノードの埋め込みをさらに洗練する。 最後に、詳細なグラフノード機能を使用して、バックボーンビジョンランゲージモデル(VLM)の隠れ状態を強化する。 MST-MIXERは5つの挑戦的なベンチマークで新しい最先端の結果を達成する。

We present MST-MIXER - a novel video dialog model operating over a generic multi-modal state tracking scheme. Current models that claim to perform multi-modal state tracking fall short of two major aspects: (1) They either track only one modality (mostly the visual input) or (2) they target synthetic datasets that do not reflect the complexity of real-world in the wild scenarios. Our model addresses these two limitations in an attempt to close this crucial research gap. Specifically, MST-MIXER first tracks the most important constituents of each input modality. Then, it predicts the missing underlying structure of the selected constituents of each modality by learning local latent graphs using a novel multi-modal graph structure learning method. Subsequently, the learned local graphs and features are parsed together to form a global graph operating on the mix of all modalities which further refines its structure and node embeddings. Finally, the fine-grained graph node features are used to enhance the hidden states of the backbone Vision-Language Model (VLM). MST-MIXER achieves new state-of-the-art results on five challenging benchmarks.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 移動ロボットにおける身体的AI:大規模言語モデルを用いたカバーパス計画

Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models ( http://arxiv.org/abs/2407.02220v1 )

ライセンス: Link先を確認
Xiangrui Kong, Wenxiao Zhang, Jin Hong, Thomas Braunl, (参考訳) 近年,Large Language Models (LLMs) は数学的な問題の理解と解決において顕著な能力を示し,様々な分野で進歩を遂げている。 移動体エージェントのためのLLM方式の経路計画フレームワークを提案し,高レベルな経路計画問題と低レベルな制御に焦点をあてる。 提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。 各種LLMの性能を評価するために, 実装されたモデルの性能を評価するために, カバーウェイトな経路計画指標を提案する。 実験の結果,提案手法はLLMの空間推定能力を向上することが示された。 提案手法は,LLMの自然言語理解と生成能力を活用することにより,これらのタスクの効率性と精度を大幅に向上することを示す。 本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。 また, gpt-4o, gemini-1.5-flash, claude-3.5-sonnetの3つのLLMカーネルを試験した。 実験の結果, クロード3.5は様々なシナリオでカバープランニングタスクを完了でき, その指標は他のモデルよりも優れていることがわかった。

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in understanding and solving mathematical problems, leading to advancements in various fields. We propose an LLM-embodied path planning framework for mobile agents, focusing on solving high-level coverage path planning issues and low-level control. Our proposed multi-layer architecture uses prompted LLMs in the path planning phase and integrates them with the mobile agents' low-level actuators. To evaluate the performance of various LLMs, we propose a coverage-weighted path planning metric to assess the performance of the embodied models. Our experiments show that the proposed framework improves LLMs' spatial inference abilities. We demonstrate that the proposed multi-layer framework significantly enhances the efficiency and accuracy of these tasks by leveraging the natural language understanding and generative capabilities of LLMs. Our experiments show that this framework can improve LLMs' 2D plane reasoning abilities and complete coverage path planning tasks. We also tested three LLM kernels: gpt-4o, gemini-1.5-flash, and claude-3.5-sonnet. The experimental results show that claude-3.5 can complete the coverage planning task in different scenarios, and its indicators are better than those of the other models.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 調和ポテンシャルに閉じ込められた急速回転量子滴

Rapidly-rotating quantum droplets confined in a harmonic potential ( http://arxiv.org/abs/2407.02221v1 )

ライセンス: Link先を確認
S. Nikolaou, G. M. Kavoulakis, M. Ogren, (参考訳) 2つの空間次元における「対称」量子滴は、主に「ラピッド」回転の極限に焦点をあてて、調和ポテンシャルで回転する。 渦格子を用いた状態記述のための半解析的ウィグナー・セイッツ近似(Baym, Pethick et al )と同様に、純粋に数値的な手法を用いてこの問題を考察する。 この近似では,各渦が円筒形細胞を占有しており,渦コアの大きさが変動パラメータとして扱われていると仮定する。 一定の角運動量で動くと、角運動量が増加し、原子数に依存すると、液滴は質量中心の励起に変わる前に、ほとんど、ほとんど、または多くの渦を許容しない。 大きい」液滴の場合、トラップ $\Omega$ の固定回転周波数で作業すると、$\Omega$ はトラップ周波数 $\omega$ に近づき、渦格子が形成され、渦の数が増加し、その間の平均間隔が減少し、各渦の「サイズ」は各セルの大きさと比較して増加する。 ボルテックス格子と高相関多体状態が解けるような接触相互作用のよく知られた問題とは対照的に、ここでは、$\Omega = \omega$ であっても、ボルテックス格子が解けることはない。 この違いは、液滴が自己結合しているためである。 実際、$\Omega = \omega$の場合、"滑らかな"密度分布は平らなトップになる。 Omega$が$\omega$を超えると、ドロップレットは形を保ち、質量の中心運動によって無限に逃げていく。

We consider a "symmetric" quantum droplet in two spatial dimensions, which rotates in a harmonic potential, focusing mostly on the limit of "rapid" rotation. We examine this problem using a purely numerical approach, as well as a semi-analytic Wigner-Seitz approximation (first developed by Baym, Pethick et al.) for the description of the state with a vortex lattice. Within this approximation we assume that each vortex occupies a cylindrical cell, with the vortex-core size treated as a variational parameter. Working with a fixed angular momentum, as the angular momentum increases and depending on the atom number, the droplet accommodates none, few, or many vortices, before it turns to center-of-mass excitation. For the case of a "large" droplet, working with a fixed rotational frequency of the trap $\Omega$, as $\Omega$ approaches the trap frequency $\omega$, a vortex lattice forms, the number of vortices increases, the mean spacing between them decreases, while the "size" of each vortex increases as compared to the size of each cell. In contrast to the well-known problem of contact interactions, where we have melting of the vortex lattice and highly-correlated many-body states, here no melting of the vortex lattice is present, even when $\Omega = \omega$. This difference is due to the fact that the droplet is self-bound. Actually, for $\Omega = \omega$, the "smoothed" density distribution becomes a flat top, very much like the static droplet. When $\Omega$ exceeds $\omega$, the droplet maintains its shape and escapes to infinity, via center-of-mass motion.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 点眼行動によるドライバ疲労の検出

Detecting Driver Fatigue With Eye Blink Behavior ( http://arxiv.org/abs/2407.02222v1 )

ライセンス: Link先を確認
Ali Akin, Habil Kalkan, (参考訳) 交通事故は世界中で毎年何百万人もの死者と数十億ドルの経済損失を引き起こしており、重大な問題となっている。 これらの事故の主な原因の1つは、ドライバーが眠く、疲労していることである。 近年,ドライバと物理的に接触する必要のないカメラベースのソリューションを用いて,ドライバの睡眠/覚醒状態の検出に重点を置いている。 本研究では、点眼周波数に加えて、ドライバ適応型点眼行動特徴セットを評価し、疲労状態を検出する。 その結果,眼の瞬き行動は疲労検出に有用な情報をもたらすことが明らかとなった。 開発した画像ベースシステムは、運転者の身体的特徴と車内位置に適応的に対応できるソリューションを提供する。

Traffic accidents, causing millions of deaths and billions of dollars in economic losses each year globally, have become a significant issue. One of the main causes of these accidents is drivers being sleepy or fatigued. Recently, various studies have focused on detecting drivers' sleep/wake states using camera-based solutions that do not require physical contact with the driver, thereby enhancing ease of use. In this study, besides the eye blink frequency, a driver adaptive eye blink behavior feature set have been evaluated to detect the fatigue status. It is observed from the results that behavior of eye blink carries useful information on fatigue detection. The developed image-based system provides a solution that can work adaptively to the physical characteristics of the drivers and their positions in the vehicle
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# 地球-星間量子-古典通信における空間的多様性の爆発

Exploiting Spatial Diversity in Earth-to-Satellite Quantum-Classical Communications ( http://arxiv.org/abs/2407.02224v1 )

ライセンス: Link先を確認
Ziqing Wang, Timothy C. Ralph, Ryan Aguinaldo, Robert Malaney, (参考訳) 量子インターネットのビジョンの不可欠な部分であるにもかかわらず、地球間(アップリンク)の量子通信は、大気の乱流によって引き起こされる激しいチャネル損失変動(フェイディング)により、衛星間(ダウンリンク)の通信よりも困難であると考えられている。 地球と衛星間の量子通信における負の影響にどのように対処するかという問題は、未解決のままである。 本研究では,地球から衛星への連続可変(CV)量子古典的光通信において,空間多様性を活用する可能性について検討する。 我々は、量子状態の進化の理論解析とアップリンク光チャネルの詳細な数値シミュレーションの両方を通して、複数の送信地局と複数の受信開口を持つ単一の衛星を用いて、空間的多様性を用いることで、絡み合い分布の有効性を向上させることを実証した。 さらに、大(典型的には符号化)と小(量子変調)のコヒーレント状態の移譲は、フェージングチャネルの多様性の活用の恩恵を受けることが示されている。 我々の研究は、衛星ベースの量子通信における空間的多様性の利用に関する最初の定量的研究であり、古典的な通信で広く採用されているこの減少緩和パラダイムが、地球から衛星へのCV量子通信の文脈においてどのように役立つかを示すものである。

Despite being an integral part of the vision of quantum Internet, Earth-to-satellite (uplink) quantum communications have been considered more challenging than their satellite-to-Earth (downlink) counterparts due to the severe channel-loss fluctuations (fading) induced by atmospheric turbulence. The question of how to address the negative impact of fading on Earth-to-satellite quantum communications remains largely an open issue. In this work, we explore the feasibility of exploiting spatial diversity as a means of fading mitigation in Earth-to-satellite Continuous-Variable (CV) quantum-classical optical communications. We demonstrate, via both our theoretical analyses of quantum-state evolution and our detailed numerical simulations of uplink optical channels, that the use of spatial diversity can improve the effectiveness of entanglement distribution through the use of multiple transmitting ground stations and a single satellite with multiple receiving apertures. We further show that the transfer of both large (classically-encoded) and small (quantum-modulated) coherent states can benefit from the use of diversity over fading channels. Our work represents the first quantitative investigation into the use of spatial diversity for satellite-based quantum communications in the uplink direction, showing under what circumstances this fading-mitigation paradigm, which has been widely adopted in classical communications, can be helpful within the context of Earth-to-satellite CV quantum communications.
翻訳日:2024-07-03 15:35:30 公開日:2024-07-02
# RollupTheCrowd:ZkRollupsを活用してスケーラブルでプライバシ保護されたレピュテーションベースのクラウドソーシングプラットフォーム

RollupTheCrowd: Leveraging ZkRollups for a Scalable and Privacy-Preserving Reputation-based Crowdsourcing Platform ( http://arxiv.org/abs/2407.02226v1 )

ライセンス: Link先を確認
Ahmed Mounsf Rafik Bendada, Mouhamed Amine Bouchiha, Mourad Rabah, Yacine Ghamri-Doudane, (参考訳) 現在のブロックチェーンベースのクラウドソーシングの評判ソリューションは、ブロックチェーンのスケーラビリティを損なうことなく、効率性とプライバシの両方を確保するという課題に対処することができない。 効果的な、透過的で、プライバシ保護の評判モデルを開発するには、スマートコントラクトを使用したオンチェーン実装が必要です。 しかしながら、タスク評価と評価更新とクラウドソーシングトランザクションをオンチェーンで管理することは、システムのスケーラビリティとパフォーマンスを著しく損なう。 本稿では,zkRollupsを活用してユーザのプライバシ保護とシステムのスケーラビリティ向上を実現する,ブロックチェーンを活用した新たなクラウドソーシングフレームワークであるRollupTheCrowdを紹介する。 本フレームワークは,クラウドソーシングのインタラクションを評価することにより,労働者の信頼度を評価する,効果的かつプライバシ保護の評判モデルを含む。 ブロックチェーンの負荷を軽減するために、オフチェーンストレージスキームを採用し、RollupTheCrowdのパフォーマンスを最適化しています。 スマートコントラクトとゼロ知識証明を利用して、ロールアップ層は、ガス消費の20倍の大幅な削減を達成する。 提案手法の有効性を証明するため,最先端ツールを用いた概念実証実装を開発した。 本稿では,RollupTheCrowdの有効性とスケーラビリティを実証し,実世界のアプリケーションシナリオの可能性を検証した。

Current blockchain-based reputation solutions for crowdsourcing fail to tackle the challenge of ensuring both efficiency and privacy without compromising the scalability of the blockchain. Developing an effective, transparent, and privacy-preserving reputation model necessitates on-chain implementation using smart contracts. However, managing task evaluation and reputation updates alongside crowdsourcing transactions on-chain substantially strains system scalability and performance. This paper introduces RollupTheCrowd, a novel blockchain-powered crowdsourcing framework that leverages zkRollups to enhance system scalability while protecting user privacy. Our framework includes an effective and privacy-preserving reputation model that gauges workers' trustworthiness by assessing their crowdsourcing interactions. To alleviate the load on our blockchain, we employ an off-chain storage scheme, optimizing RollupTheCrowd's performance. Utilizing smart contracts and zero-knowledge proofs, our Rollup layer achieves a significant 20x reduction in gas consumption. To prove the feasibility of the proposed framework, we developed a proof-of-concept implementation using cutting-edge tools. The experimental results presented in this paper demonstrate the effectiveness and scalability of RollupTheCrowd, validating its potential for real-world application scenarios.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# MTMamba: マンバベースのデコーダによるマルチタスクDense Scene理解の強化

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders ( http://arxiv.org/abs/2407.02228v1 )

ライセンス: Link先を確認
Baijiong Lin, Weisen Jiang, Pengguang Chen, Yu Zhang, Shu Liu, Ying-Cong Chen, (参考訳) 複数の密集予測タスクのモデルを学ぶマルチタスク密集シーン理解には、幅広いアプリケーションシナリオがある。 長距離依存性のモデリングとクロスタスク相互作用の強化はマルチタスク密度予測に不可欠である。 本稿では,マルチタスクシーン理解のための新しいマンバベースアーキテクチャであるMTMambaを提案する。 コアブロックには、セルフタスクのMamba(STM)ブロックとクロスタスクのMamba(CTM)ブロックの2種類がある。 STMはMambaを活用することで長距離依存を処理し、CTMはタスク間の情報交換を容易にするためにタスクインタラクションを明示的にモデル化する。 NYUDv2とPASCAL-Contextデータセットの実験では、TransformerベースのメソッドとCNNベースのメソッドよりも、MTMambaの方が優れたパフォーマンスを示している。 特に、PASCAL-Contextデータセットでは、MTMambaは、セマンティックセグメンテーション、ヒューマンパーシング、オブジェクト境界検出のタスクにおいて、以前のベストメソッドよりも+2.08、+5.01、+4.90の改善を達成している。 コードは \url{https://github.com/EnVision-Research/MTMamba} で公開されている。

Multi-task dense scene understanding, which learns a model for multiple dense prediction tasks, has a wide range of application scenarios. Modeling long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba, a novel Mamba-based architecture for multi-task scene understanding. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging Mamba, while CTM explicitly models task interactions to facilitate information exchange across tasks. Experiments on NYUDv2 and PASCAL-Context datasets demonstrate the superior performance of MTMamba over Transformer-based and CNN-based methods. Notably, on the PASCAL-Context dataset, MTMamba achieves improvements of +2.08, +5.01, and +4.90 over the previous best method in the tasks of semantic segmentation, human parsing, and object boundary detection, respectively. The code is available at \url{https://github.com/EnVision-Research/MTMamba}.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# LaMoD: 心筋ひずみ発生のための潜在運動拡散モデル

LaMoD: Latent Motion Diffusion Model For Myocardial Strain Generation ( http://arxiv.org/abs/2407.02229v1 )

ライセンス: Link先を確認
Jiarui Xing, Nivetha Jayakumar, Nian Wu, Yu Wang, Frederick H. Epstein, Miaomiao Zhang, (参考訳) 心臓磁気共鳴(CMR)画像の運動と変形解析は、異常心機能を有する患者の心筋病変を評価する上で重要である。 ディープラーニングに基づく画像登録アルゴリズムの最近の進歩は、日常的に取得されたCMRシーケンスからの運動場予測に有望な結果を示している。 しかし、その精度はしばしば微妙な外観の変化を伴う地域で低下し、エラーは時間とともに伝播する。 刺激エコー(DENSE)CMR(英語版)による変位符号化(英語版)のような高度なイメージング技術は、高精度で再現可能なモーションデータを提供するが、さらなる画像取得が必要であり、これは多忙な臨床フローに課題をもたらす。 本稿では,標準的なCMRビデオから高精度なDENSE動作を予測する新しいラテントモーション拡散モデル(LaMoD)を提案する。 具体的には,まず事前に訓練された登録ネットワークからエンコーダを用いて,画像列から潜時運動特徴(変形に基づく形状特徴とも考えられる)を学習する。 DENSEによって提供される接地構造運動によって監督されたLaMoDは、確率的潜在拡散モデルを利用して、抽出された特徴から正確な動きを復元する。 実験の結果,提案手法であるLaMoDは,標準CMR画像における運動解析の精度を著しく向上し,心疾患患者における心筋ひずみ解析の精度が向上することが示された。 私たちのコードは受理時に公開されます。

Motion and deformation analysis of cardiac magnetic resonance (CMR) imaging videos is crucial for assessing myocardial strain of patients with abnormal heart functions. Recent advances in deep learning-based image registration algorithms have shown promising results in predicting motion fields from routinely acquired CMR sequences. However, their accuracy often diminishes in regions with subtle appearance change, with errors propagating over time. Advanced imaging techniques, such as displacement encoding with stimulated echoes (DENSE) CMR, offer highly accurate and reproducible motion data but require additional image acquisition, which poses challenges in busy clinical flows. In this paper, we introduce a novel Latent Motion Diffusion model (LaMoD) to predict highly accurate DENSE motions from standard CMR videos. More specifically, our method first employs an encoder from a pre-trained registration network that learns latent motion features (also considered as deformation-based shape features) from image sequences. Supervised by the ground-truth motion provided by DENSE, LaMoD then leverages a probabilistic latent diffusion model to reconstruct accurate motion from these extracted features. Experimental results demonstrate that our proposed method, LaMoD, significantly improves the accuracy of motion analysis in standard CMR images; hence improving myocardial strain analysis in clinical settings for cardiac patients. Our code will be publicly available on upon acceptance.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# 安全駆動型コボット深部強化学習フレームワークSim2Realアプローチ

Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach ( http://arxiv.org/abs/2407.02231v1 )

ライセンス: Link先を確認
Ammar N. Abbas, Shakra Mehak, Georgios C. Chasparis, John D. Kelleher, Michael Guilfoyle, Maria Chiara Leva, Aswin K Ramasubramanian, (参考訳) 本研究では, 深部強化学習(DRL)のトレーニングにおいて, ロボットシミュレーションに安全性制約を取り入れた新しい手法を提案する。 このフレームワークは、ISO 10218が規定した速度制限のような、ロボットの学習アルゴリズムの一部となるDRLモデルに直接、安全要件の特定の部分を統合する。 この研究はDRLモデルを様々なシナリオに適用し、障害物回避を伴うタスクの把握を含む安全性制約の効率性を評価した。 検証プロセスには、DRLモデルの潜在的な危険とそのコンプライアンスに対する応答の総合的なシミュレーションベースのテストが含まれていた。 また、機能安全基準IEC 61508によりシステム性能を行い、安全性の整合性を決定する。 本研究は,ロボットシステムの安全性能を著しく向上させた。 DRLモデルは、運用効率を維持しながら、ハザードを予測および緩和する。 この研究は、安全センサーを備えた協調ロボットアームを用いたテストベッドで検証され、平均的な安全違反数、障害物回避数、正常な把握数などの指標で評価された。 提案手法は, 実験シナリオの平均成功率を16.5%, 安全違反のないテストベッドの2.5%で上回った。 プロジェクトリポジトリはhttps://github.com/ammar-n-abbas/sim2real-ur-gym-gazeboで公開されている。

This study presents a novel methodology incorporating safety constraints into a robotic simulation during the training of deep reinforcement learning (DRL). The framework integrates specific parts of the safety requirements, such as velocity constraints, as specified by ISO 10218, directly within the DRL model that becomes a part of the robot's learning algorithm. The study then evaluated the efficiency of these safety constraints by subjecting the DRL model to various scenarios, including grasping tasks with and without obstacle avoidance. The validation process involved comprehensive simulation-based testing of the DRL model's responses to potential hazards and its compliance. Also, the performance of the system is carried out by the functional safety standards IEC 61508 to determine the safety integrity level. The study indicated a significant improvement in the safety performance of the robotic system. The proposed DRL model anticipates and mitigates hazards while maintaining operational efficiency. This study was validated in a testbed with a collaborative robotic arm with safety sensors and assessed with metrics such as the average number of safety violations, obstacle avoidance, and the number of successful grasps. The proposed approach outperforms the conventional method by a 16.5% average success rate on the tested scenarios in the simulations and 2.5% in the testbed without safety violations. The project repository is available at https://github.com/ammar-n-abbas/sim2real-ur-gym-gazebo.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# 合成マルチモーダル質問生成

Synthetic Multimodal Question Generation ( http://arxiv.org/abs/2407.02233v1 )

ライセンス: Link先を確認
Ian Wu, Sravan Jayanthi, Vijay Viswanathan, Simon Rosenberg, Sina Pakazad, Tongshuang Wu, Graham Neubig, (参考訳) MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。 MMRAGを評価する上で重要な課題は、質問スタイルと関心のモダリティにマッチする高品質なデータセットの妥当性である。 そこで我々は,合成データ生成フレームワークSMMQGを提案する。 SMMQGは、レトリバー、大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の相互作用を利用して、複数のモーダル文書から直接質問と回答のペアを生成する。 SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いた最先端モデルの評価を行い、スタイルやモダリティ固有の評価データによってのみ達成可能なモデルパフォーマンスに関する洞察を明らかにする。 次に,SMMQGが生成するデータの品質を人間の研究によって測定する。 クラウドソーシングされたベンチマークMMQAの品質は,合成データの質と同等であり,両者のデータセットによる下流評価結果が強く一致していることが判明した。

Multimodal Retrieval Augmented Generation (MMRAG) is a powerful approach to question-answering over multimodal documents. A key challenge with evaluating MMRAG is the paucity of high-quality datasets matching the question styles and modalities of interest. In light of this, we propose SMMQG, a synthetic data generation framework. SMMQG leverages interplay between a retriever, large language model (LLM) and large multimodal model (LMM) to generate question and answer pairs directly from multimodal documents, with the questions conforming to specified styles and modalities. We use SMMQG to generate an MMRAG dataset of 1024 questions over Wikipedia documents and evaluate state-of-the-art models using it, revealing insights into model performance that are attainable only through style- and modality-specific evaluation data. Next, we measure the quality of data produced by SMMQG via a human study. We find that the quality of our synthetic data is on par with the quality of the crowdsourced benchmark MMQA and that downstream evaluation results using both datasets strongly concur.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# 三次元脳CTレポート生成における多モーダル大言語モデルのための全体的枠組みの実現に向けて

Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation ( http://arxiv.org/abs/2407.02235v1 )

ライセンス: Link先を確認
Cheng-Yi Li, Kao-Jung Chang, Cheng-Fu Yang, Hsin-Yu Wu, Wenting Chen, Hritik Bansal, Ling Chen, Yi-Ping Yang, Yu-Chun Chen, Shih-Pin Chen, Jiing-Feng Lirng, Kai-Wei Chang, Shih-Hwa Chiou, (参考訳) マルチモーダルな大言語モデル (MLLM) は、放射線医学レポート生成に重点を置いたエキサイティングな医療応用を探求するために無料で提供されてきた。 しかし,2Dラジオグラフィーキャプションの予備的成功は,ボリューム3D解剖学における現実の診断課題を反映するものではない。 既存の文献において,(1)データ複雑性,(2)モデル容量,(3)評価指標の忠実度などの3つの重要な限界点を緩和するために,18,885組のテキストスキャンペア3D-BrainCTデータセットと臨床視覚指導訓練(CVIT)を用いて,脳波モデルを用いて放射線学に順応した3D脳CTレポートを生成する。 統計的には、BrainGPTはBLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, CIDEr-R = 211.77を内部試験で測定し、外部検証CQ500データセットのキャプション中線シフトで0.91の精度を示した。 本報告では, 従来の指標は, 表層テキストの類似性のみを測定し, 診断目的の情報密度を測ることに失敗したと報告した。 このギャップを埋めるため,我々は,論文の臨床的意義(エピソードの特徴とランドマーク)を推定する新しい特徴指向放射線学タスク評価(FORTE)を提案した。 特に、BrainGPTのF1スコアの平均は0.71点(度=0.661点、ランドマーク=0.706点、特徴=0.693点、印象=0.779点)であった。 BrainGPT モデルが人型放射線学レポートを生成するための客観的準備性を持っていることを示すため,11 名の医師評価者を登録したチューリング試験を行い,約74% の脳GPT 生成キャプションがヒトと区別不能であった。 私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。

Multi-modal large language models (MLLMs) have been given free rein to explore exciting medical applications with a primary focus on radiology report generation. Nevertheless, the preliminary success in 2D radiology captioning is incompetent to reflect the real-world diagnostic challenge in the volumetric 3D anatomy. To mitigate three crucial limitation aspects in the existing literature, including (1) data complexity, (2) model capacity, and (3) evaluation metric fidelity, we collected an 18,885 text-scan pairs 3D-BrainCT dataset and applied clinical visual instruction tuning (CVIT) to train BrainGPT models to generate radiology-adherent 3D brain CT reports. Statistically, our BrainGPT scored BLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, and CIDEr-R = 211.77 during internal testing and demonstrated an accuracy of 0.91 in captioning midline shifts on the external validation CQ500 dataset. By further inspecting the captioned report, we reported that the traditional metrics appeared to measure only the surface text similarity and failed to gauge the information density of the diagnostic purpose. To close this gap, we proposed a novel Feature-Oriented Radiology Task Evaluation (FORTE) to estimate the report's clinical relevance (lesion feature and landmarks). Notably, the BrainGPT model scored an average FORTE F1-score of 0.71 (degree=0.661; landmark=0.706; feature=0.693; impression=0.779). To demonstrate that BrainGPT models possess objective readiness to generate human-like radiology reports, we conducted a Turing test that enrolled 11 physician evaluators, and around 74% of the BrainGPT-generated captions were indistinguishable from those written by humans. Our work embodies a holistic framework that showcased the first-hand experience of curating a 3D brain CT dataset, fine-tuning anatomy-sensible language models, and proposing robust radiology evaluation metrics.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# Augmented Financial Intelligence MLを用いたインド株式市場の予測

Indian Stock Market Prediction using Augmented Financial Intelligence ML ( http://arxiv.org/abs/2407.02236v1 )

ライセンス: Link先を確認
Anishka Chauhan, Pratham Mayur, Yeshwanth Sai Gokarakonda, Pooriya Jamie, Naman Mehrotra, (参考訳) 本稿では, 投資決定の強化を目的とした, Superforecasters 予測を付加した機械学習アルゴリズムを用いた価格予測モデルを提案する。 双方向LSTM、ARIMA、CNNとLSTMの組み合わせ、GRU、LSTMとGRUアルゴリズムを使って構築されたモデルを含む5つの機械学習モデルが構築されている。 これらのモデルは平均絶対誤差を用いて予測精度を決定する。 また, 予測不可能な変動や株価変動を予測するために, スーパーフォカスターを特定し, 予測を追及することで, 人間の知性を取り入れることを提案する。 これらのユーザによる予測は、マシンラーニングと自然言語処理のテクニックを組み合わせることで、株価予測の精度をさらに高めることができる。 あらゆる商品の価格を予測することは重要な課題だが、株式市場の株価を予測することは、はるかに不確実性を伴う。 本稿では,一部の投資家の限られた知識と在庫への露出を認識し,機械学習アルゴリズムを用いた価格予測モデルを提案する。 この作業では、5つの機械学習モデルが双方向LSTM、ARIMA、CNNとLSTMの組み合わせ、GRU、そして最後の1つはLSTMとGRUアルゴリズムを使って構築されている。 その後、これらのモデルをMAEスコアを用いて評価し、どのモデルを最も高い精度で予測しているかを判断する。 また、本論文は、人的知性を利用して株式市場の物価変動を正確に予測することを提案する。主な目標は、スーパーフォカスターを特定し、予測不可能な変動や株価変動を予測して予測を追跡することである。 機械学習とヒューマンインテリジェンスを組み合わせることで、予測精度を大幅に向上させることができる。

This paper presents price prediction models using Machine Learning algorithms augmented with Superforecasters predictions, aimed at enhancing investment decisions. Five Machine Learning models are built, including Bidirectional LSTM, ARIMA, a combination of CNN and LSTM, GRU, and a model built using LSTM and GRU algorithms. The models are evaluated using the Mean Absolute Error to determine their predictive accuracy. Additionally, the paper suggests incorporating human intelligence by identifying Superforecasters and tracking their predictions to anticipate unpredictable shifts or changes in stock prices . The predictions made by these users can further enhance the accuracy of stock price predictions when combined with Machine Learning and Natural Language Processing techniques. Predicting the price of any commodity can be a significant task but predicting the price of a stock in the stock market deals with much more uncertainty. Recognising the limited knowledge and exposure to stocks among certain investors, this paper proposes price prediction models using Machine Learning algorithms. In this work, five Machine learning models are built using Bidirectional LSTM, ARIMA, a combination of CNN and LSTM, GRU and the last one is built using LSTM and GRU algorithms. Later these models are assessed using MAE scores to find which model is predicting with the highest accuracy. In addition to this, this paper also suggests the use of human intelligence to closely predict the shift in price patterns in the stock market The main goal is to identify Superforecasters and track their predictions to anticipate unpredictable shifts or changes in stock prices. By leveraging the combined power of Machine Learning and the Human Intelligence, predictive accuracy can be significantly increased.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# MIREncoder: 性能最適化のためのマルチモーダルIRベースの事前学習埋め込み

MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations ( http://arxiv.org/abs/2407.02238v1 )

ライセンス: Link先を確認
Akash Dutta, Ali Jannesari, (参考訳) ハイパフォーマンスコンピューティングの主要な関心領域の1つは、並列ワークロードのパフォーマンスの改善である。 現在、ディープラーニングを利用するコンパイル可能なソースコードベースの最適化タスクは、ソースコードから機能を抽出するためにLLVM Intermediate Representations (IR)を利用することが多い。 そのような作業の多くは特定のタスクをターゲットにしているか、あるいは事前に定義されたヒューリスティックセットで設計されている。 これまでのところ、この領域では事前訓練されたモデルはほとんどないが、その可能性については広く議論されている。 特に,大規模言語モデル (LLM) を模倣する手法が提案されている。 しかし、これらには厳しいトレーニングコストが伴う。 本稿では,M}ulti-modal IRベースのオートエンコーダであるMIREncoderを提案する。 マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。 これにより、コード構文、セマンティクス、構造をより良くモデル化できます。 コードベースのパフォーマンス最適化では、これらの機能は最適化決定を行う上で非常に重要です。 事前トレーニングされたモデル/埋め込みは、暗黙的にトランスファーラーニングの使用を可能にし、タスク固有のトレーニングされたモデルから離れるのに役立つ。 さらに、ダウンストリームのパフォーマンス最適化に使用される事前トレーニングされたモデルは、オーバヘッドを低減し、容易に使用できるようにする必要がある。 これらの考察により、我々はモデリングアプローチを提案するようになった。 一 コードの意味と構造を理解すること。 二 転校学習の活用が可能なこと、及び iii) 小さくてシンプルで、リソースの可用性が低い場合でも、簡単に再利用または再利用できる。 評価の結果,提案手法はオーバヘッドを低減しつつ,最先端の手法よりも優れていることが示された。

One of the primary areas of interest in High Performance Computing is the improvement of performance of parallel workloads. Nowadays, compilable source code-based optimization tasks that employ deep learning often exploit LLVM Intermediate Representations (IRs) for extracting features from source code. Most such works target specific tasks, or are designed with a pre-defined set of heuristics. So far, pre-trained models are rare in this domain, but the possibilities have been widely discussed. Especially approaches mimicking large-language models (LLMs) have been proposed. But these have prohibitively large training costs. In this paper, we propose MIREncoder, a M}ulti-modal IR-based Auto-Encoder that can be pre-trained to generate a learned embedding space to be used for downstream tasks by machine learning-based approaches. A multi-modal approach enables us to better extract features from compilable programs. It allows us to better model code syntax, semantics and structure. For code-based performance optimizations, these features are very important while making optimization decisions. A pre-trained model/embedding implicitly enables the usage of transfer learning, and helps move away from task-specific trained models. Additionally, a pre-trained model used for downstream performance optimization should itself have reduced overhead, and be easily usable. These considerations have led us to propose a modeling approach that i) understands code semantics and structure, ii) enables use of transfer learning, and iii) is small and simple enough to be easily re-purposed or reused even with low resource availability. Our evaluations will show that our proposed approach can outperform the state of the art while reducing overhead.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# MALT、敵攻撃に力を入れている

MALT Powers Up Adversarial Attacks ( http://arxiv.org/abs/2407.02240v1 )

ライセンス: Link先を確認
Odelia Melamed, Gilad Yehudai, Adi Shamir, (参考訳) マルチクラス分類器に対する現在の逆攻撃は、様々なターゲットクラスに対する分類器の信頼性レベルに基づいて、与えられた入力に対するターゲットクラスを選択する。 そこで本研究では,中規模ニアリニア性仮定に基づく,新たな対向的ターゲティング手法である \textit{MALT - Mesoscopic almost Linearity Targeting} を提案する。 我々の攻撃は、CIFAR-100とImageNetの標準ベンチマークデータセットと、さまざまな堅牢なモデルに対して、現在の最先端のAutoAttackに勝っている。 特に、私たちの攻撃はAutoAttackよりも高速で、AutoAttackの成功のすべてと一致し、これまで到達できなかった追加のサンプルを攻撃することに成功しました。 次に、線形予測器にインスパイアされたものの、標準非線形モデルにも適用できることを実証的に証明し、実証する。

Current adversarial attacks for multi-class classifiers choose the target class for a given input naively, based on the classifier's confidence levels for various target classes. We present a novel adversarial targeting method, \textit{MALT - Mesoscopic Almost Linearity Targeting}, based on medium-scale almost linearity assumptions. Our attack wins over the current state of the art AutoAttack on the standard benchmark datasets CIFAR-100 and ImageNet and for a variety of robust models. In particular, our attack is \emph{five times faster} than AutoAttack, while successfully matching all of AutoAttack's successes and attacking additional samples that were previously out of reach. We then prove formally and demonstrate empirically that our targeting method, although inspired by linear predictors, also applies to standard non-linear models.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# 表情と手話を用いた手話認識

Sign Language Recognition Based On Facial Expression and Hand Skeleton ( http://arxiv.org/abs/2407.02241v1 )

ライセンス: Link先を確認
Zhiyu Long, Xingyou Liu, Jiaqi Qiao, Zhi Li, (参考訳) 手話は、聴覚障害と愚かなコミュニティがコミュニケーションするために使用する視覚言語である。 しかし, 単眼カメラを用いたほとんどの認識手法では, 認識精度は低く, 頑健性は低い。 一部のデータに効果があるとしても、効果的な特徴を抽出できないため、干渉が異なる他のデータでは性能が悪くなる可能性がある。 これらの問題を解決するために,手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。 そこで本研究では,手の形状をより正確に記述するために,座標変換に基づく手骨の特徴抽出を提案する。 さらに,表情情報を取り入れることで,手話認識の精度と堅牢性が向上し,Argentinian Sign Language と SEU の Chinese Sign Language Recognition Database (SEUCSLRD) で検証された。

Sign language is a visual language used by the deaf and dumb community to communicate. However, for most recognition methods based on monocular cameras, the recognition accuracy is low and the robustness is poor. Even if the effect is good on some data, it may perform poorly in other data with different interference due to the inability to extract effective features. To solve these problems, we propose a sign language recognition network that integrates skeleton features of hands and facial expression. Among this, we propose a hand skeleton feature extraction based on coordinate transformation to describe the shape of the hand more accurately. Moreover, by incorporating facial expression information, the accuracy and robustness of sign language recognition are finally improved, which was verified on A Dataset for Argentinian Sign Language and SEU's Chinese Sign Language Recognition Database (SEUCSLRD).
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# 逆推論最適化を用いたロバストゼロショットテキスト音声合成

Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization ( http://arxiv.org/abs/2407.02243v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Siyin Wang, Eng Siong Chng, Chao Zhang, (参考訳) 本稿では,人間フィードバックからの強化学習(RLHF)を用いた自己回帰モデルに基づくゼロショット音声合成(TTS)システムの堅牢性向上を目的とした,逆推論最適化(RIO)を提案する。 人間のアノテーションを使わずにTTSシステムによって生成された音声の品質を評価するため、ROOはベイズ原理に基づく逆推論と呼ばれる新しい概念を導入する。 逆推論を標準として、RTSシステム自体が生成した音声サンプルからRLHFで使用される例を選択することにより、ROOはその後の最適化をTSロバスト性を高める方向に導いた。 サンプリング、自動注釈、学習を含むROOフレームワークは、報酬モデルやペアの選好データの必要性を回避し、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上させる。 実験の結果,平均意見スコア,単語誤り率,話者類似度など,主観的・客観的な指標を効果的に改善できることが確認された。 興味深いことに、ROOは悪いアウトプットの頻度を0パーセント近くに下げる可能性があり、そのプロンプトとして地味な言葉を使うときの頑丈さに対抗できる。

In this paper, we propose reverse inference optimization (RIO), a simple and effective method designed to enhance the robustness of autoregressive-model-based zero-shot text-to-speech (TTS) systems using reinforcement learning from human feedback (RLHF). To assess the quality of speech produced by the TTS system without human annotations, RIO introduces a novel concept termed as reverse inference based on the Bayesian principle, which suggests that a high-quality generated speech should be able to be used as a prompt for subsequent generation using the same TTS model. By leveraging reverse inference as the standard to select exemplars used in RLHF from the speech samples generated by the TTS system itself, RIO steers the subsequent optimization towards a direction of enhancing the TTS robustness. The RIO framework, comprising sampling, automatic annotating, and learning, obviates the need for a reward model or pairwise preference data, and significantly improves the stability of zero-shot TTS performance by reducing the discrepancies between training and inference conditions. Our experimental results verify that RIO can effectively improve both subjective and objective metrics, including mean opinion scores, word error rates, and speaker similarity. Remarkably, RIO can also diminish the incidence of bad outputs to nearly zero percent, rivalling the robustness when using ground-truth speech as the prompt.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# Safe CoR:制約リワードを用いた模倣学習と安全な強化学習の統合のための2段階的アプローチ

Safe CoR: A Dual-Expert Approach to Integrating Imitation Learning and Safe Reinforcement Learning Using Constraint Rewards ( http://arxiv.org/abs/2407.02245v1 )

ライセンス: Link先を確認
Hyeokjin Kwon, Gunmin Lee, Junseo Lee, Songhwai Oh, (参考訳) 自律型エージェントの領域では、複雑な環境と動的環境の安全性と信頼性を確保することが最重要課題である。 安全強化学習は、安全制約を導入することでこれらの懸念に対処するが、複雑な運転状況のような複雑な環境をナビゲートする際の課題に直面している。 これらの課題を克服するために、安全な制約報酬(Safe CoR)フレームワークを紹介します。これは、安全を優先したパフォーマンス最適化と安全な専門家のデモンストレーションに焦点を当てた、2種類の専門家デモを利用する新しい方法です。 制約報酬(CoR)を活用することで、当社のフレームワークは、報酬の合計性能目標と安全制約とのバランスをとるようにエージェントをガイドします。 提案するフレームワークは,セーフティジムやメタドライブ,リアル$\unicode{x2013}$world Jackalプラットフォームなど,さまざまな環境でテストする。 提案フレームワークは,実世界のJackalプラットフォームにおいて,アルゴリズムの性能を3,9 %向上し,制約違反を8,8 %削減する。 この革新的なアプローチを通じて、現実世界のパフォーマンスが大幅に向上し、安全で信頼性の高い自律エージェントの領域における変革的な効果が期待できる。

In the realm of autonomous agents, ensuring safety and reliability in complex and dynamic environments remains a paramount challenge. Safe reinforcement learning addresses these concerns by introducing safety constraints, but still faces challenges in navigating intricate environments such as complex driving situations. To overcome these challenges, we present the safe constraint reward (Safe CoR) framework, a novel method that utilizes two types of expert demonstrations$\unicode{x2013}$reward expert demonstrations focusing on performance optimization and safe expert demonstrations prioritizing safety. By exploiting a constraint reward (CoR), our framework guides the agent to balance performance goals of reward sum with safety constraints. We test the proposed framework in diverse environments, including the safety gym, metadrive, and the real$\unicode{x2013}$world Jackal platform. Our proposed framework enhances the performance of algorithms by $39\%$ and reduces constraint violations by $88\%$ on the real-world Jackal platform, demonstrating the framework's efficacy. Through this innovative approach, we expect significant advancements in real-world performance, leading to transformative effects in the realm of safe and reliable autonomous agents.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# EvolBA: ハードラベルブラックボックス条件下での進化的境界攻撃

EvolBA: Evolutionary Boundary Attack under Hard-label Black Box condition ( http://arxiv.org/abs/2407.02248v1 )

ライセンス: Link先を確認
Ayane Tajima, Satoshi Ono, (参考訳) 研究によると、ディープニューラルネットワーク(DNN)には、特別に設計された摂動を伴う敵例(AE)の誤認識につながる脆弱性がある。 強ラベルブラックボックス(HL-BB)条件下で、損失勾配や信頼度が欠如している場合の脆弱性を検出するために、様々な逆攻撃法が提案されているが、これらの手法は、探索空間の局所領域のみを探索するため、局所的な解に該当する。 そこで本研究では, HL-BB条件下での共分散行列適応進化戦略(CMA-ES)を用いて, AE を生成するための EvolBA という逆攻撃手法を提案する。 公式駆動型教師あり学習にインスパイアされた本手法では,初期化プロセスにドメインに依存しない演算子を導入し,探索の強化を図る。 実験結果から,提案手法は,従来の手法が困難であった画像において,従来の手法よりも摂動の少ないAEを決定できることを確認した。

Research has shown that deep neural networks (DNNs) have vulnerabilities that can lead to the misrecognition of Adversarial Examples (AEs) with specifically designed perturbations. Various adversarial attack methods have been proposed to detect vulnerabilities under hard-label black box (HL-BB) conditions in the absence of loss gradients and confidence scores.However, these methods fall into local solutions because they search only local regions of the search space. Therefore, this study proposes an adversarial attack method named EvolBA to generate AEs using Covariance Matrix Adaptation Evolution Strategy (CMA-ES) under the HL-BB condition, where only a class label predicted by the target DNN model is available. Inspired by formula-driven supervised learning, the proposed method introduces domain-independent operators for the initialization process and a jump that enhances search exploration. Experimental results confirmed that the proposed method could determine AEs with smaller perturbations than previous methods in images where the previous methods have difficulty.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# GlyphDraw2:拡散モデルと大規模言語モデルを用いた複雑なグリフポスターの自動生成

GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models ( http://arxiv.org/abs/2407.02252v1 )

ライセンス: Link先を確認
Jian Ma, Yonglin Deng, Chen Chen, Haonan Lu, Zhenyu Yang, (参考訳) ポスターはマーケティングと広告において重要な役割を担い、視覚コミュニケーションとブランドの可視性を高めることで産業デザインに大きく貢献する。 近年の制御可能なテキスト・画像拡散モデルの発展に伴い、より簡潔な研究は合成画像中のテキストのレンダリングに焦点を当てている。 テキストレンダリングの精度が向上したにもかかわらず、エンドツーエンドのポスター生成の分野はいまだ探索されていない。 この複雑なタスクは、テキストのレンダリング精度と自動レイアウトのバランスを保ち、様々なアスペクト比の高解像度画像を生成する。 この課題に対処するために,協調学習に根ざした3つのクロスアテンション機構を用いたエンドツーエンドテキストレンダリングフレームワークを提案する。 さらに,画像解像度が1024ピクセルを超える高解像度データセットを導入する。 我々のアプローチはSDXLアーキテクチャを活用している。 広範にわたる実験により,複雑な背景と文脈に富んだ背景を特徴とするポスター画像を生成する方法の有効性が検証された。 コードはhttps://github.com/OPPO-Mente-Lab/GlyphDraw2.comから入手できる。

Posters play a crucial role in marketing and advertising, contributing significantly to industrial design by enhancing visual communication and brand visibility. With recent advances in controllable text-to-image diffusion models, more concise research is now focusing on rendering text within synthetic images. Despite improvements in text rendering accuracy, the field of end-to-end poster generation remains underexplored. This complex task involves striking a balance between text rendering accuracy and automated layout to produce high-resolution images with variable aspect ratios. To tackle this challenge, we propose an end-to-end text rendering framework employing a triple cross-attention mechanism rooted in align learning, designed to create precise poster text within detailed contextual backgrounds. Additionally, we introduce a high-resolution dataset that exceeds 1024 pixels in image resolution. Our approach leverages the SDXL architecture. Extensive experiments validate the ability of our method to generate poster images featuring intricate and contextually rich backgrounds. Codes will be available at https://github.com/OPPO-Mente-Lab/GlyphDraw2.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# パラメータ選択連続テスト時間適応

Parameter-Selective Continual Test-Time Adaptation ( http://arxiv.org/abs/2407.02253v1 )

ライセンス: Link先を確認
Jiaxu Tian, Fan Lyu, (参考訳) 継続的テスト時間適応(CTTA)は、継続的なドメインシフトの下でテスト期間中に、事前トレーニングされたモデルを常に変化する環境に適応することを目的としている。 既存のCTTAアプローチのほとんどは、学生と教師モデルを含む平均教師構造に基づいており、教師モデルから擬似ラベルを用いて生徒を更新し、指数移動平均戦略により教師を更新する。 しかし、これらの手法はMTモデルの全てのパラメータを無差別に更新する。 つまり、異なるドメイン間で知識を共有することに関わるいくつかの重要なパラメータは、削除され、エラーの蓄積が増加し、破滅的な忘れ物になる可能性がある。 本稿では,パラメータ選択平均教師(PSMT)手法を提案する。この手法は,ドメインシフトの下でMTネットワーク内の臨界パラメータを効果的に更新することができる。 まず,過去の知識を生かして新しい知識を規則化し,エラー蓄積の影響を緩和する,選択的蒸留機構を学生モデルに導入する。 次に, 教師モデルにおいて, 指数移動平均を用いてパラメータを選択的に更新するマスクを作成した。 大規模な実験の結果、PSMTは複数のベンチマークデータセットで最先端の手法より優れていることが確認された。 我々のコードは \url{https://github.com/JiaxuTian/PSMT} で入手できる。

Continual Test-Time Adaptation (CTTA) aims to adapt a pretrained model to ever-changing environments during the test time under continuous domain shifts. Most existing CTTA approaches are based on the Mean Teacher (MT) structure, which contains a student and a teacher model, where the student is updated using the pseudo-labels from the teacher model, and the teacher is then updated by exponential moving average strategy. However, these methods update the MT model indiscriminately on all parameters of the model. That is, some critical parameters involving sharing knowledge across different domains may be erased, intensifying error accumulation and catastrophic forgetting. In this paper, we introduce Parameter-Selective Mean Teacher (PSMT) method, which is capable of effectively updating the critical parameters within the MT network under domain shifts. First, we introduce a selective distillation mechanism in the student model, which utilizes past knowledge to regularize novel knowledge, thereby mitigating the impact of error accumulation. Second, to avoid catastrophic forgetting, in the teacher model, we create a mask through Fisher information to selectively update parameters via exponential moving average, with preservation measures applied to crucial parameters. Extensive experimental results verify that PSMT outperforms state-of-the-art methods across multiple benchmark datasets. Our code is available at \url{https://github.com/JiaxuTian/PSMT}.
翻訳日:2024-07-03 15:25:45 公開日:2024-07-02
# SiamTST:Telcoネットワークに適用した多変量時系列予測のための新しい表現学習フレームワーク

SiamTST: A Novel Representation Learning Framework for Enhanced Multivariate Time Series Forecasting applied to Telco Networks ( http://arxiv.org/abs/2407.02258v1 )

ライセンス: Link先を確認
Simen Kristoffersen, Peter Skaar Nordby, Sara Malacarne, Massimiliano Ruocco, Pablo Ortiz, (参考訳) 多変量時系列の表現学習フレームワークSiamTSTを紹介する。 SiamTSTは、注意力、チャンネル非依存のパッチ、正規化技術を備えたSiameseネットワークを統合し、優れた性能を実現する。 SiamTSTは、実世界の産業用通信データセットに基づいて、既存の手法よりも精度の予測が大幅に改善されたことを示す。 特に、単純な線形ネットワークも競争性能を示し、SiamTSTのすぐ後ろで2番目に良い結果を得た。 コードはhttps://github.com/simenkristoff/SiamTSTで入手できる。

We introduce SiamTST, a novel representation learning framework for multivariate time series. SiamTST integrates a Siamese network with attention, channel-independent patching, and normalization techniques to achieve superior performance. Evaluated on a real-world industrial telecommunication dataset, SiamTST demonstrates significant improvements in forecasting accuracy over existing methods. Notably, a simple linear network also shows competitive performance, achieving the second-best results, just behind SiamTST. The code is available at https://github.com/simenkristoff/SiamTST.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 医用画像分類のためのフェデレート蒸留 : 信頼できるコンピュータ支援診断を目指して

Federated Distillation for Medical Image Classification: Towards Trustworthy Computer-Aided Diagnosis ( http://arxiv.org/abs/2407.02261v1 )

ライセンス: Link先を確認
Sufen Ren, Yule Hu, Shengchao Chen, Guanjun Wang, (参考訳) 医用画像分類はコンピュータ支援臨床診断において重要な役割を担っている。 深層学習技術は効率を大幅に向上しコストを削減したが、医療画像データのプライバシーに敏感な性質は集中ストレージとモデルトレーニングを複雑にしている。 さらに、低リソースの医療組織は、データとモデルスケールの増加による通信のオーバーヘッドと効率に関する課題に直面しています。 本稿では,これらの問題に対処するためのフェデレーション学習に基づく,新たなプライバシ保護型医用画像分類フレームワークであるFedMICを提案する。 このフレームワークにより、医療機関はグローバルな知識とローカルな知識の両方から学ぶことができ、統計的不均一性にもかかわらず、プライベートデータの局所的な表現を高めることができる。 多様なデータ分布を持つ組織向けにカスタマイズされたモデルを提供し、通信オーバーヘッドを最小限にし、パフォーマンスを損なうことなく効率を向上する。 FedMICは資源制約条件下での堅牢性と実用性を向上させる。 従来の医用画像分類作業において,4つの公開医用画像データセットを用いてFedMICの有効性を実証した。

Medical image classification plays a crucial role in computer-aided clinical diagnosis. While deep learning techniques have significantly enhanced efficiency and reduced costs, the privacy-sensitive nature of medical imaging data complicates centralized storage and model training. Furthermore, low-resource healthcare organizations face challenges related to communication overhead and efficiency due to increasing data and model scales. This paper proposes a novel privacy-preserving medical image classification framework based on federated learning to address these issues, named FedMIC. The framework enables healthcare organizations to learn from both global and local knowledge, enhancing local representation of private data despite statistical heterogeneity. It provides customized models for organizations with diverse data distributions while minimizing communication overhead and improving efficiency without compromising performance. Our FedMIC enhances robustness and practical applicability under resource-constrained conditions. We demonstrate FedMIC's effectiveness using four public medical image datasets for classical medical image classification tasks.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# FreeCG: 機械学習力場のためのClebsch-Gordan変換の設計空間

FreeCG: Free the Design Space of Clebsch-Gordan Transform for machine learning force field ( http://arxiv.org/abs/2407.02263v1 )

ライセンス: Link先を確認
Shihao Shao, Haoran Geng, Qinghua Cui, (参考訳) Clebsch-Gordan変換(CG変換)は、多体相互作用を効果的に符号化する。 多くの研究は、原子環境の描写においてその正確さを証明しているが、これは高い計算要求が伴っている。 この課題の計算負荷は、CG変換層の設計空間を制限する置換等式を必要とするため、低減が困難である。 置換不変入力にCG変換層を実装することにより、対称性に影響を与えることなく、この層の設計が完全に自由になることを示す。 この前提に基づいてさらに発展し、実際のエッジ情報から生成された置換不変抽象エッジで動作するCG変換層を作成する。 我々は,群CG変換をスパースパス,抽象エッジシャッフル,アテンションエンハンサーで実現し,強力かつ効率的なCG変換層を形成する。 提案手法はFreeCGと呼ばれ, MD17, rMD17, MD22の強制予測と, 顕著な拡張を伴うQM9データセットの特性予測を行う。 将来の幾何学的ニューラルネットワーク設計において、効率的かつ表現力のあるCG変換を実行するための新しいパラダイムを導入している。

The Clebsch-Gordan Transform (CG transform) effectively encodes many-body interactions. Many studies have proven its accuracy in depicting atomic environments, although this comes with high computational needs. The computational burden of this challenge is hard to reduce due to the need for permutation equivariance, which limits the design space of the CG transform layer. We show that, implementing the CG transform layer on permutation-invariant inputs allows complete freedom in the design of this layer without affecting symmetry. Developing further on this premise, our idea is to create a CG transform layer that operates on permutation-invariant abstract edges generated from real edge information. We bring in group CG transform with sparse path, abstract edges shuffling, and attention enhancer to form a powerful and efficient CG transform layer. Our method, known as FreeCG, achieves State-of-The-Art (SoTA) results in force prediction for MD17, rMD17, MD22, and property prediction in QM9 datasets with notable enhancement. It introduces a novel paradigm for carrying out efficient and expressive CG transform in future geometric neural network designs.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# SOAF:Scene Occlusion-aware Neural Acoustic Field

SOAF: Scene Occlusion-aware Neural Acoustic Field ( http://arxiv.org/abs/2407.02264v1 )

ライセンス: Link先を確認
Huiyu Gao, Jiahao Ma, David Ahmedt-Aristizabal, Chuong Nguyen, Miaomiao Liu, (参考訳) 本稿では,屋内シーンにおける任意の軌跡に沿った新規な映像合成の課題に対処する。 既存の手法では、部屋形状、特に音の伝搬に対する壁閉塞の影響を見落とし、マルチルーム環境では精度が低下する。 そこで本研究では,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。 提案手法は,距離対応パラメトリック音波伝搬モデルを用いて音場前処理を行い,入力映像から学習したシーンの透過率に基づいて変換する。 本研究では、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、方向認識型アテンション機構により、新しいビューのためのバイノーラルオーディオを生成する。 実データセット~\emph{RWAVS} と合成データセット〜\emph{SoundSpaces} に関する大規模な実験により,本手法が従来の音声生成技術よりも優れていたことを示す。 プロジェクトページ:https://github.com/huiyu-gao/SOAF/。

This paper tackles the problem of novel view audio-visual synthesis along an arbitrary trajectory in an indoor scene, given the audio-video recordings from other known trajectories of the scene. Existing methods often overlook the effect of room geometry, particularly wall occlusion to sound propagation, making them less accurate in multi-room environments. In this work, we propose a new approach called Scene Occlusion-aware Acoustic Field (SOAF) for accurate sound generation. Our approach derives a prior for sound energy field using distance-aware parametric sound-propagation modelling and then transforms it based on scene transmittance learned from the input video. We extract features from the local acoustic field centred around the receiver using a Fibonacci Sphere to generate binaural audio for novel views with a direction-aware attention mechanism. Extensive experiments on the real dataset~\emph{RWAVS} and the synthetic dataset~\emph{SoundSpaces} demonstrate that our method outperforms previous state-of-the-art techniques in audio generation. Project page: https://github.com/huiyu-gao/SOAF/.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# DrugCLIP: 医薬品再資源化のための対照的なドラッグ・ディスリーズ・インタラクション

DrugCLIP: Contrastive Drug-Disease Interaction For Drug Repurposing ( http://arxiv.org/abs/2407.02265v1 )

ライセンス: Link先を確認
Yingzhou Lu, Yaojun Hu, Chenhao Li, (参考訳) オリジナルのアイデアから新しい薬を市場に出すには、通常10年以上と何十億ドルもかかる。 重度の負担を軽減するため、承認された薬物を再利用して新しい病気の治療を行うことが自然な考えである。 このプロセスは、ドラッグ・リプレイスやドラッグ・リプレースとしても知られている。 機械学習手法は、薬物再資源の自動化に大きな可能性を示した。 しかし、ラベルの欠如やマルチモーダルな特徴表現など、いくつかの課題に直面している。 これらの課題に対処するため,我々は最先端のコントラスト学習手法であるD薬CLIPを設計し,陰性ラベルを使わずに薬物と疾患の相互作用を学習する。 さらに,実地臨床試験記録に基づく薬物再服用データセットのキュレーションを行った。 提案手法の有効性を検証するために, 詳細な実験的検討を行った。

Bringing a novel drug from the original idea to market typically requires more than ten years and billions of dollars. To alleviate the heavy burden, a natural idea is to reuse the approved drug to treat new diseases. The process is also known as drug repurposing or drug repositioning. Machine learning methods exhibited huge potential in automating drug repurposing. However, it still encounter some challenges, such as lack of labels and multimodal feature representation. To address these issues, we design DrugCLIP, a cutting-edge contrastive learning method, to learn drug and disease's interaction without negative labels. Additionally, we have curated a drug repurposing dataset based on real-world clinical trial records. Thorough empirical studies are conducted to validate the effectiveness of the proposed DrugCLIP method.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 分類器モデルにおけるデータのフットプリント:データの難読化によるプライバシー問題とその軽減

Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation ( http://arxiv.org/abs/2407.02268v1 )

ライセンス: Link先を確認
Payel Sadhukhan, Tanujit Chakraborty, (参考訳) AIデプロイメントの雪崩と、そのセキュリティとプライバシの懸念は、同じコインの2つの側面にある。 GDPRの第17条は、消去の権利を要求しており、その妥協を防ぐために、データはシステムから削除されなければならない。 この側面における現在の研究は、高感度なデータ属性に焦点をあてている。 しかし、データ妥協のいくつかのパッシブモードは、まだ認識され、再描画されていない。 予測モデルにトレーニングデータのフットプリントを埋め込むことは、テストデータとトレーニングデータのパフォーマンス品質の違いが、モデルをトレーニングしたデータの受動的識別を引き起こします。 この研究は、データフットプリントから生じる脆弱性に対処することに焦点を当てている。 すなわち、(脆弱性と非脆弱性を分離するために)異なる分類器の脆弱性を探索し、(データ難読化を通じて)脆弱な分類器の脆弱性を減らし、(データ難読化を通じて)モデルとデータのプライバシを保存すること、(データ難読化手法のユーザビリティを研究するために、プライバシとパフォーマンスのトレードオフを探索することである。 3つのデータセットと8つの分類器で実験を行い、上記の目的を探索する。 初期研究の結果、分類器の脆弱性を特定し、脆弱性のある非脆弱性分類器を分離する。 データ難読化技術に関する追加の実験では、データのレンダリングとプライバシのモデル化、およびほとんどのシナリオでプライバシとパフォーマンスのトレードオフを解消する能力が明らかにされている。 その結果、実践者が異なるシナリオやコンテキストで分類器を選択するのに役立ちます。

The avalanche of AI deployment and its security-privacy concerns are two sides of the same coin. Article 17 of GDPR calls for the Right to Erasure; data has to be obliterated from a system to prevent its compromise. Extant research in this aspect focuses on effacing sensitive data attributes. However, several passive modes of data compromise are yet to be recognized and redressed. The embedding of footprints of training data in a prediction model is one such facet; the difference in performance quality in test and training data causes passive identification of data that have trained the model. This research focuses on addressing the vulnerability arising from the data footprints. The three main aspects are -- i] exploring the vulnerabilities of different classifiers (to segregate the vulnerable and the non-vulnerable ones), ii] reducing the vulnerability of vulnerable classifiers (through data obfuscation) to preserve model and data privacy, and iii] exploring the privacy-performance tradeoff to study the usability of the data obfuscation techniques. An empirical study is conducted on three datasets and eight classifiers to explore the above objectives. The results of the initial research identify the vulnerability in classifiers and segregate the vulnerable and non-vulnerable classifiers. The additional experiments on data obfuscation techniques reveal their utility to render data and model privacy and also their capability to chalk out a privacy-performance tradeoff in most scenarios. The results can aid the practitioners with their choice of classifiers in different scenarios and contexts.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# IFTT-PIN:自己校正型PIN-Entry法

IFTT-PIN: A Self-Calibrating PIN-Entry Method ( http://arxiv.org/abs/2407.02269v1 )

ライセンス: Link先を確認
Kathryn McConkey, Talha Enes Ayranci, Mohamed Khamis, Jonathan Grizou, (参考訳) インターフェースをユーザのニーズや好みに合わせてパーソナライズすることは、しばしば追加のインタラクションステップを引き起こす。 本稿では,自己校正と呼ばれるプロセスを通じて,明示的な校正手順を必要とせずにインターフェースをパーソナライズする手法を実証する。 自己校正の2次効果は、外部のオブザーバーがユーザの行動を解釈できないため、ユーザが何を達成しようとしているかを容易に推測できないことである。 IFTT-PIN (If This Then PIN) を最初の自己校正型PIN-entry法として開発した。 IFTT-PINを使用する場合、ユーザーは選択をマシンに明示的に伝えることなく、任意の意味のボタンを自由に選択できる。 IFTT-PINは、ユーザのPINと好みのボタンマッピングの両方を同時に推測する。 本稿では,IFTT-PINの概念,実装,インタラクティブなデモンストレーション,肩サーフィン攻撃に対する評価について述べる。 既存のPINエントリメソッドに自己校正を加えることで、IFTT-PINは統計的にPIN攻撃復号率をcaで有意に低下させることが示された。 8.5倍(p=1.1e-9)だが、PINのエンコーディングレートはcaでしか低下しない。 1.4倍(p=0.02)のセキュリティと使いやすさのトレードオフをもたらす。 IFTT-PINのエントリーレートは、最初の露光後21日(p=3.6e-6)で大幅に改善され、当初未定義のユーザインタフェースを使用していたにもかかわらず、自己校正インタフェースは記憶可能であることが示唆された。 自己校正手法は、より包括的で汎用性の高いインタラクションの新たな機会につながり、コミュニティにとって潜在的に興味深い課題である。 短い紹介ビデオはhttps://youtu.be/pP5sfniNRns.comで公開されている。

Personalising an interface to the needs and preferences of a user often incurs additional interaction steps. In this paper, we demonstrate a novel method that enables the personalising of an interface without the need for explicit calibration procedures, via a process we call self-calibration. A second-order effect of self-calibration is that an outside observer cannot easily infer what a user is trying to achieve because they cannot interpret the user's actions. To explore this security angle, we developed IFTT-PIN (If This Then PIN) as the first self-calibrating PIN-entry method. When using IFTT-PIN, users are free to choose any button for any meaning without ever explicitly communicating their choice to the machine. IFTT-PIN infers both the user's PIN and their preferred button mapping at the same time. This paper presents the concept, implementation, and interactive demonstrations of IFTT-PIN, as well as an evaluation against shoulder surfing attacks. Our study (N=24) shows that by adding self-calibration to an existing PIN entry method, IFTT-PIN statistically significantly decreased PIN attack decoding rate by ca. 8.5 times (p=1.1e-9), while only decreasing the PIN entry encoding rate by ca. 1.4 times (p=0.02), leading to a positive security-usability trade-off. IFTT-PIN's entry rate significantly improved 21 days after first exposure (p=3.6e-6) to the method, suggesting self-calibrating interfaces are memorable despite using an initially undefined user interface. Self-calibration methods might lead to novel opportunities for interaction that are more inclusive and versatile, a potentially interesting challenge for the community. A short introductory video is available at https://youtu.be/pP5sfniNRns.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# プロトタイプベース継手埋め込み法によるソフトマックス分類器の説明可能性の向上

Improving Explainability of Softmax Classifiers Using a Prototype-Based Joint Embedding Method ( http://arxiv.org/abs/2407.02271v1 )

ライセンス: Link先を確認
Hilarie Sit, Brendan Keith, Karianne Bergen, (参考訳) 本稿では,プロトタイプの確率的サンプリングによって生成される予測信頼度を提供するソフトマックス分類器の説明可能性向上のためのプロトタイプベースアプローチを提案し,分布検出(OOD)の可能性を示す。 モデルアーキテクチャとトレーニングを変更して、トレーニングデータセットの任意のクラス例と類似性を利用して予測を行うことで、予測に寄与する原型例のサンプルを取得でき、モデルの決定に対するインスタンスベースの説明を提供する。 さらに,モデルの潜在空間内の相対距離からトレーニングデータセットから画像間の関係を学習することにより,分布データからソフトマックスの信頼性よりも検出可能な不確かさの指標を得る。

We propose a prototype-based approach for improving explainability of softmax classifiers that provides an understandable prediction confidence, generated through stochastic sampling of prototypes, and demonstrates potential for out of distribution detection (OOD). By modifying the model architecture and training to make predictions using similarities to any set of class examples from the training dataset, we acquire the ability to sample for prototypical examples that contributed to the prediction, which provide an instance-based explanation for the model's decision. Furthermore, by learning relationships between images from the training dataset through relative distances within the model's latent space, we obtain a metric for uncertainty that is better able to detect out of distribution data than softmax confidence.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 人間の知覚による人間の運動生成の調整

Aligning Human Motion Generation with Human Perceptions ( http://arxiv.org/abs/2407.02272v1 )

ライセンス: Link先を確認
Haoru Wang, Wentao Zhu, Luyi Miao, Yishu Xu, Feng Gao, Qi Tian, Yizhou Wang, (参考訳) 人間の動作生成は幅広い応用において重要な課題である。 生成した動きにおいて高いリアリズムを達成するには、自然さ、滑らかさ、そして可視性が必要である。 この分野の急速な進歩にもかかわらず、現在の世代法はしばしばこれらの目標を達成できない。 さらに、既存の評価指標は、典型的には地道的な誤り、単純なヒューリスティックス、あるいは分布距離に依存しており、運動品質の人間の知覚とうまく一致しない。 本研究では,大規模な人間の知覚評価データセットであるMotionPerceptと,人間の知覚的嗜好をキャプチャするMotionCriticを導入することで,このギャップを埋めるデータ駆動型アプローチを提案する。 我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供し、生成品質を高めるために、容易に運動生成パイプラインに統合することができる。 広汎な実験は、人間の知覚に合わせることで、生成した人間の動きの質を評価・改善するためのアプローチの有効性を実証する。 コードとデータはhttps://motioncritic.github.io/で公開されている。

Human motion generation is a critical task with a wide range of applications. Achieving high realism in generated motions requires naturalness, smoothness, and plausibility. Despite rapid advancements in the field, current generation methods often fall short of these goals. Furthermore, existing evaluation metrics typically rely on ground-truth-based errors, simple heuristics, or distribution distances, which do not align well with human perceptions of motion quality. In this work, we propose a data-driven approach to bridge this gap by introducing a large-scale human perceptual evaluation dataset, MotionPercept, and a human motion critic model, MotionCritic, that capture human perceptual preferences. Our critic model offers a more accurate metric for assessing motion quality and could be readily integrated into the motion generation pipeline to enhance generation quality. Extensive experiments demonstrate the effectiveness of our approach in both evaluating and improving the quality of generated human motions by aligning with human perceptions. Code and data are publicly available at https://motioncritic.github.io/.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 言語モデルにおける多言語トロリー問題

Multilingual Trolley Problems for Language Models ( http://arxiv.org/abs/2407.02273v1 )

ライセンス: Link先を確認
Zhijing Jin, Sydney Levine, Max Kleiman-Weiner, Giorgio Piatti, Jiarui Liu, Fernando Gonzalez Adauto, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf, (参考訳) 大規模言語モデル(LLM)はより現実的な状況に展開されるため、道徳的ジレンマに直面した際の意思決定を理解することが不可欠である。 人間の道徳的嗜好に関する大規模横断的な研究である「道徳的機械実験」に触発されて、私たちはLLMに対して同じ道徳的選択セットを設定した。 モラルジレンマの1Kヴィグネットをキー軸間でパラメトリックに変化させ,100以上の言語に翻訳し,それぞれの言語におけるLLMの嗜好を明らかにする。 次に、LLMの反応をこれらの言語の人間の話者の反応と比較し、4000万の人間の道徳的判断のデータセットを利用する。 LLMは英語、韓国語、ハンガリー語、中国語などの言語では人間の好みと一致しているが、ヒンディー語やソマリ語(アフリカ)では一致していない。 さらに, LLM が道徳的選択に与える説明を特徴付けるとともに, GPT-3 による GPT-4 の決定と実用主義の裏側には, 公平性が最も有力であることを示す。 また、モラル決定の一連のメタプロパティにおいて、"言語不平等(モデルが異なる言語の異なる開発レベルとして定義する)"も発見します。

As large language models (LLMs) are deployed in more and more real-world situations, it is crucial to understand their decision-making when faced with moral dilemmas. Inspired by a large-scale cross-cultural study of human moral preferences, "The Moral Machine Experiment", we set up the same set of moral choices for LLMs. We translate 1K vignettes of moral dilemmas, parametrically varied across key axes, into 100+ languages, and reveal the preferences of LLMs in each of these languages. We then compare the responses of LLMs to that of human speakers of those languages, harnessing a dataset of 40 million human moral judgments. We discover that LLMs are more aligned with human preferences in languages such as English, Korean, Hungarian, and Chinese, but less aligned in languages such as Hindi and Somali (in Africa). Moreover, we characterize the explanations LLMs give for their moral choices and find that fairness is the most dominant supporting reason behind GPT-4's decisions and utilitarianism by GPT-3. We also discover "language inequality" (which we define as the model's different development levels in different languages) in a series of meta-properties of moral decision making.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# プロセス産業におけるデジタル双生児のパラダイム学習とモデリング手法

Learning Paradigms and Modelling Methodologies for Digital Twins in Process Industry ( http://arxiv.org/abs/2407.02275v1 )

ライセンス: Link先を確認
Michael Mayr, Georgios C. Chasparis, Josef Küng, (参考訳) プロセス産業のデジタルトランスフォーメーションの中心は、Digital Twins(DT)、センサーデータと高度なデータベースまたは物理ベースのモデルを組み合わせた物理製造システムの仮想レプリカ、あるいはその組み合わせで、プロセス監視、予測制御、意思決定支援など、さまざまな産業関連タスクに取り組む。 DTのバックボーン、すなわち、これらのモデルをサポートする具体的なモデリング方法論とアーキテクチャフレームワークは、複雑で多様性があり、急速に進化し、最新の最先端の手法と競争の激しい市場のトップに留まる傾向を徹底的に理解する必要がある。 研究の観点からは、DTの様々な側面をレビューすることへの高い研究関心にもかかわらず、プロセス産業におけるDT作成のための活用学習パラダイム(例えば自己教師型学習)の非活性化に焦点を当てた構造化文学レポートは、この分野における新たな貢献である。 本研究の目的は,(1)モデル作成手法(例えば畳み込みニューラルネットワーク,エンコーダデコーダ,隠れマルコフモデル)とパラダイム(例えばデータ駆動型,物理ベース,ハイブリッド)を体系的に分析すること,(2)活用学習戦略(例えば教師なし,教師なし,自己監督型)を評価すること,(3)モデル作成タスクの種類(例えば回帰,分類,クラスタリング)を分析すること,(4)課題と研究ギャップを識別すること,に加えて,提案された解決可能性についても検討することである。

Central to the digital transformation of the process industry are Digital Twins (DTs), virtual replicas of physical manufacturing systems that combine sensor data with sophisticated data-based or physics-based models, or a combination thereof, to tackle a variety of industrial-relevant tasks like process monitoring, predictive control or decision support. The backbone of a DT, i.e. the concrete modelling methodologies and architectural frameworks supporting these models, are complex, diverse and evolve fast, necessitating a thorough understanding of the latest state-of-the-art methods and trends to stay on top of a highly competitive market. From a research perspective, despite the high research interest in reviewing various aspects of DTs, structured literature reports specifically focusing on unravelling the utilized learning paradigms (e.g. self-supervised learning) for DT-creation in the process industry are a novel contribution in this field. This study aims to address these gaps by (1) systematically analyzing the modelling methodologies (e.g. Convolutional Neural Network, Encoder-Decoder, Hidden Markov Model) and paradigms (e.g. data-driven, physics-based, hybrid) used for DT-creation; (2) assessing the utilized learning strategies (e.g. supervised, unsupervised, self-supervised); (3) analyzing the type of modelling task (e.g. regression, classification, clustering); and (4) identifying the challenges and research gaps, as well as, discuss potential resolutions provided.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# λ/2$サブスペーシングを用いたマジック波長ナノファイバー系二色双極子トラップの実現

Realization of a magic-wavelength nanofiber-based two-color dipole trap with sub-$λ/2$ spacing ( http://arxiv.org/abs/2407.02278v1 )

ライセンス: Link先を確認
Lucas Pache, Martin Cordier, Max Schemmer, Philipp Schneeweiss, Jürgen Volz, Arno Rauschenbeutel, (参考訳) セシウムD2ラインの共振波長の半分以下の間隔で周期的な1次元のトラップ部位を生成できる,マジック波長ナノファイバー系2色光双極子トラップの実現とその特性について報告する。 この目的のために、ナノファイバーを通して青色の偏波と赤色の2つの電界を発射する。 本研究では,3方向のトラップ周波数を計測し,理論的予測と良好な一致を観測することにより,配列中の原子のトラップ化を実証し,その結果のトラップ構成を特徴付ける。 マジックトラップ波長とサブラムダ/2$間隔を持つナノファイバーベースの光インタフェースの実装は、1次元原子配列における選択的放射率などの新しい放射効果の探索に向けた重要なステップである。

We report on the realization and characterization of a novel magic-wavelength nanofiber-based two-color optical dipole trap that allows us to generate a periodic one-dimensional array of trapping sites with a spacing significantly smaller than half of the resonant wavelength of the cesium D2-line. To this end, we launch a blue-detuned partial standing wave and two red-detuned light fields through the nanofiber. We demonstrate the trapping of atoms in the array and characterize the resulting trap configuration by measuring the trap frequencies in three directions and observe good agreement with theoretical predictions. The implementation of this nanofiber-based optical interface with magic trapping wavelengths and sub-$\lambda/2$ spacing is an important step towards the exploration of novel collective radiative effects such as selective radiance in 1D atomic arrays.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 損失関数の強化方法

How to Boost Any Loss Function ( http://arxiv.org/abs/2407.02279v1 )

ライセンス: Link先を確認
Richard Nock, Yishay Mansour, (参考訳) ブースティングは、弱い学習者のオラクルへのアクセスに基づいて、任意に良いモデルを計算的に効率よく学習し、ランダムな推測と少なくともわずかに異なる性能の分類器を提供する、高度に成功したML生まれの最適化設定である。 勾配ベースの最適化との大きな違いは、ブースティングのオリジナルのモデルが損失に関するファーストオーダー情報へのアクセスを必要としないことである。 このことは、損失関数をブーストで効率的に最適化できるのか、そして、ブループリントの要求を満たすためにブーストするのに本当に必要な情報は何か、という疑問を提起する。 古典的な$0^{th}$の順序設定では、損失関数は凸でも微分可能でもリプシッツでもなければならず、実際に連続でなくてもよいからである。我々が使っているいくつかのツールは量子計算に根付いていて、数理場は量子計算と融合するものではない - 極限を通さずに計算を勉強し、従って一階情報を用いない。

Boosting is a highly successful ML-born optimization setting in which one is required to computationally efficiently learn arbitrarily good models based on the access to a weak learner oracle, providing classifiers performing at least slightly differently from random guessing. A key difference with gradient-based optimization is that boosting's original model does not requires access to first order information about a loss, yet the decades long history of boosting has quickly evolved it into a first order optimization setting -- sometimes even wrongfully \textit{defining} it as such. Owing to recent progress extending gradient-based optimization to use only a loss' zeroth ($0^{th}$) order information to learn, this begs the question: what loss functions can be efficiently optimized with boosting and what is the information really needed for boosting to meet the \textit{original} boosting blueprint's requirements? We provide a constructive formal answer essentially showing that \textit{any} loss function can be optimized with boosting and thus boosting can achieve a feat not yet known to be possible in the classical $0^{th}$ order setting, since loss functions are not required to be be convex, nor differentiable or Lipschitz -- and in fact not required to be continuous either. Some tools we use are rooted in quantum calculus, the mathematical field -- not to be confounded with quantum computation -- that studies calculus without passing to the limit, and thus without using first order information.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# FedIA : 異種アノテーション完全性を伴う医用画像のフェデレーション

FedIA: Federated Medical Image Segmentation with Heterogeneous Annotation Completeness ( http://arxiv.org/abs/2407.02280v1 )

ライセンス: Link先を確認
Yangyang Xiang, Nannan Wu, Li Yu, Xin Yang, Kwang-Ting Cheng, Zengqiang Yan, (参考訳) フェデレーテッド・ラーニングは、特にプライバシーの懸念が高まる中で、医療画像セグメンテーションの魅力的なパラダイムとして登場した。 しかし、既存の研究のほとんどは、クライアント間のアノテーションの統一性と完全性に関する比較的厳密な仮定に依存している。 これとは対照的に,本論文では医療実践における課題として,不完全アノテーションを取り上げている。 このようなアノテーションは、誤ってラベル付けされたピクセルを導入することができ、教師付き学習におけるニューラルネットワークのパフォーマンスを損なう可能性がある。 この問題に対処するため,FedIAという新しいソリューションを紹介した。 我々の洞察は、不完全アノテーションをノイズの多いデータ(低品質データ)として概念化し、その悪影響を軽減することである。 まず、設計されたインジケータを使用して、クライアントレベルでアノテーションの完全性を評価することから始めます。 その後、より包括的なアノテーションでクライアントの影響を高め、不完全なアノテーションに対する修正を実装し、モデルが正確なデータに基づいてトレーニングされることを保証する。 提案手法の有効性は,2つの医用画像セグメント化データセットにおいて優れた性能を示し,既存のソリューションよりも優れていた。 コードはhttps://github.com/HUSTxyy/FedIAで入手できる。

Federated learning has emerged as a compelling paradigm for medical image segmentation, particularly in light of increasing privacy concerns. However, most of the existing research relies on relatively stringent assumptions regarding the uniformity and completeness of annotations across clients. Contrary to this, this paper highlights a prevalent challenge in medical practice: incomplete annotations. Such annotations can introduce incorrectly labeled pixels, potentially undermining the performance of neural networks in supervised learning. To tackle this issue, we introduce a novel solution, named FedIA. Our insight is to conceptualize incomplete annotations as noisy data (\textit{i.e.}, low-quality data), with a focus on mitigating their adverse effects. We begin by evaluating the completeness of annotations at the client level using a designed indicator. Subsequently, we enhance the influence of clients with more comprehensive annotations and implement corrections for incomplete ones, thereby ensuring that models are trained on accurate data. Our method's effectiveness is validated through its superior performance on two extensively used medical image segmentation datasets, outperforming existing solutions. The code is available at https://github.com/HUSTxyy/FedIA.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# 高比機能アップサンプリングのためのリフレッシュな類似性に基づくアップサンプリング

A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling ( http://arxiv.org/abs/2407.02283v1 )

ライセンス: Link先を確認
Minghao Zhou, Hong Wang, Yefeng Zheng, Deyu Meng, (参考訳) 機能アップサンプリングは、イメージセグメンテーションタスクにおいて、ほぼ全ての現在のネットワーク構造の基本的で必須の要素である。 近年,類似度に基づく高解像度機能アップサンプリングパイプラインが提案されており,局所的類似度に基づく低解像度機能アップサンプリングを支援するためのガイダンスとして高解像度機能を利用している。 有望なパフォーマンスを達成する一方で、このパイプラインには、次のような制限があります。 1)HRクエリとLRキー機能は整合性がない。 2) クエリキーの特徴の類似性は,固定内積形式に基づいて計算される。 3) 隣接選別はLR特性で粗い操作を行い, モザイク人工物が生じる。 これらの欠点は、このパイプラインに沿った既存のメソッドを主に階層的なネットワークアーキテクチャに適用し、ガイダンスとして反復的な特徴を持ち、特に直接的な高比のアップサンプリングのために、より広範な構造に容易に拡張できない。 問題に対して、我々はすべての方法論設計を慎重に最適化する。 具体的には、まず、セマンティック・アウェアとディテール・アウェアの両方の観点から明示的に制御可能なクエリキー機能アライメントを提案し、それからパラメータ化されたペア化された中央差分畳み込みブロックを構築し、よく整合したクエリキー機能間の類似性を柔軟に計算する。 さらに,モーザイクアーティファクトを緩和する上では単純だが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。 これらの注意深い設計に基づいて、リフレッシュされた類似性に基づく機能アップサンプリングフレームワークであるReSFUを体系的に構築する。 大規模な実験により,提案したReSFUは直接高比のアップサンプリング方式で様々なアーキテクチャに適用可能であることが確認された。

Feature upsampling is a fundamental and indispensable ingredient of almost all current network structures for image segmentation tasks. Recently, a popular similarity-based feature upsampling pipeline has been proposed, which utilizes a high-resolution feature as guidance to help upsample the low-resolution deep feature based on their local similarity. Albeit achieving promising performance, this pipeline has specific limitations: 1) HR query and LR key features are not well aligned; 2) the similarity between query-key features is computed based on the fixed inner product form; 3) neighbor selection is coarsely operated on LR features, resulting in mosaic artifacts. These shortcomings make the existing methods along this pipeline primarily applicable to hierarchical network architectures with iterative features as guidance and they are not readily extended to a broader range of structures, especially for a direct high-ratio upsampling. Against the issues, we meticulously optimize every methodological design. Specifically, we firstly propose an explicitly controllable query-key feature alignment from both semantic-aware and detail-aware perspectives, and then construct a parameterized paired central difference convolution block for flexibly calculating the similarity between the well-aligned query-key features. Besides, we develop a fine-grained neighbor selection strategy on HR features, which is simple yet effective for alleviating mosaic artifacts. Based on these careful designs, we systematically construct a refreshed similarity-based feature upsampling framework named ReSFU. Extensive experiments substantiate that our proposed ReSFU is finely applicable to various types of architectures in a direct high-ratio upsampling manner, and consistently achieves satisfactory performance on different segmentation applications, showing superior generality and ease of deployment.
翻訳日:2024-07-03 15:15:58 公開日:2024-07-02
# Renard: ナラティブテキストから文字ネットワークを抽出するモジュールパイプライン

Renard: A Modular Pipeline for Extracting Character Networks from Narrative Texts ( http://arxiv.org/abs/2407.02284v1 )

ライセンス: Link先を確認
Arthur Amalvy, Vincent Labatut, Richard Dufour, (参考訳) Renard (Relationships extract from NARrative Documents)はPythonのライブラリで、ユーザーはカスタム自然言語処理(NLP)パイプラインを定義でき、物語のテキストから文字ネットワークを抽出できる。 既存のツールとは対照的に、Renardは動的ネットワークだけでなく、より一般的な静的ネットワークも抽出できる。 レナードパイプラインはモジュラーであり、ユーザーは文字ネットワークを抽出するのに必要な各NLPサブタスクの実装を選択することができる。 これにより、ユーザーは特定のタイプのテキストにパイプラインを特化でき、各サブタスクが抽出されたネットワークに与える影響を調べることができる。

Renard (Relationships Extraction from NARrative Documents) is a Python library that allows users to define custom natural language processing (NLP) pipelines to extract character networks from narrative texts. Contrary to the few existing tools, Renard can extract dynamic networks, as well as the more common static networks. Renard pipelines are modular: users can choose the implementation of each NLP subtask needed to extract a character network. This allows users to specialize pipelines to particular types of texts and to study the impact of each subtask on the extracted network.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 逆気象下におけるロバストLiDARセマンティックセマンティックセグメンテーションのためのデータ拡張の再考

Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2407.02286v1 )

ライセンス: Link先を確認
Junsung Park, Kyungmin Kim, Hyunjung Shim, (参考訳) 既存のLiDARセマンティックセグメンテーション手法は、悪天候下での性能低下に苦慮することが多い。 これまでの研究では、悪天候をシミュレートしたり、トレーニング中に普遍的なデータ拡張を採用することでこの問題に対処してきた。 しかし, これらの手法は, 悪天候がLiDARセマンティックセグメンテーション性能に悪影響を及ぼすか, 詳細な分析と理解を欠いている。 本研究では, 大気中の霧や液滴による屈折による幾何学的摂動と, エネルギー吸収と閉塞による点降下の2つの要因を同定し, 性能劣化の主な原因を特定するための玩具実験を行った。 これらの知見に基づいて,新たな戦略的データ拡張手法を提案する。 まず、幾何学的摂動を模倣するために、ランダムな深さ(または角度)の点を揺らぐ選択ジッタリング(SJ)を紹介した。 さらに,Learnerable Point Drop (LPD) を開発し,悪天候からの点滴現象を近似するために,Deep Q-Learning Network を用いて脆弱な消去パターンを学習した。 これらの手法は、正確な気象シミュレーションを伴わず、データ中心分析によって同定された脆弱な条件に晒すことにより、LiDARセマンティックセマンティックセマンティックセマンティクスモデルを強化する。 実験により, 悪天候に対するロバスト性を高めるため, 提案手法の適合性を確認した。 提案手法はセマンティックKITTI-to-SemanticSTFベンチマークで39.5 mIoUの精度を達成し,従来の手法に比べて3倍に向上した。

Existing LiDAR semantic segmentation methods often struggle with performance declines in adverse weather conditions. Previous research has addressed this issue by simulating adverse weather or employing universal data augmentation during training. However, these methods lack a detailed analysis and understanding of how adverse weather negatively affects LiDAR semantic segmentation performance. Motivated by this issue, we identified key factors of adverse weather and conducted a toy experiment to pinpoint the main causes of performance degradation: (1) Geometric perturbation due to refraction caused by fog or droplets in the air and (2) Point drop due to energy absorption and occlusions. Based on these findings, we propose new strategic data augmentation techniques. First, we introduced a Selective Jittering (SJ) that jitters points in the random range of depth (or angle) to mimic geometric perturbation. Additionally, we developed a Learnable Point Drop (LPD) to learn vulnerable erase patterns with Deep Q-Learning Network to approximate the point drop phenomenon from adverse weather conditions. Without precise weather simulation, these techniques strengthen the LiDAR semantic segmentation model by exposing it to vulnerable conditions identified by our data-centric analysis. Experimental results confirmed the suitability of the proposed data augmentation methods for enhancing robustness against adverse weather conditions. Our method attains a remarkable 39.5 mIoU on the SemanticKITTI-to-SemanticSTF benchmark, surpassing the previous state-of-the-art by over 5.4%p, tripling the improvement over the baseline compared to previous methods achieved.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 認定デプロイにおけるCAA, CT, DANEインターリンクは有効か? : Web PKI測定による検討

Do CAA, CT, and DANE Interlink in Certificate Deployments? A Web PKI Measurement Study ( http://arxiv.org/abs/2407.02287v1 )

ライセンス: Link先を確認
Pouyan Fotouhi Tehrani, Raphael Hiesgen, Teresa Lübeck, Thomas C. Schmidt, Matthias Wählisch, (参考訳) X.509証明書に基づくWeb上の統合性と信頼。 これらの証明書の誤用や誤発行は、Web PKIセキュリティモデルを脅かし、いくつかのガード技術の開発につながった。 本稿では, DNS/DNSSECレコードCAAとTLSAとCTログを, 使用する証明書の観点から検討する。 我々の測定は400万のポピュラードメインで構成されており、異なる拡張の存在と一貫性について検討する。 DNSSECが保護するサービス名は,証明書の保護にDNSを使用しない傾向にある。 主に正式な方法でデプロイされているが、CAA CA文字列は選択的にCAを分離しない傾向にあり、多くのドメインがCAAセマンティクス以上の証明書を持っている。 TLSAレコードは、DNSSECを使わずに頻繁にメンテナンスされ、時々発生する。

Integrity and trust on the web build on X.509 certificates. Misuse or misissuance of these certificates threaten the Web PKI security model, which led to the development of several guarding techniques. In this paper, we study the DNS/DNSSEC records CAA and TLSA as well as CT logs from the perspective of the certificates in use. Our measurements comprise 4 million popular domains, for which we explore the existence and consistency of the different extensions. Our findings indicate that CAA is almost exclusively deployed in the absence of DNSSEC, while DNSSEC protected service names tend to not use the DNS for guarding certificates. Even though mainly deployed in a formally correct way, CAA CA-strings tend to not selectively separate CAs, and numerous domains hold certificates beyond the CAA semantic. TLSA records are repeatedly poorly maintained and occasionally occur without DNSSEC.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 無線ネットワークにおけるストラテジック・デマンド・プランニング:生成AIはスペクトルとエネルギーを節約できるか?

Strategic Demand-Planning in Wireless Networks: Can Generative-AI Save Spectrum and Energy? ( http://arxiv.org/abs/2407.02292v1 )

ライセンス: Link先を確認
Berk Çiloğlu, Görkem Berkay Koç, Afsoon Alidadi Shamsabadi, Metin Ozturk, Halim Yanikomeroglu, (参考訳) 無線通信は人工知能(AI)と密接に連携し、相互に相互に相互に連携し、相互に相互に相互に連携し、相互に連携し合う。 このシナジーは、AIネイティブと想定されるモバイルネットワーク(6G)の第6世代技術標準の開発において特に顕著である。 Generative-AI(GenAI)は、テキスト、画像、ビデオなど様々な種類の出力を生成できる新しい技術であり、その特徴を持つ無線通信において大きな可能性を秘めている。 伝統的に、従来のAI技術は予測、分類、最適化に使われてきた。 本稿では、需要ラベル付け、需要形成、需要再スケジューリングによる戦略的需要計画の概念を紹介する。 そのため、無線ネットワークにおける需要形成を容易にする強力なツールとして、GenAIが提案されている。 具体的には、GenAIは、セルスイッチング、ユーザアソシエーションとロードバランシング、干渉管理、災害シナリオ管理など、様々な利用シナリオにおける無線ネットワークの性能を向上させるため、様々な種類のコンテンツ(例えば、ビデオからテキストへの高帯域幅モードから低帯域へ)を圧縮・変換するために使用される。 したがって、GenAIは無線ネットワークにおけるエネルギーとスペクトルの節約に役立てることができる。 大規模言語モデルのような高度なアルゴリズムや、AIアクセラレータのようなAIタスク専用に開発されたより強力なハードウェアの開発など、AIの最近の進歩により、需要計画の概念、特にGenAIによる需要形成がますます重要になっている。 さらに、ユーザ端末などのデバイスでGenAIを利用できるようにしようとする最近の取り組みにより、この概念の実装はより簡単で実現可能になった。

Wireless communications advance hand-in-hand with artificial intelligence (AI), indicating an interconnected advancement where each facilitates and benefits from the other. This synergy is particularly evident in the development of the sixth-generation technology standard for mobile networks (6G), envisioned to be AI-native. Generative-AI (GenAI), a novel technology capable of producing various types of outputs, including text, images, and videos, offers significant potential for wireless communications, with its distinctive features. Traditionally, conventional AI techniques have been employed for predictions, classifications, and optimization, while GenAI has more to offer. This article introduces the concept of strategic demand-planning through demand-labeling, demand-shaping, and demand-rescheduling. Accordingly, GenAI is proposed as a powerful tool to facilitate demand-shaping in wireless networks. More specifically, GenAI is used to compress and convert the content of various kind (e.g., from a higher bandwidth mode to a lower one, such as from a video to text), which subsequently enhances performance of wireless networks in various usage scenarios such as cell-switching, user association and load balancing, interference management, and disaster scenarios management. Therefore, GenAI can serve a function in saving energy and spectrum in wireless networks. With recent advancements in AI, including sophisticated algorithms like large-language-models and the development of more powerful hardware built exclusively for AI tasks, such as AI accelerators, the concept of demand-planning, particularly demand-shaping through GenAI, becomes increasingly relevant. Furthermore, recent efforts to make GenAI accessible on devices, such as user terminals, make the implementation of this concept even more straightforward and feasible.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# CFinBench: 大規模言語モデルのための総合的な中国の金融ベンチマーク

CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models ( http://arxiv.org/abs/2407.02301v1 )

ライセンス: Link先を確認
Ying Nie, Binwei Yan, Tianyu Guo, Hao Liu, Haoyu Wang, Wei He, Binfan Zheng, Weihao Wang, Qiang Li, Weijian Sun, Yunhe Wang, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著なパフォーマンスを達成しているが、金融など、より困難でドメイン固有のタスクにおけるその可能性については、十分に調査されていない。 本稿では,中国におけるLCMの財務的知識を評価するため,CFinBenchについて述べる。 実際には、中国の金融実践者のキャリア軌跡と整合性を高めるため、(1)金融対象:LCMが経済、統計、監査といった金融対象の必要な基礎知識を記憶できるかどうか、という4つの第一段階のカテゴリーから体系的な評価を構築する。 2 財務資格: LLMが公認会計士、証券資格及び銀行資格等の必要な財務資格を取得できるか否か。 3 金融慣行:LLMが税務コンサルタント、ジュニア会計士及び証券アナリスト等の実務的金融業務を遂行できるか否か。 4 金融法:LLMが税法、保険法及び経済法等の金融法及び規制の要件を満たすことができるか否か。 CFinBenchは、43の第二レベルカテゴリにまたがる99,100の質問から成っている。 CFinBench 上で, 様々なモデルサイズを持つ 50 個の LLM を広範囲に実験した。 その結果、GPT4といくつかの中国指向モデルがこのベンチマークをリードしており、平均精度は60.16%であり、CFinBenchが提示した課題を浮き彫りにしている。 データセットと評価コードはhttps://cfinbench.github.io/.com/で公開されている。

Large language models (LLMs) have achieved remarkable performance on various NLP tasks, yet their potential in more challenging and domain-specific task, such as finance, has not been fully explored. In this paper, we present CFinBench: a meticulously crafted, the most comprehensive evaluation benchmark to date, for assessing the financial knowledge of LLMs under Chinese context. In practice, to better align with the career trajectory of Chinese financial practitioners, we build a systematic evaluation from 4 first-level categories: (1) Financial Subject: whether LLMs can memorize the necessary basic knowledge of financial subjects, such as economics, statistics and auditing. (2) Financial Qualification: whether LLMs can obtain the needed financial qualified certifications, such as certified public accountant, securities qualification and banking qualification. (3) Financial Practice: whether LLMs can fulfill the practical financial jobs, such as tax consultant, junior accountant and securities analyst. (4) Financial Law: whether LLMs can meet the requirement of financial laws and regulations, such as tax law, insurance law and economic law. CFinBench comprises 99,100 questions spanning 43 second-level categories with 3 question types: single-choice, multiple-choice and judgment. We conduct extensive experiments of 50 representative LLMs with various model size on CFinBench. The results show that GPT4 and some Chinese-oriented models lead the benchmark, with the highest average accuracy being 60.16%, highlighting the challenge presented by CFinBench. The dataset and evaluation code are available at https://cfinbench.github.io/.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# ChatGPTにおけるパラフレーズの人間の理解に向けて

Towards Human Understanding of Paraphrase Types in ChatGPT ( http://arxiv.org/abs/2407.02302v1 )

ライセンス: Link先を確認
Dominik Meier, Jan Philip Wahle, Terry Ruas, Bela Gipp, (参考訳) パラフレーズは、様々な方法で提示された表現を理解する人間の直感的な能力を表す。 言語モデルの現在のパラフレーズ評価は、主にバイナリアプローチを使用し、特定のテキスト変更の限定的な解釈性を提供する。 アトミック・パラフレーズ・タイプ(APT)は、パラフレーズを異なる言語的変化に分解し、言語表現の柔軟性(例えば、構文や語彙の変化)のきめ細かいビューを提供する。 本研究では,10のAPTと5つのプロンプト技術を用いた英語のパラフレーズ生成において,ChatGPTに対する人間の嗜好を評価する。 APTY(Atomic Paraphrase TYpes)は15のアノテーションによる500の文レベルのアノテーションと単語レベルのアノテーションのデータセットである。 データセットはまた、RLHFとDPOメソッドでモデルを微調整するために使用できる、異なるタイプのパラフレーズの人間の選好ランキングも提供する。 以上の結果から,ChatGPTは付加や削除などの単純なAPTを生成することができるが,複雑な構造(例えば,置換変化)に苦慮することが明らかとなった。 本研究は, 言い換え言語モデルのどの側面がすでに理解に成功し, 解明に寄与する。 さらに、我々のキュレートされたデータセットは、特定の言語機能を持つ言語モデルの開発に使用することができる。

Paraphrases represent a human's intuitive ability to understand expressions presented in various different ways. Current paraphrase evaluations of language models primarily use binary approaches, offering limited interpretability of specific text changes. Atomic paraphrase types (APT) decompose paraphrases into different linguistic changes and offer a granular view of the flexibility in linguistic expression (e.g., a shift in syntax or vocabulary used). In this study, we assess the human preferences towards ChatGPT in generating English paraphrases with ten APTs and five prompting techniques. We introduce APTY (Atomic Paraphrase TYpes), a dataset of 500 sentence-level and word-level annotations by 15 annotators. The dataset also provides a human preference ranking of paraphrases with different types that can be used to fine-tune models with RLHF and DPO methods. Our results reveal that ChatGPT can generate simple APTs, such as additions and deletions, but struggle with complex structures (e.g., subordination changes). This study contributes to understanding which aspects of paraphrasing language models have already succeeded at understanding and what remains elusive. In addition, our curated datasets can be used to develop language models with specific linguistic capabilities.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 行動予測のための意味的指導型表現学習

Semantically Guided Representation Learning For Action Anticipation ( http://arxiv.org/abs/2407.02309v1 )

ライセンス: Link先を確認
Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque, (参考訳) 行動予測は、部分的に観察された事象の連続から将来の活動を予測するタスクである。 しかし,本課題は本質的な将来不確実性や相互接続行動による推論の難しさに晒されている。 より優れた視覚的・時間的情報に焦点をあてる以前の研究とは異なり、私たちは、原型的行動パターンと文脈的共起に基づく意味的相互関係性を認識する行動表現の学習に重点を置いている。 そこで本研究では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。 S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。 S-GEARの有効性についての知見を得るため,S-GEARの有効性を4つのアクション予測ベンチマークで検証し,以前の研究と比較すると,+3.5,+2.7,+3.5絶対点がEpic-Kitchen 55,EGTEA Gaze+,50 Saladsで,+0.8はEpic-Kitchens 100で,+0.8はTop-5 Recallで,+3.5はEpic-Kitchens 100でそれぞれ,+3.5,+2.7,+3.5絶対点が得られた。 さらに、S-GEARは、アクション間の幾何学的関連を言語から視覚的プロトタイプへ効果的に転送する。 最後に、S-GEARは、アクションセマンティックコネクティビティの複雑な影響を実証することにより、予測タスクにおける新たな研究フロンティアを開放する。

Action anticipation is the task of forecasting future activity from a partially observed sequence of events. However, this task is exposed to intrinsic future uncertainty and the difficulty of reasoning upon interconnected actions. Unlike previous works that focus on extrapolating better visual and temporal information, we concentrate on learning action representations that are aware of their semantic interconnectivity based on prototypical action patterns and contextual co-occurrences. To this end, we propose the novel Semantically Guided Representation Learning (S-GEAR) framework. S-GEAR learns visual action prototypes and leverages language models to structure their relationship, inducing semanticity. To gather insights on S-GEAR's effectiveness, we test it on four action anticipation benchmarks, obtaining improved results compared to previous works: +3.5, +2.7, and +3.5 absolute points on Top-1 Accuracy on Epic-Kitchen 55, EGTEA Gaze+ and 50 Salads, respectively, and +0.8 on Top-5 Recall on Epic-Kitchens 100. We further observe that S-GEAR effectively transfers the geometric associations between actions from language to visual prototypes. Finally, S-GEAR opens new research frontiers in anticipation tasks by demonstrating the intricate impact of action semantic interconnectivity.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# LLMによる意味論的プロセスマイニング課題の解決能力の評価

Evaluating the Ability of LLMs to Solve Semantics-Aware Process Mining Tasks ( http://arxiv.org/abs/2407.02310v1 )

ライセンス: Link先を確認
Adrian Rebmann, Fabian David Schmidt, Goran Glavaš, Han van der Aa, (参考訳) プロセスマイニングコミュニティは最近、様々なプロセスマイニングタスクに取り組むための大規模言語モデル(LLM)の可能性を認識している。 最初の研究は、LCMがプロセス分析をサポートする能力、さらにはある程度は、プロセスがどのように機能するかを推論することができることを報告した。 この後者の特性は、LCMがプロセスの振る舞いを理解することの恩恵を受けるプロセスマイニングタスクに取り組むのにも使えることを示唆している。 そのようなタスクの例としては、(セマンティック)異常検出と次のアクティビティ予測があり、どちらも活動の意味とそれらの相互関係について考慮する。 本稿では,LLMがプロセスマイニングタスクに対処する能力について検討する。 さらに, LLMとプロセスマイニングの交わりに関する研究の多くは, これらのモデルを最初からテストすることのみに重点を置いているが, 本研究は, プロセスマイニングにおける LLMs の有用性について, 文脈内学習と教師付き微調整によるプロセスマイニング後の知識の獲得など, より原理的な調査を行っている。 具体的には、プロセスセマンティクスの理解から恩恵を受ける3つのプロセスマイニングタスクを定義し、それぞれに広範なベンチマークデータセットを提供する。 評価実験の結果,(1) LLM はプロセスマイニングの難解なタスクを最初から解決できず,(2) 少数の実例しか提供していないが,より小型のエンコーダベースの言語モデルに一貫して超越して,これらのタスクを微調整すると高い性能が得られることがわかった。

The process mining community has recently recognized the potential of large language models (LLMs) for tackling various process mining tasks. Initial studies report the capability of LLMs to support process analysis and even, to some extent, that they are able to reason about how processes work. This latter property suggests that LLMs could also be used to tackle process mining tasks that benefit from an understanding of process behavior. Examples of such tasks include (semantic) anomaly detection and next activity prediction, which both involve considerations of the meaning of activities and their inter-relations. In this paper, we investigate the capabilities of LLMs to tackle such semantics-aware process mining tasks. Furthermore, whereas most works on the intersection of LLMs and process mining only focus on testing these models out of the box, we provide a more principled investigation of the utility of LLMs for process mining, including their ability to obtain process mining knowledge post-hoc by means of in-context learning and supervised fine-tuning. Concretely, we define three process mining tasks that benefit from an understanding of process semantics and provide extensive benchmarking datasets for each of them. Our evaluation experiments reveal that (1) LLMs fail to solve challenging process mining tasks out of the box and when provided only a handful of in-context examples, (2) but they yield strong performance when fine-tuned for these tasks, consistently surpassing smaller, encoder-based language models.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# VFIMamba: 状態空間モデルによるビデオフレーム補間

VFIMamba: Video Frame Interpolation with State Space Models ( http://arxiv.org/abs/2407.02315v1 )

ライセンス: Link先を確認
Guozhen Zhang, Chunxu Liu, Yutao Cui, Xiaotong Zhao, Kai Ma, Limin Wang, (参考訳) フレーム間モデリングは、ビデオフレーム補間(VFI)のための中間フレームを生成する上で重要である。 現在のアプローチは、畳み込みや注意に基づくモデルに大きく依存している。 最近、S6(Selective State Space Models)が登場し、長いシーケンスモデリングに特化して、線形複雑性とデータ依存モデリング機能を提供している。 本稿では,S6モデルを用いたフレーム間モデリングのための新しいフレーム補間手法であるVFIMambaを提案する。 提案手法では,Mixed-SSM Block (MSB)を導入し,最初は隣接するフレームからインターリーブ方式でトークンを並べ替え,その後,多方向S6モデリングを適用した。 この設計は、線形複雑性を保ちながら、フレーム間の情報の効率的な伝達を容易にする。 さらに,S6モデルの可能性を完全に解き放ちつつ,異なる動きの規模でフレーム間ダイナミクスをモデル化する習熟度を漸進的に育成する新しいカリキュラム学習戦略を導入する。 実験結果から,本手法は多種多様なベンチマーク,特に高解像度シナリオにおいて,最先端の性能を達成できることが判明した。 特に、X-TESTデータセットでは、VFIMambaは4Kフレームで0.80dB、2Kフレームで0.96dBという注目すべき改善を示している。

Inter-frame modeling is pivotal in generating intermediate frames for video frame interpolation (VFI). Current approaches predominantly rely on convolution or attention-based models, which often either lack sufficient receptive fields or entail significant computational overheads. Recently, Selective State Space Models (S6) have emerged, tailored specifically for long sequence modeling, offering both linear complexity and data-dependent modeling capabilities. In this paper, we propose VFIMamba, a novel frame interpolation method for efficient and dynamic inter-frame modeling by harnessing the S6 model. Our approach introduces the Mixed-SSM Block (MSB), which initially rearranges tokens from adjacent frames in an interleaved fashion and subsequently applies multi-directional S6 modeling. This design facilitates the efficient transmission of information across frames while upholding linear complexity. Furthermore, we introduce a novel curriculum learning strategy that progressively cultivates proficiency in modeling inter-frame dynamics across varying motion magnitudes, fully unleashing the potential of the S6 model. Experimental findings showcase that our method attains state-of-the-art performance across diverse benchmarks, particularly excelling in high-resolution scenarios. In particular, on the X-TEST dataset, VFIMamba demonstrates a noteworthy improvement of 0.80 dB for 4K frames and 0.96 dB for 2K frames.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 言語伝達のためのソフト言語プロンプト

Soft Language Prompts for Language Transfer ( http://arxiv.org/abs/2407.02317v1 )

ライセンス: Link先を確認
Ivan Vykopal, Simon Ostermann, Marián Šimko, (参考訳) 自然言語処理(NLP)では,言語間の知識伝達,特に高次言語と低次言語の間での知識伝達が課題となっている。 本研究では,パラメータ効率のよい微調整法を組み合わせることで,言語間NLPアプリケーションを改善するための知見を提供する。 言語固有のアダプタとタスク固有のアダプタとソフトプロンプトを組み込むことにより、言語間移動を強化する戦略を体系的に検討する。 本稿では,これらの手法の様々な組み合わせを詳細に検討し,その効率性を6言語にわたって探求し,ソフト言語プロンプトの活用に関する知識を含む3つの低リソース言語に焦点をあてる。 我々の研究結果は,従来の作業と対照的に,言語とタスクアダプタの組み合わせは必ずしも最適ではなく,ソフト言語プロンプトとタスクアダプタの組み合わせは,多くの場合,他の構成よりも優れていることを示している。

Cross-lingual knowledge transfer, especially between high- and low-resource languages, remains a challenge in natural language processing (NLP). This study offers insights for improving cross-lingual NLP applications through the combination of parameter-efficient fine-tuning methods. We systematically explore strategies for enhancing this cross-lingual transfer through the incorporation of language-specific and task-specific adapters and soft prompts. We present a detailed investigation of various combinations of these methods, exploring their efficiency across six languages, focusing on three low-resource languages, including the to our knowledge first use of soft language prompts. Our findings demonstrate that in contrast to claims of previous work, a combination of language and task adapters does not always work best; instead, combining a soft language prompt with a task adapter outperforms other configurations in many cases.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 非ラテンスクリプトで書かれた低リソース言語におけるインテクスト学習における文字化の役割を探る

Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts ( http://arxiv.org/abs/2407.02320v1 )

ライセンス: Link先を確認
Chunlan Ma, Yihong Liu, Haotian Ye, Hinrich Schütze, (参考訳) デコーダのみの大規模言語モデル (LLM) は、少数ショットやゼロショットのインコンテキスト学習 (ICL) を通じて、様々なタスクにまたがるハイリソース言語で優れている。 しかしながら、そのパフォーマンスは低リソース言語、特に非ラテン語スクリプトで書かれた言語によく伝達されないことが多い。 本研究は,エンコーダのみのモデルにおける文字変換を利用した最近の研究に触発され,非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも有効かどうかを考察する。 そこで本研究では,(1) の原文,(2) ラテン文字,(3) の双方に対象言語テキストを表現した3つのプロンプトテンプレートを提案する。 テキスト分類やシーケンシャルラベリングなど,様々なタスクにおいて異なる大きさの複数の代表LLMに対して,これらの手法を適用した。 本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。 例えば、すべてのモデルはシーケンシャルなラベリング(25%まで増加する)の文字化の恩恵を受ける。

Decoder-only large language models (LLMs) excel in high-resource languages across various tasks through few-shot or even zero-shot in-context learning (ICL). However, their performance often does not transfer well to low-resource languages, especially those written in non-Latin scripts. Inspired by recent work that leverages transliteration in encoder-only models, we investigate whether transliteration is also effective in improving LLMs' performance for low-resource languages written in non-Latin scripts. To this end, we propose three prompt templates, where the target-language text is represented in (1) its original script, (2) Latin script, or (3) both. We apply these methods to several representative LLMs of different sizes on various tasks including text classification and sequential labeling. Our findings show that the effectiveness of transliteration varies by task type and model size. For instance, all models benefit from transliterations for sequential labeling (with increases of up to 25%).
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 最小二乗確率勾配の確率微分方程式モデル

Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent ( http://arxiv.org/abs/2407.02322v1 )

ライセンス: Link先を確認
Adrien Schertzer, Loucas Pillaud-Vivien, (参考訳) 最小二乗問題に対する確率勾配 Descent (SGD) の連続時間モデルのダイナミクスについて検討する。 実際、Li et al (2019) の研究を追求し、SGDをモデル化する確率微分方程式(SDEs)を分析し、トレーニング損失(有限サンプル)と人口1(オンライン設定)のいずれにおいても、SGDをモデル化する。 力学の重要な定性的特徴は、サンプルサイズに関係なく、データの完全な補間子の存在である。 どちらのシナリオでも、定常分布(おそらく退化)への収束の正確で非漸近的な速度を提供する。 さらに、この漸近分布を記述し、その平均値の推定、それからの偏差、およびステップサイズ等級に関連する重みの出現の証明を提供する。 また,本研究を裏付ける数値シミュレーションも行った。

We study the dynamics of a continuous-time model of the Stochastic Gradient Descent (SGD) for the least-square problem. Indeed, pursuing the work of Li et al. (2019), we analyze Stochastic Differential Equations (SDEs) that model SGD either in the case of the training loss (finite samples) or the population one (online setting). A key qualitative feature of the dynamics is the existence of a perfect interpolator of the data, irrespective of the sample size. In both scenarios, we provide precise, non-asymptotic rates of convergence to the (possibly degenerate) stationary distribution. Additionally, we describe this asymptotic distribution, offering estimates of its mean, deviations from it, and a proof of the emergence of heavy-tails related to the step-size magnitude. Numerical simulations supporting our findings are also presented.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# QSync: ハイブリッドデバイス間の量子化最小化同期分散トレーニング

QSync: Quantization-Minimized Synchronous Distributed Training Across Hybrid Devices ( http://arxiv.org/abs/2407.02327v1 )

ライセンス: Link先を確認
Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Yibo Zhu, Chuan Wu, (参考訳) 多くのプロダクションディープラーニングクラスタが、DNNトレーニングのための推論ハードウェアを、多くの推論GPUをアイドリングするオフピークサービス時間で探索しようと試みている。 ハイブリッドデバイストレーニングとして知られるヘテロジニアストレーニングと推論GPUの組み合わせによるDNNトレーニングの実行は、計算能力の相違とメモリ容量の大きな違いにより、かなりの課題を提起する。 量子化演算子を戦略的に活用することにより、ハイブリッドデバイス上での効率的な同期データ並列DNNトレーニングを可能にするトレーニングシステムであるQSyncを提案する。 各デバイスの利用可能なリソース容量に応じて、QSyncは分散DNNトレーニンググラフ内の演算子に対する量子化最小設定を選択し、モデルの精度の劣化を最小限にするが、量子化によってもたらされるトレーニング効率は維持する。 固定点および浮動小数点演算子上のDNN層の感度を反映する双方向混合精度指標を備えた予測器を慎重に設計し,分散ハイブリッド混合精度訓練の遅延を正確に推定する近傍対応コストマッパーを備えたリポレイラと,モデル精度の劣化を最小限に抑えた作業者を効率的に同期するアロケータを設計する。 QSyncはPyTorch上の計算グラフを、量子化カーネルのパフォーマンスとさまざまなGPUアーキテクチャの柔軟なサポートのために最適化されたバックエンドにブリッジする。 広範囲な実験により、QSyncの予測器は分散混合精度トレーニングを5%の誤差で正確にシミュレートできることがわかった。

A number of production deep learning clusters have attempted to explore inference hardware for DNN training, at the off-peak serving hours with many inference GPUs idling. Conducting DNN training with a combination of heterogeneous training and inference GPUs, known as hybrid device training, presents considerable challenges due to disparities in compute capability and significant differences in memory capacity. We propose QSync, a training system that enables efficient synchronous data-parallel DNN training over hybrid devices by strategically exploiting quantized operators. According to each device's available resource capacity, QSync selects a quantization-minimized setting for operators in the distributed DNN training graph, minimizing model accuracy degradation but keeping the training efficiency brought by quantization. We carefully design a predictor with a bi-directional mixed-precision indicator to reflect the sensitivity of DNN layers on fixed-point and floating-point low-precision operators, a replayer with a neighborhood-aware cost mapper to accurately estimate the latency of distributed hybrid mixed-precision training, and then an allocator that efficiently synchronizes workers with minimized model accuracy degradation. QSync bridges the computational graph on PyTorch to an optimized backend for quantization kernel performance and flexible support for various GPU architectures. Extensive experiments show that QSync's predictor can accurately simulate distributed mixed-precision training with <5% error, with a consistent 0.27-1.03% accuracy improvement over the from-scratch training tasks compared to uniform precision.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# 効率的なスパースアテンションは適応型トークンリリースを必要とする

Efficient Sparse Attention needs Adaptive Token Release ( http://arxiv.org/abs/2407.02328v1 )

ライセンス: Link先を確認
Chaoran Zhang, Lixin Zou, Dan Luo, Min Tang, Xiangyang Luo, Zihao Li, Chenliang Li, (参考訳) 近年、Large Language Models (LLM) は、幅広いテキスト中心のタスクで顕著な機能を示している。 しかし、その「大規模」スケールは、特に変圧器のキー値状態の管理において、計算と記憶に重大な課題をもたらすため、適用性が制限される。 そこで本研究では,キャッシュからリソースを適応的に解放し,必要なキー値状態の再構築を提案する。 特に,これを軽量のコントローラモジュールで実現し,理想のトップ-$K$スパース・アテンションを近似する。 このモジュールはトークンを最高額のK$アテンションウェイトで保持し、捨てられたが必要なトークンを同時に再構築する。 自然言語生成とモデリングの総合的な実験により,本手法は性能面での注意と競合するだけでなく,最大221.8%のスループット向上を実現していることが明らかとなった。 レプリケーションのコードはhttps://github.com/WHUIR/ADOREで公開されている。

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide array of text-centric tasks. However, their `large' scale introduces significant computational and storage challenges, particularly in managing the key-value states of the transformer, which limits their wider applicability. Therefore, we propose to adaptively release resources from caches and rebuild the necessary key-value states. Particularly, we accomplish this by a lightweight controller module to approximate an ideal top-$K$ sparse attention. This module retains the tokens with the highest top-$K$ attention weights and simultaneously rebuilds the discarded but necessary tokens, which may become essential for future decoding. Comprehensive experiments in natural language generation and modeling reveal that our method is not only competitive with full attention in terms of performance but also achieves a significant throughput improvement of up to 221.8%. The code for replication is available on the https://github.com/WHUIR/ADORE.
翻訳日:2024-07-03 15:06:12 公開日:2024-07-02
# MIGC++:画像合成のための高度なマルチインスタンス生成制御

MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis ( http://arxiv.org/abs/2407.02329v1 )

ライセンス: Link先を確認
Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang, (参考訳) マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当て、それぞれがカテゴリ、色、形状などの属性を予め定義された位置に正確に配置され、厳密にユーザ仕様に従う。 MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。 属性リークに対処するため,MIGC(Multi-Instance Generation Controller)を提案する。 MIGCはパーティション・アンド・コンカ戦略を通じて複数のインスタンスを生成し、マルチインスタンスシェーディングを特異属性を持つ単一インスタンスタスクに分割し、後に統合する。 より多くのタイプのインスタンス記述を提供するため、MIGC++を開発した。 MIGC++はテキスト \&イメージによる属性制御とボックス \&マスクによる位置制御を可能にする。 最後に,MIGCとMIGC++の反復MIG能力を向上するConsistent-MIGアルゴリズムを導入した。 このアルゴリズムは、インスタンスの追加、削除、修正の間、未修正領域の一貫性を保証する。 これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。 提案手法はCOCO-PositionベンチマークやDrawBenchとともに,従来の手法よりもはるかに優れており,位置,属性,量といった側面の精密な制御を維持していることを示す。 プロジェクトページ:https://github.com/limuloo/MIGC。

We introduce the Multi-Instance Generation (MIG) task, which focuses on generating multiple instances within a single image, each accurately placed at predefined positions with attributes such as category, color, and shape, strictly following user specifications. MIG faces three main challenges: avoiding attribute leakage between instances, supporting diverse instance descriptions, and maintaining consistency in iterative generation. To address attribute leakage, we propose the Multi-Instance Generation Controller (MIGC). MIGC generates multiple instances through a divide-and-conquer strategy, breaking down multi-instance shading into single-instance tasks with singular attributes, later integrated. To provide more types of instance descriptions, we developed MIGC++. MIGC++ allows attribute control through text \& images and position control through boxes \& masks. Lastly, we introduced the Consistent-MIG algorithm to enhance the iterative MIG ability of MIGC and MIGC++. This algorithm ensures consistency in unmodified regions during the addition, deletion, or modification of instances, and preserves the identity of instances when their attributes are changed. We introduce the COCO-MIG and Multimodal-MIG benchmarks to evaluate these methods. Extensive experiments on these benchmarks, along with the COCO-Position benchmark and DrawBench, demonstrate that our methods substantially outperform existing techniques, maintaining precise control over aspects including position, attribute, and quantity. Project page: https://github.com/limuloo/MIGC.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# LLaVAビジョンランゲージモデルはなぜ英語で画像に応答するのか?

Why do LLaVA Vision-Language Models Reply to Images in English? ( http://arxiv.org/abs/2407.02333v1 )

ライセンス: Link先を確認
Musashi Hinck, Carolin Holtermann, Matthew Lyle Olson, Florian Schneider, Sungduk Yu, Anahita Bhiwandiwalla, Anne Lauscher, Shaoyen Tseng, Vasudev Lal, (参考訳) 一般的なマルチモーダル視覚言語モデル(VLM)で発生する驚くべき多言語バイアスを明らかにする。 LLaVAスタイルのVLMにクエリに画像を含めると、クエリの言語に関係なく、そのモデルが英語の応答を返す可能性が著しく高くなる。 本稿では,この損失の原因を,デザイン空間の広範囲なアブレーションと,モデルの内部表現とテキスト入力の力学的解析を組み合わせた2段階のアプローチで検討する。 どちらのアプローチも、問題はLLaVAモデルの言語モデリングコンポーネントに起因していることを示している。 統計的には、言語バックボーンをバイリンガル言語モデルに切り替えることは、このエラーを減らす上で最も強い効果がある。 機械学的には、視覚的な入力がテキストと同じ空間にマッピングされず、中間的な注意層に介入することで、このバイアスを軽減できるという説得力のある証拠を提供する。 本研究は,多言語空間と多言語空間の交叉を理解するために研究者や技術者に重要な洞察を与え,非英語文脈における有能かつ包括的なVLMの開発に寄与する。

We uncover a surprising multilingual bias occurring in a popular class of multimodal vision-language models (VLMs). Including an image in the query to a LLaVA-style VLM significantly increases the likelihood of the model returning an English response, regardless of the language of the query. This paper investigates the causes of this loss with a two-pronged approach that combines extensive ablation of the design space with a mechanistic analysis of the models' internal representations of image and text inputs. Both approaches indicate that the issue stems in the language modelling component of the LLaVA model. Statistically, we find that switching the language backbone for a bilingual language model has the strongest effect on reducing this error. Mechanistically, we provide compelling evidence that visual inputs are not mapped to a similar space as text ones, and that intervening on intermediary attention layers can reduce this bias. Our findings provide important insights to researchers and engineers seeking to understand the crossover between multimodal and multilingual spaces, and contribute to the goal of developing capable and inclusive VLMs for non-English contexts.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# CALICO: 統合校正によるアクティブラーニングの信頼

CALICO: Confident Active Learning with Integrated Calibration ( http://arxiv.org/abs/2407.02335v1 )

ライセンス: Link先を確認
Lorenzo S. Querol, Hajime Nagahara, Hideaki Hayashi, (参考訳) 医療画像などの安全クリティカルなアプリケーションにおけるディープラーニングの利用の増加は、限られたラベル付きデータに対する懸念を高めている。 これに対応するために、アクティブラーニング(AL)は、限られたアノテーションコストでモデルを効率的に訓練するために使用される。 ディープニューラルネットワーク(DNN)の文脈では、ALは最も情報性の高いサンプルを選択するためのスコアとして、信頼度や確率出力を使用することが多い。 しかし、現代のDNNは信頼性の低い出力を示し、キャリブレーションが不可欠である。 本稿では,統合カリブラティオン(CALICO)を用いた信頼度学習(Confident Active Learning with Integrated CalibratiOn)と呼ばれる,トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。 CALICOは、標準ソフトマックス分類器の代わりに、分類器とエネルギーモデルの共同訓練を取り入れている。 このアプローチは、トレーニング中の入力データ分布とクラス確率の同時推定を可能にし、追加のラベル付きデータセットを必要とせずにキャリブレーションを改善する。 実験の結果,ラベル付きサンプルが少ないソフトマックス型分類器と比較して,分類性能が向上した。 さらに、モデルのキャリブレーション安定性は、データの前のクラス分布に依存することが観察される。

The growing use of deep learning in safety-critical applications, such as medical imaging, has raised concerns about limited labeled data, where this demand is amplified as model complexity increases, posing hurdles for domain experts to annotate data. In response to this, active learning (AL) is used to efficiently train models with limited annotation costs. In the context of deep neural networks (DNNs), AL often uses confidence or probability outputs as a score for selecting the most informative samples. However, modern DNNs exhibit unreliable confidence outputs, making calibration essential. We propose an AL framework that self-calibrates the confidence used for sample selection during the training process, referred to as Confident Active Learning with Integrated CalibratiOn (CALICO). CALICO incorporates the joint training of a classifier and an energy-based model, instead of the standard softmax-based classifier. This approach allows for simultaneous estimation of the input data distribution and the class probabilities during training, improving calibration without needing an additional labeled dataset. Experimental results showcase improved classification performance compared to a softmax-based classifier with fewer labeled samples. Furthermore, the calibration stability of the model is observed to depend on the prior class distribution of the data.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# イベントログにおけるベストプラクティス違反検出のための参照プロセスモデルからのマイニング制約

Mining Constraints from Reference Process Models for Detecting Best-Practice Violations in Event Log ( http://arxiv.org/abs/2407.02336v1 )

ライセンス: Link先を確認
Adrian Rebmann, Timotheus Kampik, Carl Corea, Han van der Aa, (参考訳) プロセスマイニングの主要な課題のひとつとして,望ましくないプロセスの振る舞いを検出する手法が開発されている。 これらの技術は一般的に、入力として規範的なプロセスモデルを必要とし、特に分析対象のプロセスのために設計されている。 しかし、そのようなモデルはほとんど利用できず、それらの作成にはかなりの手作業が必要であり、しかしながら、参照プロセスモデルは、多くのドメインにおいて組織プロセスのためのベストプラクティスのテンプレートとして機能し、よくエンジニアリングされたプロセスにおける一般的な行動関係に関する貴重な知識を含んでいる。 これらの一般的なモデルは、望ましくない振る舞いをチェックする基盤を提供することで、専用モデルの必要性を軽減することができる。 それでも、実際のイベントログに完全に一致する参照モデルを見つけるのは現実的ではありません。 さらに、イベントログは異なる参照モデルに関連する振る舞いを包含する可能性があり、個々のモデルにプロセスの実行を整合させる必要があるため、従来の適合性チェックは実行不可能である。 本稿では、参照モデルを用いて、参照モデルコレクションから宣言的ベストプラクティス制約を抽出し、所定のイベントログに関連する制約を自動的に選択し、ベストプラクティス違反をチェックするためのフレームワークを提案する。 本稿では,実世界のプロセスモデルコレクションとイベントログに基づく評価により,ベストプラクティス違反を検出するフレームワークの能力を実証する。

Detecting undesired process behavior is one of the main tasks of process mining and various conformance-checking techniques have been developed to this end. These techniques typically require a normative process model as input, specifically designed for the processes to be analyzed. Such models are rarely available, though, and their creation involves considerable manual effort.However, reference process models serve as best-practice templates for organizational processes in a plethora of domains, containing valuable knowledge about general behavioral relations in well-engineered processes. These general models can thus mitigate the need for dedicated models by providing a basis to check for undesired behavior. Still, finding a perfectly matching reference model for a real-life event log is unrealistic because organizational needs can vary, despite similarities in process execution. Furthermore, event logs may encompass behavior related to different reference models, making traditional conformance checking impractical as it requires aligning process executions to individual models. To still use reference models for conformance checking, we propose a framework for mining declarative best-practice constraints from a reference model collection, automatically selecting constraints that are relevant for a given event log, and checking for best-practice violations. We demonstrate the capability of our framework to detect best-practice violations through an evaluation based on real-world process model collections and event logs.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# アゼルバイジャン語のためのオープン基盤モデル

Open foundation models for Azerbaijani language ( http://arxiv.org/abs/2407.02337v1 )

ライセンス: Link先を確認
Jafar Isbarov, Kavsar Huseynova, Elvin Mammadov, Mammad Hajili, (参考訳) 多言語大言語モデルの出現は、アゼルバイジャンにおける言語理解と生成システムの開発を可能にした。 しかしながら、プロダクショングレードのシステムのほとんどは、GPT-4のようなクラウドソリューションに依存している。 アゼルバイジャンのオープン・ファンデーション・モデルを開発する試みはいくつかあるが、これらの研究は体系的なベンチマークが欠如しているため、一般的には使われていない。 本稿では,アゼルバイジャンのオープンソース基盤モデルを推進しているいくつかの取り組みについて述べる。 本稿では,(1)アゼルバイジャン語のための大規模なテキストコーパス,(2)このデータセットで訓練されたエンコーダのみの言語モデル群,(3)これらのモデルを評価するためのラベル付きデータセット,(4)アゼルバイジャン語をサポートする主要なオープンソースモデルすべてをカバーする広範な評価について紹介する。

The emergence of multilingual large language models has enabled the development of language understanding and generation systems in Azerbaijani. However, most of the production-grade systems rely on cloud solutions, such as GPT-4. While there have been several attempts to develop open foundation models for Azerbaijani, these works have not found their way into common use due to a lack of systemic benchmarking. This paper encompasses several lines of work that promote open-source foundation models for Azerbaijani. We introduce (1) a large text corpus for Azerbaijani, (2) a family of encoder-only language models trained on this dataset, (3) labeled datasets for evaluating these models, and (4) extensive evaluation that covers all major open-source models with Azerbaijani support.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# RVISA:不必要感性分析のための推論と検証

RVISA: Reasoning and Verification for Implicit Sentiment Analysis ( http://arxiv.org/abs/2407.02340v1 )

ライセンス: Link先を確認
Wenna Lai, Haoran Xie, Guandong Xu, Qing Li, (参考訳) 微粒な感情分析(SA)に対する社会的需要が増大する中、暗黙的な感情分析(ISA)は、表現に有能な口語が欠如していることで大きな課題となる。 感情がどのように刺激され、暗黙の感情が決定されるかを理解するためには、信頼できる推論が必要である。 LLM (Large Language Models) の時代、エンコーダ・デコーダ (ED) LLM は様々なタスクのテキスト理解と推論能力を考慮して、SAアプリケーションのバックボーンモデルとして人気を集めている。 一方、Decoder-only (DO) LLMは、優れた自然言語生成能力とコンテキスト内学習能力を示す。 しかし、その応答には誤った情報や不正確な情報が含まれる可能性がある。 そこで本研究では,DO LLMの生成能力とED LLMの推論能力を利用した2段階推論フレームワークであるRVISAを提案する。 具体的には、感情的要素を手がかりとして明確に表現することを促す3つのホップ推論を採用する。 生成された理性を利用してED LLMを熟練した理性体に微調整する。 さらに、推論学習の信頼性を確保するため、単純かつ効果的な検証機構を開発する。 提案手法を2つのベンチマークデータセット上で評価し,ISA性能の最先端化を実現した。

With an increasing social demand for fine-grained sentiment analysis (SA), implicit sentiment analysis (ISA) poses a significant challenge with the absence of salient cue words in expressions. It necessitates reliable reasoning to understand how the sentiment is aroused and thus determine implicit sentiments. In the era of Large Language Models (LLMs), Encoder-Decoder (ED) LLMs have gained popularity to serve as backbone models for SA applications, considering impressive text comprehension and reasoning ability among diverse tasks. On the other hand, Decoder-only (DO) LLMs exhibit superior natural language generation and in-context learning capabilities. However, their responses may contain misleading or inaccurate information. To identify implicit sentiment with reliable reasoning, this study proposes RVISA, a two-stage reasoning framework that harnesses the generation ability of DO LLMs and the reasoning ability of ED LLMs to train an enhanced reasoner. Specifically, we adopt three-hop reasoning prompting to explicitly furnish sentiment elements as cues. The generated rationales are utilized to fine-tune an ED LLM into a skilled reasoner. Additionally, we develop a straightforward yet effective verification mechanism to ensure the reliability of the reasoning learning. We evaluated the proposed method on two benchmark datasets and achieved state-of-the-art results in ISA performance.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# MORPHEUS:潜在空間の探索と活用による個人化対話履歴のモデル化

MORPHEUS: Modeling Role from Personalized Dialogue History by Exploring and Utilizing Latent Space ( http://arxiv.org/abs/2407.02345v1 )

ライセンス: Link先を確認
Yihong Tang, Bo Wang, Dongming Zhao, Xiaojia Jin, Jijun Zhang, Ruifang He, Yuexian Hou, (参考訳) パーソナライズされた対話生成(PDG)は、役割やペルソナに応じて一貫性のある応答を生成することを目的としている。 従来のPDGは外部ロールデータに依存しており、プライバシー上の懸念を生じさせる可能性がある。 対話の歴史から役割情報を抽出することでこれらの問題に対処する手法は、しばしば連続空間における役割を総称的にモデル化することができない。 これらの制限を克服するために,3段階のトレーニングプロセスを通じて,新しいフレームワークである \textbf{MO}dels \textbf{R}oles \textbf{P}ersonalized Dialogue \textbf{H}istory を導入する。 具体的には、潜在空間における役割をコンパクトに表現するペルソナコードブックを作成し、このコードブックを用いて役割情報の後部分布を構築する。 この方法では、ロールをまたいでモデルを一般化し、目に見えないロールに対してもパーソナライズされた対話を生成することができる。 中国語と英語の両方のデータセットの実験では、MORPHEUSがロール情報の抽出を強化し、外部ロールデータなしで応答生成を改善することが示されている。 加えて、MORPHEUSは大規模言語モデルの効率的な微調整であると見なすことができる。

Personalized Dialogue Generation (PDG) aims to create coherent responses according to roles or personas. Traditional PDG relies on external role data, which can be scarce and raise privacy concerns. Approaches address these issues by extracting role information from dialogue history, which often fail to generically model roles in continuous space. To overcome these limitations, we introduce a novel framework \textbf{MO}dels \textbf{R}oles from \textbf{P}ersonalized Dialogue \textbf{H}istory by \textbf{E}xploring and \textbf{U}tilizing Latent \textbf{S}pace (MORPHEUS) through a three-stage training process. Specifically, we create a persona codebook to represent roles in latent space compactly, and this codebook is used to construct a posterior distribution of role information. This method enables the model to generalize across roles, allowing the generation of personalized dialogues even for unseen roles. Experiments on both Chinese and English datasets demonstrate that MORPHEUS enhances the extraction of role information, and improves response generation without external role data. Additionally, MORPHEUS can be considered an efficient fine-tuning for large language models.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 効率的な推論のためのカスケードアンサンブルの再検討

Revisiting Cascaded Ensembles for Efficient Inference ( http://arxiv.org/abs/2407.02348v1 )

ライセンス: Link先を確認
Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith, (参考訳) 機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。 本研究では適応推論の簡単なスキームについて検討する。 我々は、資源効率の良いモデルから始まり、より大きく表現力のあるモデルへと成長するアンサンブルのカスケード(CoE)を構築し、アンサンブル合意はデータ依存のルーティング基準として機能する。 このスキームは既存の推論パイプラインに簡単に組み込むことができ、追加のトレーニングを必要とせず、複数のリソース層にモデルを配置することができる。 並列推論が実現可能な場合には,最大7倍の推論コストを削減しつつ,単一ベストモデルと比較して精度を向上し,既存の適応推論ベースラインと比較して精度と効率の面でパレート支配型ソリューションを提供する。 これらの貯蓄は、GPUの異種クラスタを使用して推論を行う場合、総金銭コストで3倍以上削減される。 最後に、カスケードの一部をエッジに配置するエッジ推論シナリオでは、CoEは精度を犠牲にすることなく通信コストと推論遅延を14倍削減することができる。

A common approach to make machine learning inference more efficient is to use example-specific adaptive schemes, which route or select models for each example at inference time. In this work we study a simple scheme for adaptive inference. We build a cascade of ensembles (CoE), beginning with resource-efficient models and growing to larger, more expressive models, where ensemble agreement serves as a data-dependent routing criterion. This scheme is easy to incorporate into existing inference pipelines, requires no additional training, and can be used to place models across multiple resource tiers--for instance, serving efficient models at the edge and invoking larger models in the cloud only when necessary. In cases where parallel inference is feasible, we show that CoE can improve accuracy relative to the single best model while reducing the average cost of inference by up to 7x, and provides Pareto-dominate solutions in accuracy and efficiency relative to existing adaptive inference baselines. These savings translate to an over 3x-reduction in total monetary cost when performing inference using a heterogeneous cluster of GPUs. Finally, for edge inference scenarios where portions of the cascade reside at the edge vs. in the cloud, CoE can provide a 14x reduction in communication cost and inference latency without sacrificing accuracy.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 視覚言語モデルのための概念的コードブック学習

Conceptual Codebook Learning for Vision-Language Models ( http://arxiv.org/abs/2407.02350v1 )

ライセンス: Link先を確認
Yi Zhang, Ke Yu, Siqi Wu, Zhihai He, (参考訳) 本稿では,視覚言語モデル(VLM)の新しい微調整手法であるConceptual Codebook Learning (CoCoLe)を提案する。 我々は、テクスチャ、形状、色といった視覚概念が自然にドメイン間で伝達可能であり、一般化タスクにおいて重要な役割を果たすことを認識している。 この興味深い発見に触発されて、視覚概念をキーとして、概念的プロンプトを値として、概念的コードブックを学習し、画像エンコーダの出力とテキストエンコーダの入力とのリンクとして機能する。 具体的には、与えられた画像に対して、コードブックを利用して、クラス埋め込みに関連する最も関連性の高い概念的プロンプトを特定し、分類を実行する。 さらに、ローショットシナリオにおける過度な問題を軽減するために、手作りのコンセプトキャッシュを正規化として組み込んだ。 この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。 実験の結果,CoCoLe法は,ベース・ツー・ニューな一般化,クロス・データセット評価,ドメイン一般化タスクなど,さまざまな評価設定において,既存の最先端手法よりも著しく優れていた。 詳細なアブレーション研究により、CoCoLeの各成分の有効性がさらに確認された。

In this paper, we propose Conceptual Codebook Learning (CoCoLe), a novel fine-tuning method for vision-language models (VLMs) to address the challenge of improving the generalization capability of VLMs while fine-tuning them on downstream tasks in a few-shot setting. We recognize that visual concepts, such as textures, shapes, and colors are naturally transferable across domains and play a crucial role in generalization tasks. Motivated by this interesting finding, we learn a conceptual codebook consisting of visual concepts as keys and conceptual prompts as values, which serves as a link between the image encoder's outputs and the text encoder's inputs. Specifically, for a given image, we leverage the codebook to identify the most relevant conceptual prompts associated with the class embeddings to perform the classification. Additionally, we incorporate a handcrafted concept cache as a regularization to alleviate the overfitting issues in low-shot scenarios. We observe that this conceptual codebook learning method is able to achieve enhanced alignment between visual and linguistic modalities. Extensive experimental results demonstrate that our CoCoLe method remarkably outperforms the existing state-of-the-art methods across various evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization tasks. Detailed ablation studies further confirm the efficacy of each component in CoCoLe.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 自動Fact-Checkingにおける大規模言語モデルの作成

Generative Large Language Models in Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2407.02351v1 )

ライセンス: Link先を確認
Ivan Vykopal, Matúš Pikuliak, Simon Ostermann, Marián Šimko, (参考訳) オンラインプラットフォーム上での偽情報の拡散は、情報検証のための堅牢な手段を必要とする、深刻な社会的課題を引き起こす。 手動の事実チェックは依然として有効であるが、偽情報の量の増加には自動的な方法が必要である。 大規模言語モデル(LLM)は、LLMの広範な知識と堅牢な推論能力を活用することで、ファクトチェッカーを支援する有望な機会を提供する。 本稿では, ファクトチェックの領域におけるジェネレーティブLLMの利用, 採用されている様々なアプローチの具体化, および微調整LLMの促進・微調整技術について検討する。 本研究は, 既存手法の概要を提供することで, ファクトチェックにおけるLCMの活用の理解を深め, このプロセスへのLSMの関与のさらなる進展を促進することを目的としている。

The dissemination of false information across online platforms poses a serious societal challenge, necessitating robust measures for information verification. While manual fact-checking efforts are still instrumental, the growing volume of false information requires automated methods. Large language models (LLMs) offer promising opportunities to assist fact-checkers, leveraging LLM's extensive knowledge and robust reasoning capabilities. In this survey paper, we investigate the utilization of generative LLMs in the realm of fact-checking, illustrating various approaches that have been employed and techniques for prompting or fine-tuning LLMs. By providing an overview of existing approaches, this survey aims to improve the understanding of utilizing LLMs in fact-checking and to facilitate further progress in LLMs' involvement in this process.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# Pelican: クレーム分解による視覚LLMの幻覚の修正と思考検証プログラム

Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification ( http://arxiv.org/abs/2407.02352v1 )

ライセンス: Link先を確認
Pritish Sahu, Karan Sikka, Ajay Divakaran, (参考訳) 大規模視覚言語モデル (LVLM) は、視覚的指示における幻覚に苦慮し、その信頼性と現実の応用性を制限する。 クレーム検証により幻覚を検知・緩和する新しいフレームワークであるPelicanを提案する。 ペリカンはまず、視覚的クレームを一階述語に基づくサブクレームの連鎖に分解する。 これらのサブステートメントは(述語、疑問)ペアで構成され、計算グラフのノードとして概念化することができる。 次に、Program-of-Thoughtプロンプトを使用して、外部ツールの柔軟な構成を通じて、これらの質問に答えるPythonコードを生成します。 Pelicanは、(1)オブジェクトインスタンスの正確なグラウンド化のための中間変数を導入し、(2)サブクエストに応答する共有計算を導入し、適応的な修正と矛盾の同定を可能にすることで、先行作業を改善する。 最終的に LLM の推論能力を用いて,各サブフレームからの (クエスト, 回答) ペアの一貫性と信頼性を考慮し,クレームの正当性を検証する。 実験の結果,MMHal-Bench の幻覚緩和に対するアプローチと比較して,様々なベースライン LVLM に対して$\sim$8%-32% の幻覚率の低下と 27% の低下がみられた。 他の2つのベンチマークの結果は、我々の結果をさらに裏付ける。

Large Visual Language Models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose Pelican -- a novel framework designed to detect and mitigate hallucinations through claim verification. Pelican first decomposes the visual claim into a chain of sub-claims based on first-order predicates. These sub-claims consist of (predicate, question) pairs and can be conceptualized as nodes of a computational graph. We then use Program-of-Thought prompting to generate Python code for answering these questions through flexible composition of external tools. Pelican improves over prior work by introducing (1) intermediate variables for precise grounding of object instances, and (2) shared computation for answering the sub-question to enable adaptive corrections and inconsistency identification. We finally use reasoning abilities of LLM to verify the correctness of the the claim by considering the consistency and confidence of the (question, answer) pairs from each sub-claim. Our experiments reveal a drop in hallucination rate by $\sim$8%-32% across various baseline LVLMs and a 27% drop compared to approaches proposed for hallucination mitigation on MMHal-Bench. Results on two other benchmarks further corroborate our results.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# Machinesについて語る: 読みましたか?

Talking to Machines: do you read me? ( http://arxiv.org/abs/2407.02354v1 )

ライセンス: Link先を確認
Lina M. Rojas-Barahona, (参考訳) この論文では、読者に対話の研究を指導したいと思いますが、もっと正確に言うと、私の博士論文以来のキャリアで行った研究です。 マシンラーニング/ディープ学習と強化学習を備えたモジュラアーキテクチャから、エンドツーエンドのディープニューラルネットワークに至るまで。 リサーチアソシエイトとしての仕事に加えて、過去数年間に監督してきた仕事も紹介します。 現状を概観し、会話エージェントのオープンな研究課題を概観する。 その後、CIFRE研究員及び産業監督官として、タスク指向対話(TOD)への私の貢献について紹介する。 私は会話のQAについて話し合います。 特に、Thibault Cordier とSebastien Montella の2人の博士候補と、若き研究者 Quentin Brabant の業績を紹介する。 最後に,タスク指向対話のための大規模言語モデル(LLM)とマルチモーダルタスク指向対話について論じる科学プロジェクトを紹介する。

In this dissertation I would like to guide the reader to the research on dialogue but more precisely the research I have conducted during my career since my PhD thesis. Starting from modular architectures with machine learning/deep learning and reinforcement learning to end-to-end deep neural networks. Besides my work as research associate, I also present the work I have supervised in the last years. I review briefly the state of the art and highlight the open research problems on conversational agents. Afterwards, I present my contribution to Task-Oriented Dialogues (TOD), both as research associate and as the industrial supervisor of CIFRE theses. I discuss conversational QA. Particularly, I present the work of two PhD candidates Thibault Cordier and Sebastien Montella; as well as the work of the young researcher Quentin Brabant. Finally, I present the scientific project, where I discuss about Large Language Models (LLMs) for Task-Oriented Dialogue and Multimodal Task-Oriented Dialogue.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 有効技術レビュー

Effective Technical Reviews ( http://arxiv.org/abs/2407.02355v1 )

ライセンス: Link先を確認
Scott Ballentine, Eitan Farchi, (参考訳) プログラムが正しいかどうかをチェックする方法は2つある。 プログラムの実行は、プログラムの正しさをレビューする究極のテストである一方で、プログラムは開発初期に発生し、効果的に実行された場合の問題を見つけることができる。 この研究はレビュー技術に焦点を当てている。 これにより、プログラマはプログラムを効果的にレビューし、並行性からインタフェースの問題まで幅広い問題を見つけることができる。 レビュー技術は、時間制約のある産業開発コンテキストに適用でき、プログラミングの落とし穴に関する知識によって強化される。

There are two ways to check if a program is correct, namely execute it or review it. While executing a program is the ultimate test for its correctness reviewing the program can occur earlier in its development and find problems if done effectively. This work focuses on review techniques. It enables the programmer to effectively review a program and find a range of problems from concurrency to interface issues. The review techniques can be applied in a time constrained industrial development context and are enhanced by knowledge on programming pitfalls.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 医用画像におけるフェデレーション・クライアント・アンラーニングを許す権利

Enable the Right to be Forgotten with Federated Client Unlearning in Medical Imaging ( http://arxiv.org/abs/2407.02356v1 )

ライセンス: Link先を確認
Zhipeng Deng, Luyang Luo, Hao Chen, (参考訳) 忘れられる権利は、ほとんどのデータ規則で述べられているように、フェデレート・ラーニング(FL)において未解決の課題となり、フェデレーション・アンラーニング(FU)の発展につながる。 しかしながら、現在のFUアプローチは、効率性、モデルパフォーマンス、有効性を忘れること、プライバシ保護の間のトレードオフに直面していることが多い。 本稿では、FCU(Federated Client Unlearning)のパラダイムを掘り下げ、クライアントが貢献や影響を消す権利を保証し、医療画像における最初のFUフレームワークを導入する。 クライアントのアンラーニングプロセスにおいて、提案したモデルコントラストアンラーニングは、特徴レベルのアンラーニングに向けた先駆的なステップであり、周波数誘導メモリ保存は、訓練されたグローバルモデルの一般化性を維持しながら、局所的な知識を円滑に忘れることを保証する。 われわれは,頭蓋内出血診断と皮膚病変診断を含む2つの医用画像データセットを用いてFCUフレームワークを評価し,本フレームワークが他の最先端のFUフレームワークより優れており,スクラッチからの再トレーニングと比較して10~15倍の速度向上が期待できることを示した。 コードと組織化されたデータセットは、https://github.com/dzp2095/FCUで見ることができる。

The right to be forgotten, as stated in most data regulations, poses an underexplored challenge in federated learning (FL), leading to the development of federated unlearning (FU). However, current FU approaches often face trade-offs between efficiency, model performance, forgetting efficacy, and privacy preservation. In this paper, we delve into the paradigm of Federated Client Unlearning (FCU) to guarantee a client the right to erase the contribution or the influence, introducing the first FU framework in medical imaging. In the unlearning process of a client, the proposed model-contrastive unlearning marks a pioneering step towards feature-level unlearning, and frequency-guided memory preservation ensures smooth forgetting of local knowledge while maintaining the generalizability of the trained global model, thus avoiding performance compromises and guaranteeing rapid post-training. We evaluated our FCU framework on two public medical image datasets, including Intracranial hemorrhage diagnosis and skin lesion diagnosis, demonstrating that our framework outperformed other state-of-the-art FU frameworks, with an expected speed-up of 10-15 times compared with retraining from scratch. The code and the organized datasets can be found at: https://github.com/dzp2095/FCU.
翻訳日:2024-07-03 14:56:27 公開日:2024-07-02
# 対照的な独立成分分析

Contrastive independent component analysis ( http://arxiv.org/abs/2407.02357v1 )

ライセンス: Link先を確認
Kexin Wang, Aida Maraj, Anna Seigal, (参考訳) データ可視化とデータのパターン発見は、科学におけるユビキタスな問題である。 アプリケーションは、背景データセットに対するフォアグラウンドデータセットという、コントラスト的な設定で信号と構造を求める。 そこで本研究では,コントラスト独立成分分析(cICA)を提案する。 これは、独立成分分析をフォアグラウンドとバックグラウンドにまたがる独立潜伏変数に一般化する。 本稿では,cICAの階層的テンソル分解アルゴリズムを提案する。 我々は,cICAの識別可能性について検討し,その性能の可視化データとデータ中のパターンの探索を,合成および実世界のデータセットを用いて実証し,既存のコントラスト法と比較した。

Visualizing data and finding patterns in data are ubiquitous problems in the sciences. Increasingly, applications seek signal and structure in a contrastive setting: a foreground dataset relative to a background dataset. For this purpose, we propose contrastive independent component analysis (cICA). This generalizes independent component analysis to independent latent variables across a foreground and background. We propose a hierarchical tensor decomposition algorithm for cICA. We study the identifiability of cICA and demonstrate its performance visualizing data and finding patterns in data, using synthetic and real-world datasets, comparing the approach to existing contrastive methods.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# GCF:表情認識のためのグラフ畳み込みネットワーク

GCF: Graph Convolutional Networks for Facial Expression Recognition ( http://arxiv.org/abs/2407.02361v1 )

ライセンス: Link先を確認
Hozaifa Kassab, Mohamed Bahaa, Ali Hamdi, (参考訳) 表情認識(FER)は対人コミュニケーションを理解する上で不可欠である。 しかし、既存の分類手法は、ノイズに対する脆弱性、不均衡なデータセット、過度な適合、一般化問題といった問題に直面していることが多い。 本稿では FER にグラフ畳み込みネットワークを利用する新しいアプローチである GCF を提案する。 GCFは、カスタムアーキテクチャまたは事前訓練されたモデルを使用して、特徴抽出のために畳み込みニューラルネットワーク(CNN)を統合している。 抽出された視覚的特徴はグラフ上に表現され、グラフ畳み込みニューラルネットワーク層を介してグローバルな特徴を持つローカルCNN機能を拡張する。 CK+, JAFFE, FERGなどのベンチマークデータセット上でGCFを評価する。 その結果,GCFは最先端手法よりも性能が著しく向上することがわかった。 例えば、GCFはResNet18の精度を92%から98%に、CK+は66%から89%に、FERGは94%から100%に向上させる。 同様に、GCFはVGG16の精度を、CK+では89%から97%、JAFFEでは72%から92%、FERGでは96%から99.49%に改善している。 提案手法を包括的に分析し,ニュアンス表情の捉え方の有効性を実証する。 グラフ畳み込みとCNNを統合することで、GCFはFERを大幅に向上し、現実世界のアプリケーションにおける精度と堅牢性を改善した。

Facial Expression Recognition (FER) is vital for understanding interpersonal communication. However, existing classification methods often face challenges such as vulnerability to noise, imbalanced datasets, overfitting, and generalization issues. In this paper, we propose GCF, a novel approach that utilizes Graph Convolutional Networks for FER. GCF integrates Convolutional Neural Networks (CNNs) for feature extraction, using either custom architectures or pretrained models. The extracted visual features are then represented on a graph, enhancing local CNN features with global features via a Graph Convolutional Neural Network layer. We evaluate GCF on benchmark datasets including CK+, JAFFE, and FERG. The results show that GCF significantly improves performance over state-of-the-art methods. For example, GCF enhances the accuracy of ResNet18 from 92% to 98% on CK+, from 66% to 89% on JAFFE, and from 94% to 100% on FERG. Similarly, GCF improves the accuracy of VGG16 from 89% to 97% on CK+, from 72% to 92% on JAFFE, and from 96% to 99.49% on FERG. We provide a comprehensive analysis of our approach, demonstrating its effectiveness in capturing nuanced facial expressions. By integrating graph convolutions with CNNs, GCF significantly advances FER, offering improved accuracy and robustness in real-world applications.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# FPGA上の高速でスケーラブルでエネルギー効率の良い非要素行列乗算

Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA ( http://arxiv.org/abs/2407.02362v1 )

ライセンス: Link先を確認
Xuqi Zhu, Huaizhi Zhang, JunKyu Lee, Jiacheng Zhu, Chandrajit Pal, Sangeet Saha, Klaus D. McDonald-Maier, Xiaojun Zhai, (参考訳) 現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算累積演算に大きく依存しており、計算コストの大部分を構成している。 そこで本稿では,NNの基本成分としてFPGA上の高スループット,スケーラブル,エネルギー効率の非要素量行列乗算器を提案する。 まず, LUT をベースとした近似行列乗算法 MADDNESS アルゴリズムの層間および層内冗長性を効率化し, 高速でスケーラブルな近似行列乗算モジュール "Approximate Multiplication Unit (AMU)" を設計する。 AMUは、専用メモリ管理とアクセス設計により、LUTベースの行列乗算をさらに最適化し、計算オーバーヘッドを入力解像度から切り離し、FPGAベースのNNアクセラレータ効率を大幅に向上する。 実験の結果,FPGAベースの量子ニューラルネットワーク(QNN)アクセラレータでは,AMUのスループットは最大9倍,エネルギー効率は112倍に向上した。

Modern Neural Network (NN) architectures heavily rely on vast numbers of multiply-accumulate arithmetic operations, constituting the predominant computational cost. Therefore, this paper proposes a high-throughput, scalable and energy efficient non-element-wise matrix multiplication unit on FPGAs as a basic component of the NNs. We firstly streamline inter-layer and intra-layer redundancies of MADDNESS algorithm, a LUT-based approximate matrix multiplication, to design a fast, efficient scalable approximate matrix multiplication module termed "Approximate Multiplication Unit (AMU)". The AMU optimizes LUT-based matrix multiplications further through dedicated memory management and access design, decoupling computational overhead from input resolution and boosting FPGA-based NN accelerator efficiency significantly. The experimental results show that using our AMU achieves up to 9x higher throughput and 112x higher energy efficiency over the state-of-the-art solutions for the FPGA-based Quantised Neural Network (QNN) accelerators.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# ハイブリッド量子古典フォトニックニューラルネットワーク

Hybrid Quantum-Classical Photonic Neural Networks ( http://arxiv.org/abs/2407.02366v1 )

ライセンス: Link先を確認
Tristan Austin, Simon Bilodeau, Andrew Hayman, Nir Rotenberg, Bhavin Shastri, (参考訳) ニューロモルフィック(脳にインスパイアされた)フォトニクスは、フォトニックチップを利用して人工知能を加速し、RF通信、テンソル処理、データ分類に使用される高速でエネルギー効率の高いソリューションを提供する。 しかし、集積フォトニックハードウェアの物理的サイズは、ネットワークの複雑さと計算能力を制限する。 近年のフォトニック量子技術の進歩を踏まえ、量子指数の高速化を利用して、ネットワークサイズを増大させることなく、フォトニックニューラルネットワークの容量を拡大することは自然である。 ここでは、古典的ネットワーク層とトレーニング可能な連続可変量子回路の組み合わせにより、トレーニング容易性と精度を向上させたハイブリッドネットワークが得られることを示す。 分類タスクでは、ハイブリッドネットワークは2倍の大きさの完全古典的ネットワークに対してベンチマークすると、同じ性能を達成する。 付加ノイズにより最適化されたネットワークのビット精度が低減された場合、最先端のビット精度で評価すると、ハイブリッドネットワークは高い精度が得られる。 これらのハイブリッド量子古典ネットワークは、ネットワークサイズを増大させることなく、統合フォトニックニューラルネットワークの計算能力を向上させるユニークな方法を示す。

Neuromorphic (brain-inspired) photonics leverages photonic chips to accelerate artificial intelligence, offering high-speed and energy efficient solutions for use in RF communication, tensor processing, and data classification. However, the limited physical size of integrated photonic hardware limits network complexity and computational capacity. In light of recent advance in photonic quantum technology, it is natural to utilize quantum exponential speedup to scale photonic neural network capacity without increasing the network size. Here we show a combination of classical network layers with trainable continuous variable quantum circuits yields hybrid networks with improved trainability and accuracy. On a classification task, hybrid networks achieve the same performance when benchmarked against fully classical networks that are twice the size. When the bit precision of the optimized networks is reduced through added noise, the hybrid networks still achieve greater accuracy when evaluated at state of the art bit precision. These hybrid quantum classical networks demonstrate a unique route to improve computational capacity of integrated photonic neural networks without increasing the network size.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# 2段階Q-Learning

Two-Step Q-Learning ( http://arxiv.org/abs/2407.02369v1 )

ライセンス: Link先を確認
Antony Vijesh, Shreyas S R, (参考訳) Q-learningは古典的価値反復の確率論的近似版である。 文献では、Q-ラーニングは最大化バイアスと緩やかな収束の両方に苦しむことが確認されている。 近年,マルチステップアルゴリズムは既存の手法よりも現実的な優位性を示している。 本稿では,重要なサンプリングを伴わずに,非政治的な2段階のQ-ラーニングアルゴリズムを提案する。 適切な仮定により、提案した2段階のQ-ラーニングにおける反復は有界であり、ほぼ確実に最適なQ-値に収束することを示した。 本研究は、最大関数をlog-sum-exp関数に置き換えることで、2段階Q-ラーニングのスムーズなバージョンを収束解析する。 提案するアルゴリズムは堅牢で実装が容易である。 最後に,ロレット問題,最大化バイアス問題,マルコフ決定過程などのベンチマーク問題に対して提案アルゴリズムを検証し,文献で利用可能な既存手法と比較した。 数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。

Q-learning is a stochastic approximation version of the classic value iteration. The literature has established that Q-learning suffers from both maximization bias and slower convergence. Recently, multi-step algorithms have shown practical advantages over existing methods. This paper proposes a novel off-policy two-step Q-learning algorithms, without importance sampling. With suitable assumption it was shown that, iterates in the proposed two-step Q-learning is bounded and converges almost surely to the optimal Q-values. This study also address the convergence analysis of the smooth version of two-step Q-learning, i.e., by replacing max function with the log-sum-exp function. The proposed algorithms are robust and easy to implement. Finally, we test the proposed algorithms on benchmark problems such as the roulette problem, maximization bias problem, and randomly generated Markov decision processes and compare it with the existing methods available in literature. Numerical experiments demonstrate the superior performance of both the two-step Q-learning and its smooth variants.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# スポーツにおけるビデオフレーム補間のためのイベントベースカメラの検討

Investigating Event-Based Cameras for Video Frame Interpolation in Sports ( http://arxiv.org/abs/2407.02370v1 )

ライセンス: Link先を確認
Antoine Deckyvere, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, Marc Van Droogenbroeck, (参考訳) スローモーションのリプレイは、スポーツゲームにおける重要な瞬間について、スリルのある視点を提供し、新鮮な視覚体験を提供する。 しかし、スローモーション映像の撮影は通常、ハイテクで高価なカメラとインフラを必要とする。 ディープラーニングビデオフレーム補間(VFI)技術は、通常のカメラフィードから高速な映像を生成することができる有望な道として登場した。 さらに、イベントベースのカメラの利用は、フレーム間の貴重な動き情報を提供し、VFI性能をさらに向上させるため、近年注目されている。 本研究では,スポーツスローモーションビデオを生成するイベントベースVFIモデルについて,初めて検討する。 特に,スポーツ映像を撮影するためのRGBとイベントベースカメラを含むバイカメラ記録装置の設計と実装を行い,両カメラの時間的整列と空間的登録を行う。 実験により,市販のイベントベースVFIモデルであるTimeLensが,スポーツビデオのスローモーション映像を効果的に生成できることが実証された。 この最初の調査は、スポーツのスローモーションコンテンツを制作するイベントベースのカメラの実用性を強調し、この領域における将来の研究の基盤となる。

Slow-motion replays provide a thrilling perspective on pivotal moments within sports games, offering a fresh and captivating visual experience. However, capturing slow-motion footage typically demands high-tech, expensive cameras and infrastructures. Deep learning Video Frame Interpolation (VFI) techniques have emerged as a promising avenue, capable of generating high-speed footage from regular camera feeds. Moreover, the utilization of event-based cameras has recently gathered attention as they provide valuable motion information between frames, further enhancing the VFI performances. In this work, we present a first investigation of event-based VFI models for generating sports slow-motion videos. Particularly, we design and implement a bi-camera recording setup, including an RGB and an event-based camera to capture sports videos, to temporally align and spatially register both cameras. Our experimental validation demonstrates that TimeLens, an off-the-shelf event-based VFI model, can effectively generate slow-motion footage for sports videos. This first investigation underscores the practical utility of event-based cameras in producing sports slow-motion content and lays the groundwork for future research endeavors in this domain.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# OpenVid-1M:テキスト・ビデオ・ジェネレーションのための大規模高品質データセット

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation ( http://arxiv.org/abs/2407.02371v1 )

ライセンス: Link先を確認
Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai, (参考訳) テキスト・ツー・ビデオ(T2V)生成は、大規模なマルチモダリティモデルであるSoraのおかげで、近年大きな注目を集めている。 しかし、T2V生成には2つの重要な課題がある。 1) 正確なオープンソースの高品質データセットの欠如。 以前の人気ビデオデータセットであるWebVid-10MやPanda-70Mは、ほとんどの研究機関では低品質か大きすぎる。 したがって、T2V生成のために正確な高品質のテキストビデオペアを収集することは困難であるが、極めて重要である。 2) テキスト情報の完全活用を怠る。 近年のT2V法は、テキストプロンプトから意味情報を徹底的に抽出するに足らない、ビデオ生成のための単純なクロスアテンションモジュールを用いて、視覚変換器に焦点を当てている。 これらの問題に対処するために,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを導入する。 このオープンシナリオデータセットには100万以上のテキストビデオペアが含まれており、T2V生成の研究を容易にする。 さらに、OpenVid-1Mから433K 1080pのビデオをキュレートし、OpenVidHD-0.4Mを作成し、高精細ビデオ生成を進める。 さらに,視覚トークンから構造情報を抽出し,テキストトークンから意味情報を抽出する多モードビデオ拡散変換器(MVDiT)を提案する。 大規模な実験とアブレーション研究により,過去のデータセットよりもOpenVid-1Mの方が優れており,MVDiTの有効性が検証された。

Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# OpenSlot: オープンセット認識とオブジェクト中心学習の混在

OpenSlot: Mixed Open-set Recognition with Object-centric Learning ( http://arxiv.org/abs/2407.02386v1 )

ライセンス: Link先を確認
Xu Yin, Fei Pan, Guoyuan An, Yuchi Huo, Zixuan Xie, Sung-Eui Yoon, (参考訳) 既存のオープンセット認識(OSR)研究は通常、各画像は1つのクラスラベルしか含まないと仮定し、未知のテストセット(負)は既知のテストセット(正)から切り離されたラベル空間を持ち、フルラベルシフトと呼ばれるシナリオを持つ。 本稿では,テストイメージが複数のクラスセマンティクスを含む混合OSR問題について紹介する。 混合OSRに対処するには、画像内の異なるクラスのセマンティクスを正確に識別し、それらの「既知のもの」を測定するための分類モデルが必要である。 本研究では,オブジェクト指向学習に基づくOpenSlotフレームワークを提案する。 OpenSlotはスロット機能を使用して、多様なクラスセマンティクスを表現し、クラス予測を生成する。 提案手法により,分類学習におけるノイズ(非有意および背景)スロットの影響を軽減し,クラス予測と基底真理とのセマンティックな相違を効果的に解決する。 混合OSRベンチマークにおけるOpenSlotの広範な実験を行った。 精巧な設計がなければ、OpenSlotはシングルラベルとマルチラベルの混合OSRタスク間の超ラベルシフトを検出する既存のOSR研究を超えるだけでなく、従来のベンチマークで最先端のパフォーマンスを達成する。 注目すべきは、トレーニング中にバウンディングボックスを使わずにクラスオブジェクトをローカライズできることだ。 オープンセットオブジェクト検出における競合性能は、計算効率と一般化におけるラベルシフトと利点を明確に説明できるOpenSlotの能力を示している。

Existing open-set recognition (OSR) studies typically assume that each image contains only one class label, and the unknown test set (negative) has a disjoint label space from the known test set (positive), a scenario termed full-label shift. This paper introduces the mixed OSR problem, where test images contain multiple class semantics, with known and unknown classes co-occurring in negatives, leading to a more challenging super-label shift. Addressing the mixed OSR requires classification models to accurately distinguish different class semantics within images and measure their "knowness". In this study, we propose the OpenSlot framework, built upon object-centric learning. OpenSlot utilizes slot features to represent diverse class semantics and produce class predictions. Through our proposed anti-noise-slot (ANS) technique, we mitigate the impact of noise (invalid and background) slots during classification training, effectively addressing the semantic misalignment between class predictions and the ground truth. We conduct extensive experiments with OpenSlot on mixed & conventional OSR benchmarks. Without elaborate designs, OpenSlot not only exceeds existing OSR studies in detecting super-label shifts across single & multi-label mixed OSR tasks but also achieves state-of-the-art performance on conventional benchmarks. Remarkably, our method can localize class objects without using bounding boxes during training. The competitive performance in open-set object detection demonstrates OpenSlot's ability to explicitly explain label shifts and benefits in computational efficiency and generalization.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# ハイパースペクトル/マルチスペクトル/パンクロマティック画像融合のための実HSI-MSI-PAN画像データセットと超解像場

Real HSI-MSI-PAN image dataset for the hyperspectral/multi-spectral/panchromatic image fusion and super-resolution fields ( http://arxiv.org/abs/2407.02387v1 )

ライセンス: Link先を確認
Shuangliang Li, (参考訳) 現在、ハイパースペクトル画像(HSI)融合実験のほとんどは、異なる融合法を比較するためのシミュレーションデータセットに基づいている。 しかし、シミュレーションデータセットを作成するために使用されるスペクトル応答関数と空間ダウンサンプリング関数のほとんどが完全に正確ではないため、生成した融合用画像と融合用実際の画像との間の空間的特徴とスペクトル的特徴の偏差が生じる。 これにより、融合アルゴリズムの信頼性が低下し、異なるアルゴリズムの比較が不公平になり、超スペクトル画像融合の分野の開発が妨げられる。 そこで我々は、ハイパースペクトル画像融合の分野の発展を促進するために、実際のHSI/MSI/PAN画像データセットをリリースする。 これら3つの画像は空間的に登録されており、HSI, MSI, HSI, PAN画像, MSI, PAN画像, HSI, MSI, PAN画像間で融合が可能である。 この実際のデータセットはhttps://aistudio.baidu.com/datasetdetail/281612.comで入手できる。 データを処理するための関連コードはhttps://github.com/rs-lsl/CSSNet.comで入手できる。

Nowadays, most of the hyperspectral image (HSI) fusion experiments are based on simulated datasets to compare different fusion methods. However, most of the spectral response functions and spatial downsampling functions used to create the simulated datasets are not entirely accurate, resulting in deviations in spatial and spectral features between the generated images for fusion and the real images for fusion. This reduces the credibility of the fusion algorithm, causing unfairness in the comparison between different algorithms and hindering the development of the field of hyperspectral image fusion. Therefore, we release a real HSI/MSI/PAN image dataset to promote the development of the field of hyperspectral image fusion. These three images are spatially registered, meaning fusion can be performed between HSI and MSI, HSI and PAN image, MSI and PAN image, as well as among HSI, MSI, and PAN image. This real dataset could be available at https://aistudio.baidu.com/datasetdetail/281612. The related code to process the data could be available at https://github.com/rs-lsl/CSSNet.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# SafaRi:Wakly Supervised Referring Expression Segmentationのための適応シーケンス変換器

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation ( http://arxiv.org/abs/2407.02389v1 )

ライセンス: Link先を確認
Sayan Nag, Koustava Goswami, Srikrishna Karanam, (参考訳) Referring Expression Segmentation (RES)は、テキストによって参照される画像(つまり、式を参照する)において、ターゲットオブジェクトのセグメンテーションマスクを提供することを目的としている。 既存の方法は大規模なマスクアノテーションを必要とする。 さらに、このような手法は目に見えない、ゼロショットのシナリオにうまく当てはまらない。 上記の問題に対処するために、いくつかの新しいアルゴリズムの革新を伴うRESのための弱い教師付きブートストラップアーキテクチャを提案する。 私たちの知る限りでは、トレーニング用のマスクとボックスアノテーション(図1と表1に記載されている)のごく一部しか考慮していないのは、私たちの最初のアプローチです。 このような低アノテーション設定におけるモデルの原則的トレーニングを実現するため,画像中の対象物体の空間的局所化をさらに促進するため,注意整合モジュールを用いたクロスモーダルフュージョンを提案する。 ラベルなしサンプルの自動擬似ラベル付けには,空間的に認識されたゼロショット提案スコアリングに基づく新しいマスク妥当性フィルタリングルーチンを導入する。 過剰な実験により、我々のモデルSafaRiは、RefCOCO+@testAとRefCOCO+testBのデータセット上で、フル教師付きSOTA法SeqTRで得られた58.93と48.19mIoUsと比較して59.31と48.26mIoUsを達成した。 SafaRiはまた、SeqTRを11.7%(RefCOCO+testA)、19.6%(RefCOCO+testB)で完全に監督された環境で上回り、目に見えないゼロショットタスクにおいて強力な一般化能力を示す。

Referring Expression Segmentation (RES) aims to provide a segmentation mask of the target object in an image referred to by the text (i.e., referring expression). Existing methods require large-scale mask annotations. Moreover, such approaches do not generalize well to unseen/zero-shot scenarios. To address the aforementioned issues, we propose a weakly-supervised bootstrapping architecture for RES with several new algorithmic innovations. To the best of our knowledge, ours is the first approach that considers only a fraction of both mask and box annotations (shown in Figure 1 and Table 1) for training. To enable principled training of models in such low-annotation settings, improve image-text region-level alignment, and further enhance spatial localization of the target object in the image, we propose Cross-modal Fusion with Attention Consistency module. For automatic pseudo-labeling of unlabeled samples, we introduce a novel Mask Validity Filtering routine based on a spatially aware zero-shot proposal scoring approach. Extensive experiments show that with just 30% annotations, our model SafaRi achieves 59.31 and 48.26 mIoUs as compared to 58.93 and 48.19 mIoUs obtained by the fully-supervised SOTA method SeqTR respectively on RefCOCO+@testA and RefCOCO+testB datasets. SafaRi also outperforms SeqTR by 11.7% (on RefCOCO+testA) and 19.6% (on RefCOCO+testB) in a fully-supervised setting and demonstrates strong generalization capabilities in unseen/zero-shot tasks.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# データセンターの不確実性を考慮した脱炭

Uncertainty-Aware Decarbonization for Datacenters ( http://arxiv.org/abs/2407.02390v1 )

ライセンス: Link先を確認
Amy Li, Sihang Liu, Yi Ding, (参考訳) 本論文は, データセンター脱炭のための炭素強度予測の不確かさを定量化するための最初の試みである。 我々は、時間的および空間的な2つの不確実性を特定し、分析し、システム含意について議論する。 炭素強度予測の不確かさの定量化における時間的ダイナミクスに対処するために,共形予測に基づく枠組みを導入する。 評価結果から, 本手法は, 種々の意義レベルにわたる不確実性定量化において, 対象範囲を頑健に達成できることが示唆された。 生産電力トレースを用いた2つのケーススタディを行い,時間的および空間的負荷シフトに着目した。 その結果, スケジュール決定に不確実性を導入することで, それぞれ5%と14%の二酸化炭素排出量の増加を防止できることがわかった。 これらの割合は20MWのデータセンターで2.1トンと10.4トンの炭素排出量を絶対的に減少させる。

This paper represents the first effort to quantify uncertainty in carbon intensity forecasting for datacenter decarbonization. We identify and analyze two types of uncertainty -- temporal and spatial -- and discuss their system implications. To address the temporal dynamics in quantifying uncertainty for carbon intensity forecasting, we introduce a conformal prediction-based framework. Evaluation results show that our technique robustly achieves target coverages in uncertainty quantification across various significance levels. We conduct two case studies using production power traces, focusing on temporal and spatial load shifting respectively. The results show that incorporating uncertainty into scheduling decisions can prevent a 5% and 14% increase in carbon emissions, respectively. These percentages translate to an absolute reduction of 2.1 and 10.4 tons of carbon emissions in a 20 MW datacenter cluster.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ

TokenPacker: Efficient Visual Projector for Multimodal LLM ( http://arxiv.org/abs/2407.02392v1 )

ライセンス: Link先を確認
Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang, (参考訳) ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。 通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。 しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。 いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。 残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。 本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。 具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。 次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。 このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。 広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。 ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。

The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# Tinyオブジェクト検出のための類似距離に基づくラベルアサインメント

Similarity Distance-Based Label Assignment for Tiny Object Detection ( http://arxiv.org/abs/2407.02394v1 )

ライセンス: Link先を確認
Shuohao Shi, Qiang Fang, Tong Zhao, Xin Xu, (参考訳) 微妙な物体検出は、限られた物体の大きさと情報の不足により、コンピュータビジョンにおいて最も困難なタスクの1つになりつつある。 ラベル割り当て戦略は、オブジェクト検出の精度に影響を与える重要な要素である。 小さなオブジェクトに対する効果的なラベル割り当て戦略はいくつかあるが、多くの場合、正のサンプル数を増やすために境界ボックスに対する感度を低下させ、固定されたハイパーパラメータを設定する必要がある。 しかし、より陽性なサンプルは必ずしもより良い検出結果をもたらすとは限らないが、実際、過剰な陽性なサンプルはより偽陽性をもたらす可能性がある。 本稿では,ボックス間の類似性を評価するためのSimity Distance (SimD) という,シンプルだが効果的な戦略を提案する。 提案した戦略は、位置と形状の類似性だけでなく、ハイパーパラメータを適応的に学習することで、データセット内のさまざまなデータセットやさまざまなオブジェクトサイズに適応できるようにする。 我々のアプローチは、ラベル割り当てやNon Maximum Suppression(NMS)のために、IoUの代わりに一般的なアンカーベースの検出器に簡単に適用できる。 4つの主流となる小さなオブジェクト検出データセットに対する大規模な実験では、特に1.8のAPポイントと4.1のAPポイントがAI-TODの最先端の競合に比べて非常に高い性能を示した。 コードは: \url{https://github.com/cszzshi/SimD}.comで入手できる。

Tiny object detection is becoming one of the most challenging tasks in computer vision because of the limited object size and lack of information. The label assignment strategy is a key factor affecting the accuracy of object detection. Although there are some effective label assignment strategies for tiny objects, most of them focus on reducing the sensitivity to the bounding boxes to increase the number of positive samples and have some fixed hyperparameters need to set. However, more positive samples may not necessarily lead to better detection results, in fact, excessive positive samples may lead to more false positives. In this paper, we introduce a simple but effective strategy named the Similarity Distance (SimD) to evaluate the similarity between bounding boxes. This proposed strategy not only considers both location and shape similarity but also learns hyperparameters adaptively, ensuring that it can adapt to different datasets and various object sizes in a dataset. Our approach can be simply applied in common anchor-based detectors in place of the IoU for label assignment and Non Maximum Suppression (NMS). Extensive experiments on four mainstream tiny object detection datasets demonstrate superior performance of our method, especially, 1.8 AP points and 4.1 AP points of very tiny higher than the state-of-the-art competitors on AI-TOD. Code is available at: \url{https://github.com/cszzshi/SimD}.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# あなたのAI生成コードは本当にセキュアか? CodeSecEvalでセキュアなコード生成上での大規模言語モデルの評価

Is Your AI-Generated Code Really Secure? Evaluating Large Language Models on Secure Code Generation with CodeSecEval ( http://arxiv.org/abs/2407.02395v1 )

ライセンス: Link先を確認
Jiexin Wang, Xitong Luo, Liuwen Cao, Hongkui He, Hailin Huang, Jiayuan Xie, Adam Jatowt, Yi Cai, (参考訳) 大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えた。 しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。 コードLLMの安全性について多くの研究がなされているが、セキュリティ機能に包括的に対処する上ではまだギャップが残っている。 本研究では,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。 調査を支援するために、我々は180の異なるサンプルを持つ44の重大な脆弱性タイプに対処するために、厳密にキュレートされたデータセットであるCodeSecEvalを紹介した。 CodeSecEvalは、コード生成とコード修復という2つの重要なタスクにおけるコードモデルの自動評価の基礎として機能し、セキュリティに重点を置いている。 実験の結果、現在のモデルでは、コード生成と修復プロセスの両方でセキュリティの問題が頻繁に見過ごされ、脆弱性のあるコードが生成されることが判明した。 これに対して,脆弱性を意識した情報を活用するさまざまな戦略を提案し,セキュリティ上の脆弱性を軽減するためにコード説明の安全性を損なう。 さらに本研究では,特定の脆弱性タイプが特にモデルパフォーマンスに挑戦し,実際のアプリケーションでの有効性に影響を及ぼすことを明らかにした。 これらの結果から,我々の研究はソフトウェア工学コミュニティに肯定的な影響を与え,LLMのトレーニングと活用の方法の改善を刺激し,より安全で信頼性の高いモデル展開につながると信じている。

Large language models (LLMs) have brought significant advancements to code generation and code repair, benefiting both novice and experienced developers. However, their training using unsanitized data from open-source repositories, like GitHub, raises the risk of inadvertently propagating security vulnerabilities. Despite numerous studies investigating the safety of code LLMs, there remains a gap in comprehensively addressing their security features. In this work, we aim to present a comprehensive study aimed at precisely evaluating and enhancing the security aspects of code LLMs. To support our research, we introduce CodeSecEval, a meticulously curated dataset designed to address 44 critical vulnerability types with 180 distinct samples. CodeSecEval serves as the foundation for the automatic evaluation of code models in two crucial tasks: code generation and code repair, with a strong emphasis on security. Our experimental results reveal that current models frequently overlook security issues during both code generation and repair processes, resulting in the creation of vulnerable code. In response, we propose different strategies that leverage vulnerability-aware information and insecure code explanations to mitigate these security vulnerabilities. Furthermore, our findings highlight that certain vulnerability types particularly challenge model performance, influencing their effectiveness in real-world applications. Based on these findings, we believe our study will have a positive impact on the software engineering community, inspiring the development of improved methods for training and utilizing LLMs, thereby leading to safer and more trustworthy model deployment.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# 自然言語の微粒化フィードバックによる微粒化学習

Learning to Refine with Fine-Grained Natural Language Feedback ( http://arxiv.org/abs/2407.02397v1 )

ライセンス: Link先を確認
Manya Wadhwa, Xinyu Zhao, Junyi Jessy Li, Greg Durrett, (参考訳) 最近の研究は、LLM生成応答における誤りを識別し、修正する大規模言語モデル(LLM)の能力について検討している。 これらの改善アプローチは、モデルのサイズがどの問題に対して改善できるかを頻繁に評価するが、改善のための効果的なフィードバックがどのようなものかに注意を払わない。 本研究では,(1)悪い世代を特定すること,(2)きめ細かい自然言語のフィードバック生成,(3)きめ細かいフィードバックによる精細化という,3つの異なるLLM能力の構成要素として,フィードバックによる精細化を検討することを提案する。 第1ステップは、高い性能の判別モデルで実装することができ、ステップ2,3は、インパルスまたは微調整LDMを介して実装することができる。 このアプローチの重要な特性は、ステップ2の批判モデルが、ステップ1で別のモデルに識別をオフロードすることで可能な、エラーに関するきめ細かいフィードバックを与えることができることである。 文書基盤要約の事実整合性を改善する作業において,異なる能力のモデルが,このアプローチの精細化の恩恵を受けることを示す。 全体として,提案手法は既存のエンドツーエンド改良手法よりも優れており,現行の訓練モデルでは現実性基準を微調整することができない。

Recent work has explored the capability of large language models (LLMs) to identify and correct errors in LLM-generated responses. These refinement approaches frequently evaluate what sizes of models are able to do refinement for what problems, but less attention is paid to what effective feedback for refinement looks like. In this work, we propose looking at refinement with feedback as a composition of three distinct LLM competencies: (1) identification of bad generations; (2) fine-grained natural language feedback generation; (3) refining with fine-grained feedback. The first step can be implemented with a high-performing discriminative model and steps 2 and 3 can be implemented either via prompted or fine-tuned LLMs. A key property of this approach is that the step 2 critique model can give fine-grained feedback about errors, made possible by offloading the discrimination to a separate model in step 1. We show that models of different capabilities benefit from refining with this approach on the task of improving factual consistency of document grounded summaries. Overall, our proposed method consistently outperforms existing end-to-end refinement approaches and current trained models not fine-tuned for factuality critiquing.
翻訳日:2024-07-03 14:46:41 公開日:2024-07-02
# 整合性フローマッチング:速度の整合性を考慮した直線流の定義

Consistency Flow Matching: Defining Straight Flows with Velocity Consistency ( http://arxiv.org/abs/2407.02398v1 )

ライセンス: Link先を確認
Ling Yang, Zixiang Zhang, Zhilong Zhang, Xingchao Liu, Minkai Xu, Wentao Zhang, Chenlin Meng, Stefano Ermon, Bin Cui, (参考訳) フローマッチング(英: Flow matching, FM)は、通常微分方程式(ODE)を介して確率経路を定義し、ノイズとデータサンプルを変換する一般的なフレームワークである。 近年のアプローチでは, 繰り返し整流法や最適輸送解を用いて, 機能評価の少ない高品質な試料を生成するために, 流路の整流を図っている。 本稿では,速度場の自己整合性を明示する新しいFM法であるConsistency Flow Matching(Consistency-FM)を提案する。 一貫性-FMは、異なる時間から同じエンドポイントへの直流を直接定義し、速度値に制約を課す。 さらに,一貫性FMを用いたマルチセグメントトレーニング手法を提案し,サンプリング品質と速度のトレードオフを向上する。 予備実験では, 整合性モデルよりも4.4倍, 整流モデルより1.7倍の速度で収束し, 優れた生成品質を実現し, トレーニング効率を著しく向上することを示した。 私たちのコードは、https://github.com/YangLing0818/consistency_flow_matchingで利用可能です。

Flow matching (FM) is a general framework for defining probability paths via Ordinary Differential Equations (ODEs) to transform between noise and data samples. Recent approaches attempt to straighten these flow trajectories to generate high-quality samples with fewer function evaluations, typically through iterative rectification methods or optimal transport solutions. In this paper, we introduce Consistency Flow Matching (Consistency-FM), a novel FM method that explicitly enforces self-consistency in the velocity field. Consistency-FM directly defines straight flows starting from different times to the same endpoint, imposing constraints on their velocity values. Additionally, we propose a multi-segment training approach for Consistency-FM to enhance expressiveness, achieving a better trade-off between sampling quality and speed. Preliminary experiments demonstrate that our Consistency-FM significantly improves training efficiency by converging 4.4x faster than consistency models and 1.7x faster than rectified flow models while achieving better generation quality. Our code is available at: https://github.com/YangLing0818/consistency_flow_matching
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 大規模言語モデルのコードクローン検出能力の評価

Assessing the Code Clone Detection Capability of Large Language Models ( http://arxiv.org/abs/2407.02402v1 )

ライセンス: Link先を確認
Zixian Zhang, Takfarinas Saber, (参考訳) 本研究の目的は,コードクローン検出作業において,2つの高度な言語モデル (LLM) , GPT-3.5, GPT-4 の性能を評価することである。 この評価には、BigCloneBench(人造)とGPTCloneBench(LLM生成)という2つのデータセットから得られた、さまざまなクローンタイプのコードペアと類似性のレベルでモデルをテストすることが含まれる。 研究の結果、GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っていることが明らかとなった。 コードクローンの同定におけるGPTの精度とコード類似性との間には相関がみられ、両者のGPTモデルは最も複雑なType-4コードクローンの検出において低い効果を示した。 さらに、GPTモデルでは、人間生成コードと比較して、LLM生成コード中のコードクローンを識別するパフォーマンスが向上している。 しかし、精度は高くない。 これらの結果は、LLMの機能強化、特にコードクローンの認識、および自己生成コードクローンへの前処理の緩和の推進力を強調している。

This study aims to assess the performance of two advanced Large Language Models (LLMs), GPT-3.5 and GPT-4, in the task of code clone detection. The evaluation involves testing the models on a variety of code pairs of different clone types and levels of similarity, sourced from two datasets: BigCloneBench (human-made) and GPTCloneBench (LLM-generated). Findings from the study indicate that GPT-4 consistently surpasses GPT-3.5 across all clone types. A correlation was observed between the GPTs' accuracy at identifying code clones and code similarity, with both GPT models exhibiting low effectiveness in detecting the most complex Type-4 code clones. Additionally, GPT models demonstrate a higher performance identifying code clones in LLM-generated code compared to humans-generated code. However, they do not reach impressive accuracy. These results emphasize the imperative for ongoing enhancements in LLM capabilities, particularly in the recognition of code clones and in mitigating their predisposition towards self-generated code clones--which is likely to become an issue as software engineers are more numerous to leverage LLM-enabled code generation and code refactoring tools.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# アウト・オブ・ディストリビューション・ジェネレーションとしての顔再構成伝達攻撃

Face Reconstruction Transfer Attack as Out-of-Distribution Generalization ( http://arxiv.org/abs/2407.02403v1 )

ライセンス: Link先を確認
Yoon Gyo Jung, Jaewoo Park, Xingbo Dong, Hojin Park, Andrew Beng Jin Teoh, Octavia Camps, (参考訳) 悪意のある攻撃に対する顔認識システムの脆弱性を理解することが重要である。 これまでは、対象とする検証システムに侵入可能な顔画像の再構築に重点を置いてきた。 しかし、ホワイトボックスのシナリオであっても、鼻で再構成した画像が識別情報を誤って表現しているため、顔システムが更新または変更されると容易に攻撃が中和される。 本稿では,未知のエンコーダに対する顔の攻撃を伝達できる顔画像の再構成を目的とする。 この問題を顔再構成伝達攻撃 (FRTA) と呼び, 分布外一般化問題 (OOD) として定式化可能であることを示す。 OODの性質に着想を得て,疑似目標(ALSUV)を用いた平均遅延探索と教師なし検証によるFRTAの解法を提案する。 ALSUVは、OOD非可視エンコーダに対する再構成攻撃を強化するために、複数の潜時最適化、潜時最適化軌道平均化、疑似目標による教師なし検証により、償却ジェネレータであるStyleGAN2の潜時を探索して顔の再構成を行う。 本手法の有効性と一般化を,広範囲にわたるアブレーション研究および視覚的,質的,定量的に分析し,広く利用されている顔データセットに示す。 ソースコードはリリースされます。

Understanding the vulnerability of face recognition systems to malicious attacks is of critical importance. Previous works have focused on reconstructing face images that can penetrate a targeted verification system. Even in the white-box scenario, however, naively reconstructed images misrepresent the identity information, hence the attacks are easily neutralized once the face system is updated or changed. In this paper, we aim to reconstruct face images which are capable of transferring face attacks on unseen encoders. We term this problem as Face Reconstruction Transfer Attack (FRTA) and show that it can be formulated as an out-of-distribution (OOD) generalization problem. Inspired by its OOD nature, we propose to solve FRTA by Averaged Latent Search and Unsupervised Validation with pseudo target (ALSUV). To strengthen the reconstruction attack on OOD unseen encoders, ALSUV reconstructs the face by searching the latent of amortized generator StyleGAN2 through multiple latent optimization, latent optimization trajectory averaging, and unsupervised validation with a pseudo target. We demonstrate the efficacy and generalization of our method on widely used face datasets, accompanying it with extensive ablation studies and visually, qualitatively, and quantitatively analyses. The source code will be released.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# Tiny-PULP-Dronets:マルチタスク自律型ナノドロンの高速かつ軽量推論のためのニューラルネットワークの探索

Tiny-PULP-Dronets: Squeezing Neural Networks for Faster and Lighter Inference on Multi-Tasking Autonomous Nano-Drones ( http://arxiv.org/abs/2407.02405v1 )

ライセンス: Link先を確認
Lorenzo Lamberti, Vlad Niculescu, Michał Barcis, Lorenzo Bellone, Enrico Natalizio, Luca Benini, Daniele Palossi, (参考訳) ポケットサイズの自律型ナノドローンは、狭く制約された空間で視覚検査を行うなど、多くのロボットのユースケースに革命をもたらす可能性がある。 PULP (parallel-ultra-low-power) MCUクラスナビゲーションやミッションコントローラで利用可能な限られた計算資源と競合する。 この研究は、ナノドロンの自律的なナビゲーションのためのステート・オブ・ザ・アート畳み込みニューラルネットワークであるPULP-Dronetから始まった。 本稿では,Tyny-PULP-Dronetについて紹介する。Tyny-PULP-Dronetは1桁以上のモデルサイズ(パラメータが50倍少ない)と,PULP-Dronetと同様の飛行性能で推論を行うために必要な演算数(27倍少ない乗算および累積演算数)を圧縮する新しい手法である。 この大規模な削減は、高レベルのインテリジェンスを達成するための基本的な要件であるナノドロンの安価なマルチタスクへの道を開く。

Pocket-sized autonomous nano-drones can revolutionize many robotic use cases, such as visual inspection in narrow, constrained spaces, and ensure safer human-robot interaction due to their tiny form factor and weight -- i.e., tens of grams. This compelling vision is challenged by the high level of intelligence needed aboard, which clashes against the limited computational and storage resources available on PULP (parallel-ultra-low-power) MCU class navigation and mission controllers that can be hosted aboard. This work moves from PULP-Dronet, a State-of-the-Art convolutional neural network for autonomous navigation on nano-drones. We introduce Tiny-PULP-Dronet: a novel methodology to squeeze by more than one order of magnitude model size (50x fewer parameters), and number of operations (27x less multiply-and-accumulate) required to run inference with similar flight performance as PULP-Dronet. This massive reduction paves the way towards affordable multi-tasking on nano-drones, a fundamental requirement for achieving high-level intelligence.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# CEB:大規模言語モデルにおける公平性のための構成的評価ベンチマーク

CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models ( http://arxiv.org/abs/2407.02408v1 )

ライセンス: Link先を確認
Song Wang, Peng Wang, Tong Zhou, Yushun Dong, Zhen Tan, Jundong Li, (参考訳) 様々な自然言語処理(NLP)タスクを扱うために、LLM(Large Language Models)がますます導入されているため、LLM生成コンテンツの潜在的負の社会的影響に関する懸念も持ち上がっている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。 しかし、既存のバイアス評価の取り組みは、特定の種類のバイアスのみに焦点を合わせ、一貫性のない評価指標を採用し、異なるデータセットとLLMの比較が困難になる。 これらの制約に対処するために、LLMのバイアス評価用に設計されたさまざまなデータセットを収集し、さらに、異なる社会的グループやタスクにまたがる様々な種類のバイアスをカバーする構成的評価ベンチマークであるCEBを提案する。 CEBのキュレーションは、新しく提案された構成分類に基づいており、各データセットはバイアスタイプ、社会グループ、タスクの3次元から特徴付けられる。 これらの3次元を組み合わせることで,LLMのバイアスに対する総合的な評価戦略を開発する。 本実験は, 偏差のレベルがこれらの次元によって異なることを実証し, 偏差緩和法の開発のためのガイダンスを提供する。

As Large Language Models (LLMs) are increasingly deployed to handle various natural language processing (NLP) tasks, concerns regarding the potential negative societal impacts of LLM-generated content have also arisen. To evaluate the biases exhibited by LLMs, researchers have recently proposed a variety of datasets. However, existing bias evaluation efforts often focus on only a particular type of bias and employ inconsistent evaluation metrics, leading to difficulties in comparison across different datasets and LLMs. To address these limitations, we collect a variety of datasets designed for the bias evaluation of LLMs, and further propose CEB, a Compositional Evaluation Benchmark that covers different types of bias across different social groups and tasks. The curation of CEB is based on our newly proposed compositional taxonomy, which characterizes each dataset from three dimensions: bias types, social groups, and tasks. By combining the three dimensions, we develop a comprehensive evaluation strategy for the bias in LLMs. Our experiments demonstrate that the levels of bias vary across these dimensions, thereby providing guidance for the development of specific bias mitigation methods.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# ビデオ透かし:ビデオベースのLLMによる(認可されていない)アノテーションからビデオを保護

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs ( http://arxiv.org/abs/2407.02411v1 )

ライセンス: Link先を確認
Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-Tao Xia, (参考訳) ビデオベースのLarge Language Models(LLM)の出現により、ビデオ理解が大幅に向上した。 しかし、ビデオは認可なしでもより簡単に注釈を付けることができるため、データ保護に関するいくつかの安全上の懸念も持ち上がっている。 本稿では,ビデオ・ウォーターマーキング(ビデオ・ウォーターマーキング)について紹介する。ビデオ・ウォーターマーキング(ビデオ・ウォーターマーキング)とは,特にビデオの内容や記述について,特定のクエリに応答して,ビデオの無許可アノテーションからビデオを保護する手法である。 マルチモーダルなフローベース損失を伴うキービデオフレームに透かしを挿入することで,ビデオによるLLMの誤用を防止しつつ,視聴体験を保ち得る。 ビデオ透かしは、様々なビデオベースのLLMによるビデオの理解性を著しく低下させ、ステルスとロバスト性の両方を実証する。 本手法は,ビデオコンテンツ保護のソリューションを提供し,その完全性と機密性を確保する。

The advent of video-based Large Language Models (LLMs) has significantly enhanced video understanding. However, it has also raised some safety concerns regarding data protection, as videos can be more easily annotated, even without authorization. This paper introduces Video Watermarking, a novel technique to protect videos from unauthorized annotations by such video-based LLMs, especially concerning the video content and description, in response to specific queries. By imperceptibly embedding watermarks into key video frames with multi-modal flow-based losses, our method preserves the viewing experience while preventing misuse by video-based LLMs. Extensive experiments show that Video Watermarking significantly reduces the comprehensibility of videos with various video-based LLMs, demonstrating both stealth and robustness. In essence, our method provides a solution for securing video content, ensuring its integrity and confidentiality in the face of evolving video-based LLMs technologies.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# AXIAL:ttention-based eXplainability for Interpretable Alzheimer's Localized diagnosis using 2D CNNs on 3D MRI brain scan

AXIAL: Attention-based eXplainability for Interpretable Alzheimer's Localized Diagnosis using 2D CNNs on 3D MRI brain scans ( http://arxiv.org/abs/2407.02418v1 )

ライセンス: Link先を確認
Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Claudio De Stefano, (参考訳) 本研究では,3次元MRIを用いたアルツハイマー病診断の革新的手法を提案する。 提案手法では,2次元CNNがボリューム表現を抽出できるソフトアテンション機構を採用している。 同時に、意思決定における各スライスの重要性を学習し、ボクセルレベルの注目マップを生成して説明可能なMRIを生成する。 そこで我々はアルツハイマー病神経画像イニシアチブ(ADNI)のMRIデータを標準化し,その再現性を確認した。 このデータセットでは、我々の手法は最先端の手法よりも大幅に優れています。 i)ADと認知正常(CN)を精度0.856、Matthew's correlation coefficient(MCC)0.712と区別し、それぞれ2.4\%と5.3\%の改善を示し、それぞれ第2ベストに対する改善を示す。 (II) 進行性軽度認知障害(MCI)と診断し, 精度0.725, MCC0.443, 10.2\%, 20.5\%の改善を示した。 本研究は, 形態変化に対する感受性を高め, 早期AD検出を容易にする二重転写学習戦略を採用することにより, この予後を達成した。 ボクセルレベルの精度では、どの領域に注意が払われているかを同定し、これらの支配的な脳領域を同定する: \emph{hippocampus}, \emph{amygdala}, \emph{parahippocampal}, \emph{inferior lateral ventricles}。 これらの領域は、AD開発と臨床的に関連付けられている。 さらに本手法では, 異種異型折り畳みのAD関連領域を一貫して発見し, その堅牢性, 正確性を証明し, 疾患の既知病理マーカーと密に一致した領域を強調した。

This study presents an innovative method for Alzheimer's disease diagnosis using 3D MRI designed to enhance the explainability of model decisions. Our approach adopts a soft attention mechanism, enabling 2D CNNs to extract volumetric representations. At the same time, the importance of each slice in decision-making is learned, allowing the generation of a voxel-level attention map to produces an explainable MRI. To test our method and ensure the reproducibility of our results, we chose a standardized collection of MRI data from the Alzheimer's Disease Neuroimaging Initiative (ADNI). On this dataset, our method significantly outperforms state-of-the-art methods in (i) distinguishing AD from cognitive normal (CN) with an accuracy of 0.856 and Matthew's correlation coefficient (MCC) of 0.712, representing improvements of 2.4\% and 5.3\% respectively over the second-best, and (ii) in the prognostic task of discerning stable from progressive mild cognitive impairment (MCI) with an accuracy of 0.725 and MCC of 0.443, showing improvements of 10.2\% and 20.5\% respectively over the second-best. We achieved this prognostic result by adopting a double transfer learning strategy, which enhanced sensitivity to morphological changes and facilitated early-stage AD detection. With voxel-level precision, our method identified which specific areas are being paid attention to, identifying these predominant brain regions: the \emph{hippocampus}, the \emph{amygdala}, the \emph{parahippocampal}, and the \emph{inferior lateral ventricles}. All these areas are clinically associated with AD development. Furthermore, our approach consistently found the same AD-related areas across different cross-validation folds, proving its robustness and precision in highlighting areas that align closely with known pathological markers of the disease.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 量子カリキュラム学習

Quantum Curriculum Learning ( http://arxiv.org/abs/2407.02419v1 )

ライセンス: Link先を確認
Quoc Hoan Tran, Yasuhiro Endo, Hirotaka Oshima, (参考訳) 量子機械学習(QML)は、量子優位性を達成するために重要な量子リソースを必要とする。 研究は、量子アーキテクチャの効率的な設計と、リソース使用を最適化するための学習戦略の開発の両方を優先すべきである。 本稿では,量子データのための量子カリキュラム学習(Q-CurL)というフレームワークを提案する。 課題間のデータ密度比に基づいてカリキュラムの基準を定義し,カリキュラムの順序を決定する。 また、損失関数の最適化における量子データの重要性を強調するために、動的学習スケジュールを実装した。 実証的な証拠は、Q-CurLが一元学習タスクの訓練収束と一般化を促進し、量子位相認識タスクの堅牢性を向上させることを示している。 我々のフレームワークは一般的な学習戦略を提供し、QMLを実用的な利点の実現に近づけます。

Quantum machine learning (QML) requires significant quantum resources to achieve quantum advantage. Research should prioritize both the efficient design of quantum architectures and the development of learning strategies to optimize resource usage. We propose a framework called quantum curriculum learning (Q-CurL) for quantum data, where the curriculum introduces simpler tasks or data to the learning model before progressing to more challenging ones. We define the curriculum criteria based on the data density ratio between tasks to determine the curriculum order. We also implement a dynamic learning schedule to emphasize the significance of quantum data in optimizing the loss function. Empirical evidence shows that Q-CurL enhances the training convergence and the generalization for unitary learning tasks and improves the robustness of quantum phase recognition tasks. Our framework provides a general learning strategy, bringing QML closer to realizing practical advantages.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 実測値と時空のオントロジー

Sentient observers and the ontology of spacetime ( http://arxiv.org/abs/2407.02421v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) ガリレオと特殊相対性理論とゲージ対称性に繋がったのと同じ基準で、宇宙や時空の構造を与える観測可能な一意の集合を特定する方法がないことを示す。 ある意味では、空間は状態空間自身で失われる。 さらに、観測可能量とそれらが表す物理的性質との関係は相対的になる。 しかし、それらが相対性ではなく、時空構造が一意であることを確認することができる。 これは、全ての構造がオブザーバーに同型であるとは限らないことを示唆しており、構造的リアリズムや物理主義と矛盾している。 これは、時空と観測者の感性の間に強いつながりがあることを示しており、いくつかの初期の相対性理論や一般相対性理論への貢献者が予想していた。

I show that, by the same criteria that led to Galilean and Special Relativity and gauge symmetries, there is no way to identify a unique set of observables that give the structure of space or spacetime. In some sense, space is lost in the state space itself. Moreover, the relationship between the observables and the physical properties they represent becomes relative. But we can verify that they are not relative, and the spacetime structure is unique. I show that this implies that not all structures isomorphic with observers can be observers, contradicting Structural Realism and Physicalism. This indicates a strong connection between spacetime and the sentience of the observers, as anticipated by some early contributors to Special and General Relativity.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 近づいたが、そうではない: 視覚的位置認識における地理的距離感を高める

Close, But Not There: Boosting Geographic Distance Sensitivity in Visual Place Recognition ( http://arxiv.org/abs/2407.02422v1 )

ライセンス: Link先を確認
Sergio Izquierdo, Javier Civera, (参考訳) 視覚的位置認識(VPR)は多くのローカライゼーションとマッピングパイプラインにおいて重要な役割を果たす。 それは、ジオタグ付き参照のデータベースから、ある埋め込み空間において、クエリイメージに最も近いサンプルを取得することで構成される。 画像埋め込みは、視覚的外観、視点、幾何学的変化が異なるにもかかわらず、効果的に場所を記述するために学習される。 本研究では,現在のVPR埋め込みにおける地理的距離感性の限界が,トップk検索を誤ってソートする確率が高く,リコールに悪影響を及ぼすことを示す。 単一ステージのVPRでこの問題に対処するために,視覚的に類似した画像のグラフから斜めをサンプリングすることにより,正および負の例を選択する新たなマイニング戦略であるCliqueMiningを提案する。 提案手法は,VPR埋め込みの感度を極小範囲で向上させ,関連するベンチマークの最先端性を大幅に向上させる。 特に、リコール@1をMSLS Challengeで75%から82%、北欧で76%から90%に引き上げます。 モデルとコードはhttps://github.com/serizba/cliquemining.comで入手できる。

Visual Place Recognition (VPR) plays a critical role in many localization and mapping pipelines. It consists of retrieving the closest sample to a query image, in a certain embedding space, from a database of geotagged references. The image embedding is learned to effectively describe a place despite variations in visual appearance, viewpoint, and geometric changes. In this work, we formulate how limitations in the Geographic Distance Sensitivity of current VPR embeddings result in a high probability of incorrectly sorting the top-k retrievals, negatively impacting the recall. In order to address this issue in single-stage VPR, we propose a novel mining strategy, CliqueMining, that selects positive and negative examples by sampling cliques from a graph of visually similar images. Our approach boosts the sensitivity of VPR embeddings at small distance ranges, significantly improving the state of the art on relevant benchmarks. In particular, we raise recall@1 from 75% to 82% in MSLS Challenge, and from 76% to 90% in Nordland. Models and code are available at https://github.com/serizba/cliquemining.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 注意の解剖学について

On the Anatomy of Attention ( http://arxiv.org/abs/2407.02423v1 )

ライセンス: Link先を確認
Nikhil Khatri, Tuomas Laakkonen, Jonathon Liu, Vincent Wang-Maścianica, (参考訳) 本稿では、機械学習モデルについて体系的に関連付け、推論するために、カテゴリ理論図式形式を導入する。 図は直感的にアーキテクチャを示すが、重要な詳細を欠くことなく、グラフィカルな変換によってモデル間の自然な関係が捉えられ、重要な違いと類似点が一目でわかる。 本稿では,民間伝承を数学的導出に翻訳し,文献における注意変化の分類学を構築することを目的とした注意機構について述べる。 フォーマリズムに根ざした経験的調査の第一例として,注意の解剖学的成分を同定し,注意機構の変動の空間を探索するため,徹底的に再結合した。

We introduce a category-theoretic diagrammatic formalism in order to systematically relate and reason about machine learning models. Our diagrams present architectures intuitively but without loss of essential detail, where natural relationships between models are captured by graphical transformations, and important differences and similarities can be identified at a glance. In this paper, we focus on attention mechanisms: translating folklore into mathematical derivations, and constructing a taxonomy of attention variants in the literature. As a first example of an empirical investigation underpinned by our formalism, we identify recurring anatomical components of attention, which we exhaustively recombine to explore a space of variations on the attention mechanism.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 機械学習タスクのためのパターン言語

A Pattern Language for Machine Learning Tasks ( http://arxiv.org/abs/2407.02424v1 )

ライセンス: Link先を確認
Benjamin Rodatz, Ian Fan, Tuomas Laakkonen, Neil John Ortega, Thomas Hoffman, Vincent Wang-Mascianica, (参考訳) 普遍近似器として理想化され、ニューラルネットワークのような学習者は「可変関数」と見なされ、訓練後に具体的な関数の1つとなる。 方程式が代数の変数の可能な値を制約するのと同じように、目的関数を学習者の振る舞いに関する制約と見なすことができる。 完全に最適化された目的関数が課す同値を抽出し、それらを「タスク」と呼ぶ。 これらのタスクのために、(1)行動の中核的なタスクを実装の詳細から分離する、(2)行動の理由と設計をモデルに依存しない、(3)ドメイン間の機械学習におけるアプローチを単純に記述し統一する、という形式的なグラフィカル言語を開発する。 概念実証として,タスク仕様を直接コードに変換することで実装した「マニピュレータ」と呼ばれる生成モデルに分類器を変換できる新しいタスクを設計する。 結果として得られたモデルは、カスタムアーキテクチャ、逆トレーニング、ランダムサンプリングを必要とせずに、スタイル転送や解釈可能な潜在空間編集などの機能を提供する。 我々は,マニピュレータの動作をGANと正式に関連付け,VAEとの競争性能を実証的に示す。 本稿では,マニピュレータを識別型分類器のベイズ近似逆転として特徴付けるために,視覚領域と言語領域にまたがる実験について報告する。

Idealised as universal approximators, learners such as neural networks can be viewed as "variable functions" that may become one of a range of concrete functions after training. In the same way that equations constrain the possible values of variables in algebra, we may view objective functions as constraints on the behaviour of learners. We extract the equivalences perfectly optimised objective functions impose, calling them "tasks". For these tasks, we develop a formal graphical language that allows us to: (1) separate the core tasks of a behaviour from its implementation details; (2) reason about and design behaviours model-agnostically; and (3) simply describe and unify approaches in machine learning across domains. As proof-of-concept, we design a novel task that enables converting classifiers into generative models we call "manipulators", which we implement by directly translating task specifications into code. The resulting models exhibit capabilities such as style transfer and interpretable latent-space editing, without the need for custom architectures, adversarial training or random sampling. We formally relate the behaviour of manipulators to GANs, and empirically demonstrate their competitive performance with VAEs. We report on experiments across vision and language domains aiming to characterise manipulators as approximate Bayesian inversions of discriminative classifiers.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# 強化学習と機械倫理:体系的レビュー

Reinforcement Learning and Machine ethics:a systematic review ( http://arxiv.org/abs/2407.02425v1 )

ライセンス: Link先を確認
Ajay Vishwanath, Louise A. Dennis, Marija Slavkovik, (参考訳) 機械倫理は、自律システムによって倫理的行動がどのように達成されるかを研究する分野である。 2020年以前には、機械倫理の最先端化を目指す体系的なレビューがいくつかあるが、これらには、倫理的行動が達成されるエンティティとして強化学習エージェントを使用する作業が含まれない傾向にある。 その理由は、ここ数年で強化学習における機械倫理研究が増加しているのを目撃しただけである。 本稿では,強化学習における機械倫理と機械倫理のための強化学習の体系的なレビューを紹介する。 さらに、倫理規定、強化学習の構成要素と枠組み、倫理行動の結果として使われる環境の傾向を強調した。 我々の体系的レビューは、機械倫理と強化学習の取り組みを強化し、最先端の機械倫理の展望のギャップを埋めることを目的としている。

Machine ethics is the field that studies how ethical behaviour can be accomplished by autonomous systems. While there exist some systematic reviews aiming to consolidate the state of the art in machine ethics prior to 2020, these tend to not include work that uses reinforcement learning agents as entities whose ethical behaviour is to be achieved. The reason for this is that only in the last years we have witnessed an increase in machine ethics studies within reinforcement learning. We present here a systematic review of reinforcement learning for machine ethics and machine ethics within reinforcement learning. Additionally, we highlight trends in terms of ethics specifications, components and frameworks of reinforcement learning, and environments used to result in ethical behaviour. Our systematic review aims to consolidate the work in machine ethics and reinforcement learning thus completing the gap in the state of the art machine ethics landscape
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# バイオニックロボットの学習モデルの比較評価:非線形伝達関数同定

Comparative Evaluation of Learning Models for Bionic Robots: Non-Linear Transfer Function Identifications ( http://arxiv.org/abs/2407.02428v1 )

ライセンス: Link先を確認
Po-Yu Hsieh, June-Hao Hou, (参考訳) バイオニックロボットダイナミクスの制御とモデリングは、機械学習手法を用いたモデルフリー制御戦略をますます採用している。 バイオニックロボットシステムの非線形弾性特性を考慮し, 数値データを利用して, 複雑なキネマティックスモデルを使わずに, 動作入力からロボット軌道への直接マッピングを確立することによって, 信頼性の高い代替手段を提供する。 しかし,開発者にとって,特定のバイオニックロボットの適切な学習モデルを特定し,さらに伝達関数を構築する方法は十分に議論されていない。 そこで本研究では, アンサンブル学習モデル, 正規化ベースモデル, カーネルベースモデル, ニューラルネットワークモデル, マルチインプットマルチアウトプット(MIMO)データと非線形伝達関数識別に適した4種類のモデルを訓練し, それらの精度, (2) 計算複雑性, (3) 生体運動の捕捉性能を評価する。 本研究は、入力と動作出力の制御、機械学習モデルの選択、トレーニング結果の比較分析、伝達関数識別のためのデータ収集方法を含む。 主な目的は、モデルフリー制御の適用のための包括的な評価戦略とフレームワークを提供することである。

The control and modeling of bionic robot dynamics have increasingly adopted model-free control strategies using machine learning methods. Given the non-linear elastic nature of bionic robotic systems, learning-based methods provide reliable alternatives by utilizing numerical data to establish a direct mapping from actuation inputs to robot trajectories without complex kinematics models. However, for developers, the method of identifying an appropriate learning model for their specific bionic robots and further constructing the transfer function has not been thoroughly discussed. Thus, this research trains four types of models, including ensemble learning models, regularization-based models, kernel-based models, and neural network models, suitable for multi-input multi-output (MIMO) data and non-linear transfer function identification, in order to evaluate their (1) accuracy, (2) computation complexity, and (3) performance of capturing biological movements. This research encompasses data collection methods for control inputs and action outputs, selection of machine learning models, comparative analysis of training results, and transfer function identifications. The main objective is to provide a comprehensive evaluation strategy and framework for the application of model-free control.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# Meta 3D TextureGen: 3Dオブジェクトのための高速で一貫性のあるテクスチャ生成

Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects ( http://arxiv.org/abs/2407.02430v1 )

ライセンス: Link先を確認
Raphael Bensadoun, Yanir Kleiman, Idan Azuri, Omri Harosh, Andrea Vedaldi, Natalia Neverova, Oran Gafni, (参考訳) 近年のテキスト・ツー・イメージ・モデルの可用性と適応性は、学習されたテキスト先行と高品質で高速な生成能力の恩恵を受ける多くの関連ドメインで新たな時代を招き、そのうちの1つは3Dオブジェクトのテクスチャ生成である。 近年のテクスチャ生成手法は, テクスチャ生成を現実のアプリケーションに進化させる上で重要な, グローバルな一貫性, 品質, スピードの組み合わせによって, 目覚ましい結果が得られている。 そこで我々はMeta 3D TextureGenを紹介した。Meta 3D TextureGenは,複雑度が20秒未満の任意のジオメトリに対して,高品質で一貫したテクスチャを生成するために,2つのシーケンシャルネットワークで構成される新しいフィードフォワード方式である。 提案手法は,2次元空間における3次元セマンティクスにテキスト・ツー・イメージ・モデルを適用し,それらを完全かつ高解像度なUVテクスチャマップに融合させることにより,品質と速度の最先端性を実現する。 さらに、任意の比率で任意のテクスチャをアップスケーリングできるテクスチャ拡張ネットワークを導入し、4kピクセルの解像度テクスチャを生成します。

The recent availability and adaptability of text-to-image models has sparked a new era in many related domains that benefit from the learned text priors as well as high-quality and fast generation capabilities, one of which is texture generation for 3D objects. Although recent texture generation methods achieve impressive results by using text-to-image networks, the combination of global consistency, quality, and speed, which is crucial for advancing texture generation to real-world applications, remains elusive. To that end, we introduce Meta 3D TextureGen: a new feedforward method comprised of two sequential networks aimed at generating high-quality and globally consistent textures for arbitrary geometries of any complexity degree in less than 20 seconds. Our method achieves state-of-the-art results in quality and speed by conditioning a text-to-image model on 3D semantics in 2D space and fusing them into a complete and high-resolution UV texture map, as demonstrated by extensive qualitative and quantitative evaluations. In addition, we introduce a texture enhancement network that is capable of up-scaling any texture by an arbitrary ratio, producing 4k pixel resolution textures.
翻訳日:2024-07-03 14:36:57 公開日:2024-07-02
# GNNバックドアに対するグラフ削減のロバスト性について

On the Robustness of Graph Reduction Against GNN Backdoor ( http://arxiv.org/abs/2407.02431v1 )

ライセンス: Link先を確認
Yuxuan Zhu, Michael Mandulak, Kerui Wu, George Slota, Yuseok Jeon, Ka-Ho Chow, Lei Yu, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データ学習の有効性から,さまざまな領域で人気を集めている。 それにもかかわらず、バックドア中毒の攻撃を受けやすいことが示されており、これは現実世界の応用に深刻な脅威をもたらしている。 一方,大規模グラフ処理タスクのスケーラビリティ向上に長年使われてきた粗大化やスパーシフィケーションを含むグラフ削減技術は,近年,大規模グラフ上でのGNNトレーニングの高速化に有効な方法として浮上している。 しかし、GNNに対するデータ中毒攻撃の潜在的なリスクを見越して、大規模グラフのためのグラフ削減技術の開発と展開が進められている。 グラフの削減が既存のバックドア攻撃とどのように相互作用するかは、まだ明らかになっていない。 本稿では,スケーラブルなGNNトレーニングにおけるグラフ削減手法の堅牢性について,最先端のバックドアアタックの存在下で徹底的に検討する。 我々は,3つのGNNアーキテクチャに対する3つのGNNバックドア攻撃の下で,粗大化法と6つのスペーサー化法を包括的ロバストネス解析した。 以上の結果から,攻撃成功率の軽減にグラフ削減法が有効であることは明らかであり,攻撃を悪化させる方法もある。 トリガーと毒素ノードの詳細な分析を通じて、我々の発見を解釈し、グラフの縮小がバックドア攻撃とどのように相互作用するかの理解を深める。 これらの結果から,GNNトレーニングのグラフ化に頑健さを考慮に入れる必要性が強調され,計算効率の向上がGNNシステムのセキュリティを損なわないことが保証された。

Graph Neural Networks (GNNs) are gaining popularity across various domains due to their effectiveness in learning graph-structured data. Nevertheless, they have been shown to be susceptible to backdoor poisoning attacks, which pose serious threats to real-world applications. Meanwhile, graph reduction techniques, including coarsening and sparsification, which have long been employed to improve the scalability of large graph computational tasks, have recently emerged as effective methods for accelerating GNN training on large-scale graphs. However, the current development and deployment of graph reduction techniques for large graphs overlook the potential risks of data poisoning attacks against GNNs. It is not yet clear how graph reduction interacts with existing backdoor attacks. This paper conducts a thorough examination of the robustness of graph reduction methods in scalable GNN training in the presence of state-of-the-art backdoor attacks. We performed a comprehensive robustness analysis across six coarsening methods and six sparsification methods for graph reduction, under three GNN backdoor attacks against three GNN architectures. Our findings indicate that the effectiveness of graph reduction methods in mitigating attack success rates varies significantly, with some methods even exacerbating the attacks. Through detailed analyses of triggers and poisoned nodes, we interpret our findings and enhance our understanding of how graph reduction interacts with backdoor attacks. These results highlight the critical need for incorporating robustness considerations in graph reduction for GNN training, ensuring that enhancements in computational efficiency do not compromise the security of GNN systems.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# テンプレートを用いた逆薬物事象分類モデルのロバスト性評価

Evaluating the Robustness of Adverse Drug Event Classification Models Using Templates ( http://arxiv.org/abs/2407.02432v1 )

ライセンス: Link先を確認
Dorothea MacPhail, David Harbecke, Lisa Raithel, Sebastian Möller, (参考訳) 副作用 (ADE) は、薬物治療によって引き起こされる有害事象である。 その重要性にもかかわらず、ADEはしばしば公式チャンネルで報告されていない。 そのため、ソーシャルメディアにおけるADEの議論を検出する研究もある。 ADEを検出する様々な試みで印象的な結果が得られた。 しかし、医学などの高度な領域では、モデルの能力の詳細な評価が不可欠である。 本研究は,手作りテンプレートを用いた英語ADE検出における時間順,否定,感情,有意義な効果の4つの特徴について,徹底的な性能評価の課題に対処する。 ホールドアウトテストセットに類似した性能を持つモデルでは,これらの機能について様々な結果が得られた。

An adverse drug effect (ADE) is any harmful event resulting from medical drug treatment. Despite their importance, ADEs are often under-reported in official channels. Some research has therefore turned to detecting discussions of ADEs in social media. Impressive results have been achieved in various attempts to detect ADEs. In a high-stakes domain such as medicine, however, an in-depth evaluation of a model's abilities is crucial. We address the issue of thorough performance evaluation in English-language ADE detection with hand-crafted templates for four capabilities: Temporal order, negation, sentiment, and beneficial effect. We find that models with similar performance on held-out test sets have varying results on these capabilities.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# パラメータマッチングアタック:アベイラビリティアタックの実践的適用性を高める

Parameter Matching Attack: Enhancing Practical Applicability of Availability Attacks ( http://arxiv.org/abs/2407.02437v1 )

ライセンス: Link先を確認
Yu Zhe, Jun Sakuma, (参考訳) 機械学習モデルのトレーニングにパーソナルデータが広く使用されていることは、個人がその後の公開データをどのように活用するかを制限しているため、重大なプライバシー上の懸念を提起する。 データ所有者がトレーニングデータセットに組み込まれた場合、モデルパフォーマンスを低下させる、知覚不能な摂動を回避して、データを保護する手段として、アベイラビリティアタックが登場した。 しかし、既存のアベイラビリティーアタックは、特にデータの一部しか摂動できない場合に、実用性に限界がある。 そこで本研究では,パラメータマッチング攻撃(PMA)と呼ばれる新しいアベイラビリティ攻撃手法を提案する。 PMAは、データの一部を摂動できる場合に機能する最初のアベイラビリティ攻撃である。 PMAは摂動を最適化し、モデルがクリーンデータと摂動データの混合で訓練されると、結果のモデルが粗悪に動作するように設計されたモデルにアプローチする。 4つのデータセットにまたがる実験の結果、PMAは既存の手法よりも優れており、トレーニングデータの一部が摂動した場合に顕著なモデル性能劣化を達成している。 私たちのコードは補足室で利用可能です。

The widespread use of personal data for training machine learning models raises significant privacy concerns, as individuals have limited control over how their public data is subsequently utilized. Availability attacks have emerged as a means for data owners to safeguard their data by desning imperceptible perturbations that degrade model performance when incorporated into training datasets. However, existing availability attacks exhibit limitations in practical applicability, particularly when only a portion of the data can be perturbed. To address this challenge, we propose a novel availability attack approach termed Parameter Matching Attack (PMA). PMA is the first availability attack that works when only a portion of data can be perturbed. PMA optimizes perturbations so that when the model is trained on a mixture of clean and perturbed data, the resulting model will approach a model designed to perform poorly. Experimental results across four datasets demonstrate that PMA outperforms existing methods, achieving significant model performance degradation when a part of the training data is perturbed. Our code is available in the supplementary.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 図形設計文書における視覚的注意の予測

Predicting Visual Attention in Graphic Design Documents ( http://arxiv.org/abs/2407.02439v1 )

ライセンス: Link先を確認
Souradeep Chakraborty, Zijun Wei, Conor Kelton, Seoyoung Ahn, Aruna Balasubramanian, Gregory J. Zelinsky, Dimitris Samaras, (参考訳) 図形図形文書を自由に閲覧する際の視覚的注意を予測できるモデルを提案する。 本研究は,文書領域を深層学習モデルを用いて視線で固定する空間的注意と動的時間的秩序の両方を予測するための最初の試みである。 本稿では,このような文書に対する動的注意を予測するための2段階モデルを提案する。 最初の段階では、文書レイアウトのタイプに基づいて、各ドキュメントコンポーネント(例えば、Webページのロゴ、バナー、テキストなど)の唾液マップを予測します。 これらのコンポーネントの相性マップは、ドキュメント全体の相性を予測するために共同で使用される。 第2段階では、これらのレイアウト固有のコンポーネント・サリエンシ・マップを、文書閲覧時の修正スキャンパス予測の逆強化学習モデルのための状態表現として使用する。 このモデルをテストするために、41人の目の動きからなる新しいデータセットを収集し、450のWebページ(この種の最大のデータセット)を自由に閲覧した。 実験結果から,本モデルはWebページの精度とスキャンパス予測の両方において既存モデルよりも優れており,漫画やポスター,モバイルUIなど他のグラフィックデザイン文書や自然画像に非常によく対応していることがわかった。

We present a model for predicting visual attention during the free viewing of graphic design documents. While existing works on this topic have aimed at predicting static saliency of graphic designs, our work is the first attempt to predict both spatial attention and dynamic temporal order in which the document regions are fixated by gaze using a deep learning based model. We propose a two-stage model for predicting dynamic attention on such documents, with webpages being our primary choice of document design for demonstration. In the first stage, we predict the saliency maps for each of the document components (e.g. logos, banners, texts, etc. for webpages) conditioned on the type of document layout. These component saliency maps are then jointly used to predict the overall document saliency. In the second stage, we use these layout-specific component saliency maps as the state representation for an inverse reinforcement learning model of fixation scanpath prediction during document viewing. To test our model, we collected a new dataset consisting of eye movements from 41 people freely viewing 450 webpages (the largest dataset of its kind). Experimental results show that our model outperforms existing models in both saliency and scanpath prediction for webpages, and also generalizes very well to other graphic design documents such as comics, posters, mobile UIs, etc. and natural images.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# Meta 3D AssetGen: 高品質な幾何学・テクスチャ・PBR材料を用いたテキスト・ツー・メシュ生成

Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials ( http://arxiv.org/abs/2407.02445v1 )

ライセンス: Link先を確認
Yawar Siddiqui, Tom Monnier, Filippos Kokkinos, Mahendra Kariya, Yanir Kleiman, Emilien Garreau, Oran Gafni, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny, (参考訳) そこで我々はMeta 3D AssetGen(AssetGen)を提案する。これはテクスチャと素材制御を備えた忠実で高品質なメッシュを生成するテキストから3D生成の大幅な進歩である。 3Dオブジェクトの外観におけるベークシェーディングと比較すると、AssetGenは物理ベースのレンダリング(PBR)素材を出力し、リアルなリライティングをサポートする。 AssetGenは、まず、因子付きシェードとアルベドの外観チャネルを持つオブジェクトのいくつかのビューを生成し、その後、遅延シェーディング損失を使用して、3Dで色、金属性、粗さを再構築し、効率的な監視を行う。 また、3次元形状をより確実に表現するために、符号距離関数を使用し、直接形状を監督するために対応する損失を導入する。 これは、メモリ効率を高めるために融合カーネルを用いて実装されている。 メッシュ抽出後、UV空間で動作するテクスチャ精細変換器はシャープネスとディテールを著しく改善する。 AssetGenは、チェムファー距離を17%改善し、LPIPSを40%改善した。 生成された資産を持つプロジェクトページ: https://assetgen.github.io

We present Meta 3D AssetGen (AssetGen), a significant advancement in text-to-3D generation which produces faithful, high-quality meshes with texture and material control. Compared to works that bake shading in the 3D object's appearance, AssetGen outputs physically-based rendering (PBR) materials, supporting realistic relighting. AssetGen generates first several views of the object with factored shaded and albedo appearance channels, and then reconstructs colours, metalness and roughness in 3D, using a deferred shading loss for efficient supervision. It also uses a sign-distance function to represent 3D shape more reliably and introduces a corresponding loss for direct shape supervision. This is implemented using fused kernels for high memory efficiency. After mesh extraction, a texture refinement transformer operating in UV space significantly improves sharpness and details. AssetGen achieves 17% improvement in Chamfer Distance and 40% in LPIPS over the best concurrent work for few-view reconstruction, and a human preference of 72% over the best industry competitors of comparable speed, including those that support PBR. Project page with generated assets: https://assetgen.github.io
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 予測と行動:世界モデリングとエージェントモデリングのトレードオフ

Predicting vs. Acting: A Trade-off Between World Modeling & Agent Modeling ( http://arxiv.org/abs/2407.02446v1 )

ライセンス: Link先を確認
Margaret Li, Weijia Shi, Artidoro Pagnoni, Peter West, Ari Holtzman, (参考訳) RLHF準拠のLMは、ベンチマークと長文テキスト生成の両方で前例のない能力を示しているが、彼らは1つの基本的なタスクに苦労している。 RLHFモデルが人間との対話を目的としたエージェントモデルになるにつれ、RLHFが適応するBase LMの基本的なトレーニング目標である、任意のドキュメントで次に何が起こるかを予測する能力である、世界モデリングが失われているように思われる。 このトレードオフを実証的に示すことに加えて、コヒーレントなロングフォーム生成を行うために、RLHFモデルは暗黙の青写真を通してランダム性を制限する。 特に、RLHFモデルは、同じプロンプトのために複数の世代にまたがって共起するアンカースパンの集合に確率を集中させ、テキストの足場として機能すると同時に、これらのスパンを含まないドキュメントを生成するモデルの能力を制限する。 我々は、このトレードオフを、最も効果的な現在のエージェントモデル、すなわちRLHFと整合するモデルについて検討し、また、アライメント技術が改良されても、行動するモデルと予測するモデルとの基本的なトレードオフのままである可能性を探る。

RLHF-aligned LMs have shown unprecedented ability on both benchmarks and long-form text generation, yet they struggle with one foundational task: next-token prediction. As RLHF models become agent models aimed at interacting with humans, they seem to lose their world modeling -- the ability to predict what comes next in arbitrary documents, which is the foundational training objective of the Base LMs that RLHF adapts. Besides empirically demonstrating this trade-off, we propose a potential explanation: to perform coherent long-form generation, RLHF models restrict randomness via implicit blueprints. In particular, RLHF models concentrate probability on sets of anchor spans that co-occur across multiple generations for the same prompt, serving as textual scaffolding but also limiting a model's ability to generate documents that do not include these spans. We study this trade-off on the most effective current agent models, those aligned with RLHF, while exploring why this may remain a fundamental trade-off between models that act and those that predict, even as alignment techniques improve.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# PLeaS -- 置換と最小の正方形を持つモデルをマージする

PLeaS -- Merging Models with Permutations and Least Squares ( http://arxiv.org/abs/2407.02447v1 )

ライセンス: Link先を確認
Anshul Nasery, Jonathan Hayase, Pang Wei Koh, Sewoong Oh, (参考訳) 機械学習システムの民主化により、多数の実践者に対して微調整のプロセスがアクセス可能となり、特殊なタスクやデータセットに基づいて微調整された幅広いオープンソースモデルが実現された。 最近の研究は、それらの機能を組み合わせるためにそのようなモデルを統合することを提案した。 しかし、従来のアプローチは、同じベースモデルから微調整されたモデルに限られている。 さらに、最終的なマージモデルは通常、元のモデルと同じサイズに制限される。 本研究では,これらの制約を緩和するモデル終端PLeaSをマージする2段階のアルゴリズムを提案する。 まず、2つのモデルに固有の置換対称性を利用し、PLeaSはアライメントを最大化することで各層のノードを部分的にマッチングする。 次に、PLeaSは、マージモデルの重み付けをレイヤワイドな最小二乗解として計算し、マージモデルの特徴と元のモデルの置換された特徴との間の近似誤差を最小化する。 2つのオリジナルのモデルが異なるベースモデルから微調整された場合でも、望ましいサイズの単一のモデルにします。 また,細調整領域のデータを使わずにモデルをマージする手法も提案する。 共有および異なるラベル空間で訓練されたResNetモデルをマージする手法を実証し、ドメインネットで訓練されたモデルときめ細かな分類タスクを併用しながら、同じターゲット計算に対して最先端のマージ手法よりも8~15ポイント優れた性能を発揮することを示す。

The democratization of machine learning systems has made the process of fine-tuning accessible to a large number of practitioners, leading to a wide range of open-source models fine-tuned on specialized tasks and datasets. Recent work has proposed to merge such models to combine their functionalities. However, prior approaches are restricted to models that are fine-tuned from the same base model. Furthermore, the final merged model is typically restricted to be of the same size as the original models. In this work, we propose a new two-step algorithm to merge models-termed PLeaS-which relaxes these constraints. First, leveraging the Permutation symmetries inherent in the two models, PLeaS partially matches nodes in each layer by maximizing alignment. Next, PLeaS computes the weights of the merged model as a layer-wise Least Squares solution to minimize the approximation error between the features of the merged model and the permuted features of the original models. into a single model of a desired size, even when the two original models are fine-tuned from different base models. We also present a variant of our method which can merge models without using data from the fine-tuning domains. We demonstrate our method to merge ResNet models trained with shared and different label spaces, and show that we can perform better than the state-of-the-art merging methods by 8 to 15 percentage points for the same target compute while merging models trained on DomainNet and on fine-grained classification tasks.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# アラビア語ツイートからのヘイトスピーチ検出のための事前学習言語モデルとデータ拡張

Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets ( http://arxiv.org/abs/2407.02448v1 )

ライセンス: Link先を確認
Kheir Eddine Daouadi, Yaakoub Boualleg, Kheir Eddine Haouaouchi, (参考訳) 今日、アラビア語のツイートからのヘイトスピーチの分類が、何人かの研究者の注目を集めている。 この分類課題を解決するために多くのシステムや技術が開発されている。 それでも、この文脈で直面する大きな課題の2つは、限られたパフォーマンスと不均衡なデータの問題である。 本研究では,これまで手動でラベル付けされていたアンサンブル学習と半教師あり学習を活用する新しい手法を提案する。 我々は、アラビア語のツイートを、非憎悪、一般憎悪、人種、宗教、セクシズムの5つのクラスに分類して、ベンチマークデータセットで実験を行った。 実験の結果,(1)事前学習した言語モデルに基づくアンサンブル学習は,既存の関連作品よりも優れており,(2)アラビア語ツイートからのヘイトスピーチ検出の精度向上と,既存の関連作品よりも優れていた。 我々の主な貢献は、アラビア語のヘイトスピーチ検出における結果の促進である。

Today, hate speech classification from Arabic tweets has drawn the attention of several researchers. Many systems and techniques have been developed to resolve this classification task. Nevertheless, two of the major challenges faced in this context are the limited performance and the problem of imbalanced data. In this study, we propose a novel approach that leverages ensemble learning and semi-supervised learning based on previously manually labeled. We conducted experiments on a benchmark dataset by classifying Arabic tweets into 5 distinct classes: non-hate, general hate, racial, religious, or sexism. Experimental results show that: (1) ensemble learning based on pre-trained language models outperforms existing related works; (2) Our proposed data augmentation improves the accuracy results of hate speech detection from Arabic tweets and outperforms existing related works. Our main contribution is the achievement of encouraging results in Arabic hate speech detection.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# キーバーのサイドチャネル攻撃に対するハードウェアフレンドリーなシャッフル対策

A Hardware-Friendly Shuffling Countermeasure Against Side-Channel Attacks for Kyber ( http://arxiv.org/abs/2407.02452v1 )

ライセンス: Link先を確認
Dejun Xu, Kai Wang, Jing Tian, (参考訳) CRYSTALS-Kyber(別名Kyber)は、大規模な量子コンピュータによる攻撃に耐えるために、国立標準技術研究所(NIST)による唯一の鍵カプセル化機構(KEM)スキームとして標準化されている。 しかし、その実装上のサイドチャネルアタック(SCA)は、今後の移行に向けて十分に検討する必要がある。 本稿では,新しいコンパクトシャッフルアーキテクチャを取り入れた,キーバーのセキュアで効率的なハードウェア実装を提案する。 まず、Fisher-Yatesシャッフルを改造して、よりハードウェアフレンドリーにします。 そこで我々は,オープンソースのKyberハードウェア実装のために最適化されたシャッフルアーキテクチャを設計し,すべての潜在的なサイドチャネルリークポイントのセキュリティを強化する。 最後に,FPGAに改良Kyber設計を実装し,そのセキュリティと性能を評価する。 ハードウェアに相関電力解析(CPA)攻撃を施すことで、セキュリティを検証する。 一方、FPGAのプレース・アンド・ルートの結果は、既存の隠れ方式に比べてハードウェア効率が8.7%低下したことを報告している。

CRYSTALS-Kyber (a.k.a. Kyber) has been drafted to be standardized as the only key encapsulation mechanism (KEM) scheme by the national institute of standards and technology (NIST) to withstand attacks by large-scale quantum computers. However, the side-channel attack (SCA) on its implementation is still needed to be well considered for the upcoming migration. In this brief, we propose a secure and efficient hardware implementation for Kyber by incorporating a novel compact shuffling architecture. First of all, we modify the Fisher-Yates shuffle to make it more hardware-friendly. We then design an optimized shuffling architecture for the well-known open-source Kyber hardware implementation to enhance the security of all the potential side-channel leakage points. Finally, we implement the modified Kyber design on FPGA and evaluate its security and performance. The security is verified by conducting the correlation power analysis (CPA) attacks on the hardware. Meanwhile, FPGA place-and-route results show that the proposed design reports only 8.7% degradation on the hardware efficiency compared with the original unprotected version, much better than existing hiding schemes.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# マクロメカニカル発振器の量子集団運動

Quantum collective motion of macroscopic mechanical oscillators ( http://arxiv.org/abs/2407.02453v1 )

ライセンス: Link先を確認
Mahdi Chegnizadeh, Marco Scigliuzzo, Amir Youssefi, Shingo Kono, Evgenii Guzovskii, Tobias J. Kippenberg, (参考訳) 物理における集合現象は、複雑な系の多くの構成要素間の相互作用から生じ、個々の部品と異なる振る舞いをもたらす。 この領域は同期のような古典的な現象を含み、ボース=アインシュタイン凝縮や超放射のような量子現象にまで拡張する。 制御された人工システムでこれらの現象を研究することで、複雑な自然システムをシミュレートすることができる。 立体状態のメカニカル発振器は、オプトロメカニカルカップリングによって制御可能であり、集合現象を探索するために提案されているが、実験的な実現は、ほとんど退化するメカニカル発振器を必要とするという課題に直面している。 本研究では,超伝導回路の光学的プラットフォームにおいて,共振器と共振器を結合した6つの機械振動子の集合挙動を示す。 実験により,オプトメカニカルカップリング率の増加は,振動子の等振幅と相対位相を特徴とする,個々の機械振動子から集合モードへの遷移を誘導することを示した。 機械周波数の有限非縮退性を利用して、振動子の振幅と相対位相を直接測定する。 このようなモードとキャビティとの結合速度は、Tavis-Cummingsシステムと同様、結合振動子数とともに増加する。 さらに結合速度が増加すると、この集合モードは空洞との強い結合状態へと押し込まれる。 我々は、集合モードのサイドバンド基底状態冷却を実証し、0.4量子化を実現し、このモードの量子サイドバンド非対称性を観察する。 量子状態における集合的な光学現象の観測は、同期の研究、音の位相位相の研究、マルチパーティライトフォノンフォノンとフォトンフォノンの絡み合いの達成のための道を開く。

Collective phenomena in physics emerge from interactions among numerous components in a complex system, leading to behaviors distinct from those of individual parts. This domain includes classical phenomena like synchronization and extends to quantum phenomena such as Bose-Einstein condensation and super-radiance. Studying these phenomena in controlled artificial systems allows for simulating complex natural systems. Solid-state mechanical oscillators, controllable via optomechanical coupling, have been proposed for exploring collective phenomena, but experimental realizations face the challenge of requiring nearly degenerate mechanical oscillators. In this work, we present the collective behavior of six mechanical oscillators coupled to a common cavity in a superconducting circuit optomechanical platform. We experimentally demonstrate that increasing the optomechanical coupling rates induces a transition from individual mechanical oscillators to a collective mode, characterized by equal amplitude and relative phase of the oscillators. By utilizing the finite non-degeneracy of mechanical frequencies and rapidly quenching the optomechanical couplings, we directly measure the amplitude and relative phase of the oscillators in the collective mode. We find that the coupling rate of such mode to the cavity increases with the number of coupled oscillators, similar to a Tavis-Cummings system. Further increasing the coupling rates pushes this collective mode into the strong coupling regime with the cavity. We demonstrate sideband ground-state cooling of the collective mode, achieving a 0.4 quanta occupation, and observe quantum sideband asymmetry for this mode. Observing collective optomechanical phenomena in the quantum regime opens avenues for studying synchronization, investigating topological phases of sound, and achieving multipartite phonon-phonon and photon-phonon entanglement.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# スーパー:mmWaveレーダを用いた上半身電位の沈着推定

SUPER: Seated Upper Body Pose Estimation using mmWave Radars ( http://arxiv.org/abs/2407.02455v1 )

ライセンス: Link先を確認
Bo Zhang, Zimeng Zhou, Boyu Jiang, Rong Zheng, (参考訳) 産業国では、成人は毎日仕事、運転、日常生活活動にかなりの時間を費やしている。 mmWaveレーダを用いた上半身の人間のポーズを特徴付けることは、人間と機械の相互作用、輸送、道路安全など多くの分野で重要かつ未研究のトピックである。 本研究では,2つのmmWaveレーダを近接に利用した上半身人物ポーズ推定の枠組みであるSUPERを考案した。 レーダからのデータとドップラー点雲を相互に融合させる新しいマスキングアルゴリズムが提案され, 高速だが小型のレーダ断面積(上肢, 上肢)と低速だが大型のRCS領域(例えば胴体)の相補的な情報が得られる。 軽量ニューラルネットワークは、上半身の大域的特徴と局所的特徴の両方を抽出し、Skinned Multi-Person Linear (SMPL)モデルの出力ポーズパラメータを抽出する。 複数の被験者から得られた様々な動き系列に対する広範囲な残射実験は、SUPERが最先端のベースライン法を30-184%上回っていることを示している。 また、手動オブジェクト間相互作用のための単純なダウンストリームタスクにおいて、その実用性を実証する。

In industrial countries, adults spend a considerable amount of time sedentary each day at work, driving and during activities of daily living. Characterizing the seated upper body human poses using mmWave radars is an important, yet under-studied topic with many applications in human-machine interaction, transportation and road safety. In this work, we devise SUPER, a framework for seated upper body human pose estimation that utilizes dual-mmWave radars in close proximity. A novel masking algorithm is proposed to coherently fuse data from the radars to generate intensity and Doppler point clouds with complementary information for high-motion but small radar cross section areas (e.g., upper extremities) and low-motion but large RCS areas (e.g. torso). A lightweight neural network extracts both global and local features of upper body and output pose parameters for the Skinned Multi-Person Linear (SMPL) model. Extensive leave-one-subject-out experiments on various motion sequences from multiple subjects show that SUPER outperforms a state-of-the-art baseline method by 30 -- 184%. We also demonstrate its utility in a simple downstream task for hand-object interaction.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 斜めランダム化決定木と森林の統計的利点

Statistical Advantages of Oblique Randomized Decision Trees and Forests ( http://arxiv.org/abs/2407.02458v1 )

ライセンス: Link先を確認
Eliza O'Reilly, (参考訳) 本研究は,共変数の一般線形結合からなる特徴を用いて,データをランダム化決定木と森林回帰アルゴリズムで分割する,という統計的利点について検討する。 確率幾何学におけるランダムテッセレーション理論を用いて、効率的に生成されたランダムツリーのクラスの理論解析と、そのような特徴に沿った斜め分割を可能にする森林推定器を提供する。 木は、まず、共変数の線形結合から一連の特徴を選択し、次に、それらの特徴に沿ってデータを階層的に分割するモンドリアンプロセスを実行することによって生成される。 一般化誤差境界と収束速度は、入力領域の低次元的特徴部分空間に依存すると仮定されるリッジ関数のフレキシブル次元還元モデルクラス(マルチインデックスモデルとも呼ばれる)に対して得られる。 その結果、これらの推定器のリスクが特徴の選択にどのように依存しているかを明らかにし、関連する特徴の推定における誤差に対するリスクの頑健さを定量化する。 漸近解析はまた、これらの推定器が関連する特徴部分空間の次元に関して収束の最小値を得るためにデータを分割する選択された特徴について条件を与える。 さらに、軸方向のモンドリアン木のリスク(特徴が共変数の集合に制限される)の低い境界は、これらの線形次元減少モデルに対して、各木ノードでデータを分割するのに使用される共変数の分布が重み付けされているかどうかに関わらず、これらの推定器が概して最適であることを示す。

This work studies the statistical advantages of using features comprised of general linear combinations of covariates to partition the data in randomized decision tree and forest regression algorithms. Using random tessellation theory in stochastic geometry, we provide a theoretical analysis of a class of efficiently generated random tree and forest estimators that allow for oblique splits along such features. We call these estimators oblique Mondrian trees and forests, as the trees are generated by first selecting a set of features from linear combinations of the covariates and then running a Mondrian process that hierarchically partitions the data along these features. Generalization error bounds and convergence rates are obtained for the flexible dimension reduction model class of ridge functions (also known as multi-index models), where the output is assumed to depend on a low dimensional relevant feature subspace of the input domain. The results highlight how the risk of these estimators depends on the choice of features and quantify how robust the risk is with respect to error in the estimation of relevant features. The asymptotic analysis also provides conditions on the selected features along which the data is split for these estimators to obtain minimax optimal rates of convergence with respect to the dimension of the relevant feature subspace. Additionally, a lower bound on the risk of axis-aligned Mondrian trees (where features are restricted to the set of covariates) is obtained proving that these estimators are suboptimal for these linear dimension reduction models in general, no matter how the distribution over the covariates used to divide the data at each tree node is weighted.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 分散情報ネットワーク(DIN)

Decentralized Intelligence Network (DIN) ( http://arxiv.org/abs/2407.02461v1 )

ライセンス: Link先を確認
Abraham Nash, (参考訳) 分散インテリジェンスネットワーク(DIN)は、プロバイダや機関間のデータの断片化とサイロ化に起因する、データ主権とAI利用の重大な課題に対処する。 この包括的なフレームワークは、以前はサイロによって妨げられていたスケーラブルなデータソースへのアクセス障壁を克服する。 1) データ主権の前提条件としての個人データストア 2) 分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーション学習プロトコル。 3) 参加のインセンティブを与え、公平な報酬配分を確保するための、スケーラブルで信頼できない報酬メカニズム。 このフレームワークは、イミュータブルなレコードを持つパブリックブロックチェーン上で運用され、サードパーティがいなくとも、参加者が提供したデータトレーニングへのアクセスを防止または制御したり、金銭的利益を決定することのできるエンティティがいないことを保証します。 効果的なAIトレーニングをサポートし、参加者がデータのコントロールを維持し、金銭的に利益を享受し、集団AIを活用して有益なアルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献することができる。

Decentralized Intelligence Network (DIN) addresses the significant challenges of data sovereignty and AI utilization caused by the fragmentation and siloing of data across providers and institutions. This comprehensive framework overcomes access barriers to scalable data sources previously hindered by silos by leveraging: 1) personal data stores as a prerequisite for data sovereignty; 2) a scalable federated learning protocol implemented on a public blockchain for decentralized AI training, where data remains with participants and only model parameter updates are shared; and 3) a scalable, trustless rewards mechanism to incentivize participation and ensure fair reward distribution. This framework ensures that no entity can prevent or control access to training on data offered by participants or determine financial benefits, as these processes operate on a public blockchain with an immutable record and without a third party. It supports effective AI training, allowing participants to maintain control over their data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial algorithms.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 生成的A.Iを用いた情報検索評価のための信頼性信頼区間

Reliable Confidence Intervals for Information Retrieval Evaluation Using Generative A.I ( http://arxiv.org/abs/2407.02464v1 )

ライセンス: Link先を確認
Harrie Oosterhuis, Rolf Jagerman, Zhen Qin, Xuanhui Wang, Michael Bendersky, (参考訳) 従来の情報検索(IR)システムの評価は非常にコストがかかる。 生成人工知能(特に大規模言語モデル(LLM))の最近の進歩は、相対的に計算コストの少ない巨大なスケールで関連アノテーションを生成することができる。 これは、IR評価に関連するコストを軽減し、多数の低リソースアプリケーションに適用できるようにする可能性がある。 しかし、生成した関連アノテーションは(体系的な)エラーに免疫がなく、その結果、それらを評価に直接使用すると、信頼性の低い結果が得られる。 そこで本研究では,コンピュータが生成した関連アノテーションを用いて,IR評価指標の周囲に信頼性信頼区間(CI)を配置する,予測型推論と共形リスク制御に基づく2つの手法を提案する。 提案手法は,提案手法が生成したアノテーションの誤りを統計的に解析することのできる,少数の信頼度の高いアノテーションを必要とする。 この情報を使用することで、強力な理論的保証を備えた評価指標にCIを配置することが可能になります。 既存のアプローチとは異なり、我々のコンフォーマルリスク制御方法は、特にメトリクスのランク付け用に設計されており、クエリとドキュメント毎にCIを変更することができる。 実験結果から, LLMアノテーションに基づく評価における差分と偏差を精度良く把握し, 典型的なブートストラップ推定値よりも優れていることがわかった。 私たちのコントリビューションが、従来は実現不可能だった多くのIRアプリケーションに対して、信頼性の高い評価をもたらしてくれることを願っています。

The traditional evaluation of information retrieval (IR) systems is generally very costly as it requires manual relevance annotation from human experts. Recent advancements in generative artificial intelligence -- specifically large language models (LLMs) -- can generate relevance annotations at an enormous scale with relatively small computational costs. Potentially, this could alleviate the costs traditionally associated with IR evaluation and make it applicable to numerous low-resource applications. However, generated relevance annotations are not immune to (systematic) errors, and as a result, directly using them for evaluation produces unreliable results. In this work, we propose two methods based on prediction-powered inference and conformal risk control that utilize computer-generated relevance annotations to place reliable confidence intervals (CIs) around IR evaluation metrics. Our proposed methods require a small number of reliable annotations from which the methods can statistically analyze the errors in the generated annotations. Using this information, we can place CIs around evaluation metrics with strong theoretical guarantees. Unlike existing approaches, our conformal risk control method is specifically designed for ranking metrics and can vary its CIs per query and document. Our experimental results show that our CIs accurately capture both the variance and bias in evaluation based on LLM annotations, better than the typical empirical bootstrapping estimates. We hope our contributions bring reliable evaluation to the many IR applications where this was traditionally infeasible.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# 信仰共有:祝福または呪い

Belief sharing: a blessing or a curse ( http://arxiv.org/abs/2407.02465v1 )

ライセンス: Link先を確認
Ozan Catal, Toon Van de Maele, Riddhi J. Pitliya, Mahault Albarracin, Candice Pattisapu, Tim Verbelen, (参考訳) 複数の関係者と共同作業を行う場合,タスクを効率的に完了させる上で,関連する情報を伝えることが最重要となる。 活発な推論の下では、コミュニケーションは自由エネルギーの最小化エージェント間の信念を共有し、一方のエージェントの信念は他方のエージェントに対する観察モダリティに変換される。 しかし、信仰を観察に転換する最良のアプローチは未解決の問題である。 本稿では, 後部信念の否定的共有が, エコー室と自己疑念の否定的社会的ダイナミクスを引き起こすことを実証する。 これらの問題を緩和する代替的信念共有戦略を提案する。

When collaborating with multiple parties, communicating relevant information is of utmost importance to efficiently completing the tasks at hand. Under active inference, communication can be cast as sharing beliefs between free-energy minimizing agents, where one agent's beliefs get transformed into an observation modality for the other. However, the best approach for transforming beliefs into observations remains an open question. In this paper, we demonstrate that naively sharing posterior beliefs can give rise to the negative social dynamics of echo chambers and self-doubt. We propose an alternate belief sharing strategy which mitigates these issues.
翻訳日:2024-07-03 14:27:11 公開日:2024-07-02
# PWM:大規模世界モデルによる政策学習

PWM: Policy Learning with Large World Models ( http://arxiv.org/abs/2407.02466v1 )

ライセンス: Link先を確認
Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg, (参考訳) 強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。 世界モデルは環境のシミュレーションを学習することでスケーラビリティを提供するが、非効率な勾配のない最適化手法に頼っていることが多い。 大規模多タスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシ学習(PWM)を導入する。 オフラインデータ上で世界モデルを事前学習し、一階勾配ポリシー学習に使用することにより、PWMは最大152のアクション次元のタスクを効果的に解決し、地上構造力学を用いた手法より優れる。 さらに、PWMは80タスク設定にスケールし、高価なオンラインプランニングを必要とせずに、既存のベースラインよりも最大27%高い報酬を達成する。 可視化とコードはhttps://policy-world-model.github.ioで公開されている。

Reinforcement Learning (RL) has achieved impressive results on complex tasks but struggles in multi-task settings with different embodiments. World models offer scalability by learning a simulation of the environment, yet they often rely on inefficient gradient-free optimization methods. We introduce Policy learning with large World Models (PWM), a novel model-based RL algorithm that learns continuous control policies from large multi-task world models. By pre-training the world model on offline data and using it for first-order gradient policy learning, PWM effectively solves tasks with up to 152 action dimensions and outperforms methods using ground-truth dynamics. Additionally, PWM scales to an 80-task setting, achieving up to 27% higher rewards than existing baselines without the need for expensive online planning. Visualizations and code available at https://policy-world-model.github.io
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# 超伝導量子プロセッサにおける安定化雑音による誤差緩和

Error mitigation with stabilized noise in superconducting quantum processors ( http://arxiv.org/abs/2407.02467v1 )

ライセンス: Link先を確認
Youngseok Kim, Luke C. G. Govia, Andrew Dane, Ewout van den Berg, David M. Zajac, Bradley Mitchell, Yinyu Liu, Karthik Balakrishnan, George Keefe, Adam Stabile, Emily Pritchett, Jiri Stehlik, Abhinav Kandala, (参考訳) プリフォールト耐性量子コンピュータは、ブルートフォース古典計算を超えるスケールで観測可能な値を正確に推定できることを既に実証している。 これは、デバイスノイズの代表的なモデルによく依存するエラー軽減技術によって実現されている。 しかし、これらのモデルの学習と維持は、例えば超伝導量子ビットと欠陥2レベルシステム(TLS)の間の共鳴相互作用によって生じる予測不可能な時間スケール上のノイズの変動によって複雑である。 このような相互作用はデバイス性能全体の安定性と均一性に影響を与えるが、ノイズモデルの精度にも影響し、不正確な観測可能推定に繋がる。 そこで我々は,量子ビット-TLS相互作用のチューニングが雑音の不安定性を低減し,より信頼性の高い誤り軽減性能を実現することを実験的に実証した。 これらの実験は、準静音の存在下での誤差緩和性能を研究するための制御プラットフォームを提供する。 ここで導入された機能は、非自明なスケールのソリッドステートプロセッサ上での量子アプリケーションの探索に不可欠であると期待する。

Pre-fault tolerant quantum computers have already demonstrated the ability to estimate observable values accurately, at a scale beyond brute-force classical computation. This has been enabled by error mitigation techniques that often rely on a representative model on the device noise. However, learning and maintaining these models is complicated by fluctuations in the noise over unpredictable time scales, for instance, arising from resonant interactions between superconducting qubits and defect two-level systems (TLS). Such interactions affect the stability and uniformity of device performance as a whole, but also affect the noise model accuracy, leading to incorrect observable estimation. Here, we experimentally demonstrate that tuning of the qubit-TLS interactions helps reduce noise instabilities and consequently enables more reliable error-mitigation performance. These experiments provide a controlled platform for studying the performance of error mitigation in the presence of quasi-static noise. We anticipate that the capabilities introduced here will be crucial for the exploration of quantum applications on solid-state processors at non-trivial scales.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# ValueScope: 社会的相互作用のリターンポテンシャルモデルによる暗黙のノルムと価値の発見

ValueScope: Unveiling Implicit Norms and Values via Return Potential Model of Social Interactions ( http://arxiv.org/abs/2407.02472v1 )

ライセンス: Link先を確認
Chan Young Park, Shuyue Stella Li, Hayoung Jung, Svitlana Volkova, Tanushree Mitra, David Jurgens, Yulia Tsvetkov, (参考訳) 本研究では,オンラインコミュニティにおける社会規範と価値の定量化に言語モデルを活用するフレームワークであるValueScopeを紹介する。 我々は、性別、政治、科学、ファイナンスに分類される13のRedditコミュニティで、言語的およびスタイリスティックな表現を識別し分析するためにValueScopeを使用します。 我々の分析は、近縁なコミュニティでさえ、非常に多様な規範を示すことを示す定量的基盤を提供する。 この多様性は、既存の理論をサポートし、コミュニティの相互作用を理解するための新しい次元、コミュニティの好みを追加します。 ValueScopeは、コミュニティ間で異なる社会的規範を示すだけでなく、その進化とアメリカ合衆国大統領選挙や新しいサブコミュニティの出現のような重要な外部イベントの影響を効果的に追跡している。 この枠組みは、オンラインインタラクションを形成する上での社会規範の重要な役割を強調し、デジタル空間における社会規範研究の理論と応用の両面で大きな進歩を示している。

This study introduces ValueScope, a framework leveraging language models to quantify social norms and values within online communities, grounded in social science perspectives on normative structures. We employ ValueScope to dissect and analyze linguistic and stylistic expressions across 13 Reddit communities categorized under gender, politics, science, and finance. Our analysis provides a quantitative foundation showing that even closely related communities exhibit remarkably diverse norms. This diversity supports existing theories and adds a new dimension--community preference--to understanding community interactions. ValueScope not only delineates differing social norms among communities but also effectively traces their evolution and the influence of significant external events like the U.S. presidential elections and the emergence of new sub-communities. The framework thus highlights the pivotal role of social norms in shaping online interactions, presenting a substantial advance in both the theory and application of social norm studies in digital spaces.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# 感情の円積モデルにおける自由エネルギー

Free Energy in a Circumplex Model of Emotion ( http://arxiv.org/abs/2407.02474v1 )

ライセンス: Link先を確認
Candice Pattisapu, Tim Verbelen, Riddhi J. Pitliya, Alex B. Kiefer, Mahault Albarracin, (参考訳) 感情の以前の活発な推測は、自由エネルギーの変動を、主に原子価に焦点を当てた感情の感覚に変換した。 しかし、感情科学では、感情は多次元として表されることが多い。 本稿では,感情を2次元の原子価と覚醒スペクトルにマッピングすることで,感情の円積モデルを採用することを提案する。 本研究では, エージェントが期待する自由エネルギーから, 後続の信念のエントロピーと, 実用性に劣る実用性に起因して, 有価と覚醒のシグナルを導出する方法を示す。 この定式化の下では,探索作業に従事する人工エージェントをシミュレートする。 情緒的状態において,先行と対象存在の操作が常識的変動をもたらすことを示す。

Previous active inference accounts of emotion translate fluctuations in free energy to a sense of emotion, mainly focusing on valence. However, in affective science, emotions are often represented as multi-dimensional. In this paper, we propose to adopt a Circumplex Model of emotion by mapping emotions into a two-dimensional spectrum of valence and arousal. We show how one can derive a valence and arousal signal from an agent's expected free energy, relating arousal to the entropy of posterior beliefs and valence to utility less expected utility. Under this formulation, we simulate artificial agents engaged in a search task. We show that the manipulation of priors and object presence results in commonsense variability in emotional states.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# データベースシステムコース:サービス学習プロジェクト

Database Systems Course: Service Learning Project ( http://arxiv.org/abs/2407.02475v1 )

ライセンス: Link先を確認
Sherri WeitlHarms, (参考訳) 本稿では,上層および大学院レベルのデータベースシステムコースで使用されるサービス学習プロジェクトについて述べる。 学生は実際のクライアントのために小さなデータベースプロジェクトを完了します。 最終製品は、クライアントの仕様とニーズにマッチし、データベース設計と最終作業データベースシステムに組み込みのユーザドキュメントを組み込まなければならない。 ソリューションは、できるだけ簡単にクライアントで使用できるように実装されなければなりません。 学生は、プロジェクトを理解し、プロジェクトの要求を分析し、プロジェクトに対するソリューションを設計し、実装するために、クライアントとプロフェッショナルなミーティングを行うことが期待されている。 学生はプロジェクトの次のフェーズを開始する前に、各マイルストーンを承認する必要があります。 データベースシステムの学期プロジェクトの学習目的は、クライアントの情報システムの問題を分析し、ソリューションの要件を決定すること、問題に対する適切なデータベースソリューションを設計すること、問題のソリューションを設計・開発するためにソフトウェア設計および開発ツールを使用すること、プロフェッショナルレベルでクライアントとコミュニケーションし、対話すること、非技術系および技術系のソフトウェアユーザの両方に対して効果的なドキュメントを作成し、プロジェクトに関わるすべての人と倫理的に対話することである。 データベースシステム学期プロジェクトのより広範な目的は、地域の組織やビジネスに必要となるデータベースソリューションを提供すること、学生に履歴とポートフォリオ構築の機会を提供すること、プログラムがミッションにどれだけうまく適合するかを評価すること、サービスベースの学習を行うためのメカニズムを提供すること、地域組織やビジネスへのアウトリーチのメカニズムを提供すること、学部研究プロジェクトの出発点を提供することである。

This paper describes a service learning project used in an upper-level and graduate-level database systems course. Students complete a small database project for a real client. The final product must match the client specification and needs, and include the database design and the final working database system with embedded user documentation. The solution must be implemented in a way to make it as easy to use as possible for the client. Students are expected to conduct professional meetings with their clients to understand the project, analyze the project's requirements, as well as design and implement the solution to the project. Students must have each milestone approved before starting the next phase of the project. The student learning objectives of a database system semester project are to: analyze a client's information system problem and determine the requirements for the solution; design a suitable database solution to the problem; use software design and development tools to design and develop a solution to the problem; communicate and interact with a client on a professional level; prepare effective documentation for both non-technical and technical software users; and interact ethically with all persons involved with a project. The broader impact objectives of a database system semester project are to: provide needed database solutions for organizations and businesses in the local area; provide a resume and portfolio-building opportunity for the students; provide a measure for assessing how well the program meets it mission; provide a mechanism for implementing service-based learning; provide a mechanism for outreach to local-area organizations and businesses; and provide a starting-point for undergraduate research projects.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# 確率的変分推論を用いたスケーラブルな多出力ガウス過程

Scalable Multi-Output Gaussian Processes with Stochastic Variational Inference ( http://arxiv.org/abs/2407.02476v1 )

ライセンス: Link先を確認
Xiaoyu Jiang, Sokratia Georgaka, Magnus Rattray, Mauricio A. Alvarez, (参考訳) Multi-Output Gaussian Processは、複数のソースからデータをモデリングするための一般的なツールである。 MOGPの共分散関数を構築する典型的な選択は、出力間の共分散をパラメトリックにモデル化するコリージョン化線形モデル(LMC)である。 潜在変数MOGP (LV-MOGP) は、潜在変数に適用されたカーネルを用いて出力間の共分散をモデル化することにより、このアイデアを一般化する。 LV-MOGPの計算複雑性は出力数とともに線形に増大するので、多くの出力を持つ問題には適さない。 本稿では,LV-MOGPに対する確率的変分推論手法を提案する。

The Multi-Output Gaussian Process is is a popular tool for modelling data from multiple sources. A typical choice to build a covariance function for a MOGP is the Linear Model of Coregionalization (LMC) which parametrically models the covariance between outputs. The Latent Variable MOGP (LV-MOGP) generalises this idea by modelling the covariance between outputs using a kernel applied to latent variables, one per output, leading to a flexible MOGP model that allows efficient generalization to new outputs with few data points. Computational complexity in LV-MOGP grows linearly with the number of outputs, which makes it unsuitable for problems with a large number of outputs. In this paper, we propose a stochastic variational inference approach for the LV-MOGP that allows mini-batches for both inputs and outputs, making computational complexity per training iteration independent of the number of outputs.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# マルチモーダルLLMにおけるアライメントの理解 : 総合的研究

Understanding Alignment in Multimodal LLMs: A Comprehensive Study ( http://arxiv.org/abs/2407.02477v1 )

ライセンス: Link先を確認
Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch, (参考訳) LLM(Large Language Models)の性能向上において、優先度アライメントは重要な要素となっているが、MLLM(Multimodal Large Language Models)に対する影響は比較的過小評価されている。 言語モデルと同様に、画像理解タスクのためのMLLMは幻覚のような課題に遭遇する。 MLLMでは、幻覚は誤った事実を述べるだけでなく、画像の内容と矛盾する反応を生成することによっても起こる。 MLLMのアライメントの主な目的は、これらのモデルが画像情報とより緊密に応答を調整することを奨励することである。 近年、MLLMの嗜好データセットを導入し、DPO(Direct Preference Optimization)やPPO(Proximal Policy Optimization)など、様々なアライメント手法を検討した。 しかし、データセット、ベースモデルタイプ、アライメントメソッドのバリエーションのため、これらの研究で報告された改善にどの特定の要素が最も大きく寄与するかは不明だ。 本稿では,MLLMにおける嗜好アライメントのそれぞれの側面を独立に解析する。 まず、アライメントアルゴリズムをオフライン(DPOなど)とオンライン(オンライン-DPOなど)の2つのグループに分類し、オフラインとオンラインのメソッドを組み合わせることで、特定のシナリオにおけるモデルのパフォーマンスが向上することを示す。 本稿では,様々なマルチモーダルな選好データセットについてレビューし,その詳細がモデルの性能に与える影響について論じる。 これらの知見に基づいて,BDHS (Bias-Driven Hallucination Smpling) と呼ばれる,付加的なアノテーションや外部モデルを必要としないマルチモーダル嗜好データを作成する新しい手法を導入する。

Preference alignment has become a crucial component in enhancing the performance of Large Language Models (LLMs), yet its impact in Multimodal Large Language Models (MLLMs) remains comparatively underexplored. Similar to language models, MLLMs for image understanding tasks encounter challenges like hallucination. In MLLMs, hallucination can occur not only by stating incorrect facts but also by producing responses that are inconsistent with the image content. A primary objective of alignment for MLLMs is to encourage these models to align responses more closely with image information. Recently, multiple works have introduced preference datasets for MLLMs and examined different alignment methods, including Direct Preference Optimization (DPO) and Proximal Policy Optimization (PPO). However, due to variations in datasets, base model types, and alignment methods, it remains unclear which specific elements contribute most significantly to the reported improvements in these works. In this paper, we independently analyze each aspect of preference alignment in MLLMs. We start by categorizing the alignment algorithms into two groups, offline (such as DPO), and online (such as online-DPO), and show that combining offline and online methods can improve the performance of the model in certain scenarios. We review a variety of published multimodal preference datasets and discuss how the details of their construction impact model performance. Based on these insights, we introduce a novel way of creating multimodal preference data called Bias-Driven Hallucination Sampling (BDHS) that needs neither additional annotation nor external models, and show that it can achieve competitive performance to previously published alignment work for multimodal models across a range of benchmarks.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# リッチコンテクスト条件付き拡散モデルによるストーリービジュアライゼーションにおけるブースティング一貫性

Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models ( http://arxiv.org/abs/2407.02482v1 )

ライセンス: Link先を確認
Fei Shen, Hu Ye, Sibo Liu, Jun Zhang, Cong Wang, Xiao Han, Wei Yang, (参考訳) 最近の研究では、一貫したストーリーを生成するための条件拡散モデルのかなりの可能性を示している。 しかし, 自己回帰的かつ過剰にキャプションに依存した方法で物語を主に生成する現在の手法は, 逐次生成時のフレームの文脈的一貫性と関連性を低くすることが多い。 そこで本研究では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるための2段階アプローチであるRich-Contextual Conditional Diffusion Models (RCDMs)を提案する。 具体的には、第1段階では、未知クリップのフレーム意味埋め込みを予測するために、既知のクリップのキャプションとフレーム間のセマンティック相関を整列させることにより、フレーム優先トランスフォーマー拡散モデルを提示する。 第2段階は、既知のクリップの参照画像、未知のクリップの予測フレームセマンティック埋め込み、すべてのキャプションのテキスト埋め込みを含む、リッチなコンテキスト条件を持つロバストモデルを確立する。 画像と特徴レベルでこれらのリッチなコンテキスト条件を共同で注入することで、RCDMは意味的および時間的一貫性のストーリーを生成することができる。 さらに、RCDMは自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。 定性的かつ定量的な結果から,提案したRCDMは難易度の高いシナリオにおいて優れた性能を示した。 コードとモデルはhttps://github.com/muzishen/RCDMsで入手できる。

Recent research showcases the considerable potential of conditional diffusion models for generating consistent stories. However, current methods, which predominantly generate stories in an autoregressive and excessively caption-dependent manner, often underrate the contextual consistency and relevance of frames during sequential generation. To address this, we propose a novel Rich-contextual Conditional Diffusion Models (RCDMs), a two-stage approach designed to enhance story generation's semantic consistency and temporal consistency. Specifically, in the first stage, the frame-prior transformer diffusion model is presented to predict the frame semantic embedding of the unknown clip by aligning the semantic correlations between the captions and frames of the known clip. The second stage establishes a robust model with rich contextual conditions, including reference images of the known clip, the predicted frame semantic embedding of the unknown clip, and text embeddings of all captions. By jointly injecting these rich contextual conditions at the image and feature levels, RCDMs can generate semantic and temporal consistency stories. Moreover, RCDMs can generate consistent stories with a single forward inference compared to autoregressive models. Our qualitative and quantitative results demonstrate that our proposed RCDMs outperform in challenging scenarios. The code and model will be available at https://github.com/muzishen/RCDMs.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# MMedAgent:マルチモーダルエージェントによる医療ツールの活用を学ぶ

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent ( http://arxiv.org/abs/2407.02483v1 )

ライセンス: Link先を確認
Binxu Li, Tiankai Yan, Yuanting Pan, Zhe Xu, Jie Luo, Ruiyang Ji, Shilong Liu, Haoyu Dong, Zihao Lin, Yixin Wang, (参考訳) MLLM(Multi-Modal Large Language Models)は、成功しているにもかかわらず、限られた一般性を示し、特殊モデルと比較してしばしば不足する。 近年,LSMをベースとしたエージェントが,ユーザ入力に基づくツールとして,適切な特化モデルを選択することで,これらの課題に対処するために開発されている。 しかし、これらの進歩は医学領域内では広く研究されていない。 このギャップを埋めるために,本論文では,医療分野向けに明示的に設計された最初のエージェントである「textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent}」(MMedAgent)を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れた性能を発揮することを示す総合的な実験である。 さらに、MMedAgentは、新しい医療ツールの更新と統合の効率性を示す。

Multi-Modal Large Language Models (MLLMs), despite being successful, exhibit limited generality and often fall short when compared to specialized models. Recently, LLM-based agents have been developed to address these challenges by selecting appropriate specialized models as tools based on user inputs. However, such advancements have not been extensively explored within the medical domain. To bridge this gap, this paper introduces the first agent explicitly designed for the medical field, named \textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent} (MMedAgent). We curate an instruction-tuning dataset comprising six medical tools solving seven tasks, enabling the agent to choose the most suitable tools for a given task. Comprehensive experiments demonstrate that MMedAgent achieves superior performance across a variety of medical tasks compared to state-of-the-art open-source methods and even the closed-source model, GPT-4o. Furthermore, MMedAgent exhibits efficiency in updating and integrating new medical tools.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# デジタル病理学における注意図の解釈可能性の評価

Characterizing the Interpretability of Attention Maps in Digital Pathology ( http://arxiv.org/abs/2407.02484v1 )

ライセンス: Link先を確認
Tomé Albuquerque, Anil Yüce, Markus D. Herrmann, Alvaro Gomariz, (参考訳) 医療のようなリスクの高いアプリケーションには、機械学習のモデル決定の解釈が不可欠だ。 デジタル病理学では、大きなスライド画像(WSI)を小さなタイルに分解し、注目に基づくマルチインスタンス学習(ABMIL)モデルを用いて、WSIレベルのラベルを予測する。 これらのネットワークはタイル固有の注意重みを生成し、解釈可能性のための注意マップとして視覚化することができる。 しかし、これらのマップの標準化された評価フレームワークは欠如しており、その信頼性と、モデルを誤解させる可能性のある急激な相関を検出する能力に疑問を呈している。 本稿では,人工的モデル共同設立者を作成し,専用の解釈可能性指標を用いて,注意ネットワークがデジタル病理学の関連機能に対応する能力を評価する枠組みを提案する。 モデルは、WSIラベルと相関したタイル修正データに基づいてトレーニングされ、評価され、人工共同設立者に対するモデル感度の分析と、それらを強調するための注意マップの精度が評価される。 共同設立者は、合成タイルの修正や、特定の画像に基づく特徴に基づくタイルの除去を通じて導入され、後者は、より臨床的に関係のあるシナリオを評価するために使用される。 また、さまざまな共同設立者がタイルレベルとWSIレベルの両方に与える影響を分析します。 以上の結果から,AMMILモデルがフレームワーク内で期待どおりに動作していることが示唆された。 注意マップは一般的に関連地域を強調しているが、その堅牢性は共同設立者のタイプと数に影響を受けている。 我々の汎用フレームワークは, バイオマーカー発見に役立つ様々な手法の評価や, モデル予測を駆動する画像ベースの特徴の探索に活用できる可能性を持っている。

Interpreting machine learning model decisions is crucial for high-risk applications like healthcare. In digital pathology, large whole slide images (WSIs) are decomposed into smaller tiles and tile-derived features are processed by attention-based multiple instance learning (ABMIL) models to predict WSI-level labels. These networks generate tile-specific attention weights, which can be visualized as attention maps for interpretability. However, a standardized evaluation framework for these maps is lacking, questioning their reliability and ability to detect spurious correlations that can mislead models. We herein propose a framework to assess the ability of attention networks to attend to relevant features in digital pathology by creating artificial model confounders and using dedicated interpretability metrics. Models are trained and evaluated on data with tile modifications correlated with WSI labels, enabling the analysis of model sensitivity to artificial confounders and the accuracy of attention maps in highlighting them. Confounders are introduced either through synthetic tile modifications or through tile ablations based on their specific image-based features, with the latter being used to assess more clinically relevant scenarios. We also analyze the impact of varying confounder quantities at both the tile and WSI levels. Our results show that ABMIL models perform as desired within our framework. While attention maps generally highlight relevant regions, their robustness is affected by the type and number of confounders. Our versatile framework has the potential to be used in the evaluation of various methods and the exploration of image-based features driving model predictions, which could aid in biomarker discovery.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# RankRAG:LLMにおける検索拡張世代によるコンテキストランキングの統合

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs ( http://arxiv.org/abs/2407.02485v1 )

ライセンス: Link先を確認
Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。 本研究では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMを命令チューニングする新しい命令微調整フレームワークであるRanRAGを提案する。 特に、トレーニングブレンドに少数のランキングデータを追加することで、命令調整 LLM が驚くほどうまく機能し、大量のランキングデータにのみ微調整された同じ LLM を含む既存の専門家ランキングモデルよりも優れている。 例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。 具体的には、Llama3-RankRAGは9つの知識集約ベンチマークでLlama3-ChatQA-1.5とGPT-4モデルより大幅に優れています。 さらに、生物医学領域の5つのRAGベンチマークにおいて、生物医学データの微調整を指示することなく、GPT-4と同等に動作し、新しい領域への一般化能力を示す。

Large language models (LLMs) typically utilize the top-k contexts from a retriever in retrieval-augmented generation (RAG). In this work, we propose a novel instruction fine-tuning framework RankRAG, which instruction-tunes a single LLM for the dual purpose of context ranking and answer generation in RAG. In particular, the instruction-tuned LLMs work surprisingly well by adding a small fraction of ranking data into the training blend, and outperform existing expert ranking models, including the same LLM exclusively fine-tuned on a large amount of ranking data. For generation, we compare our model with many strong baselines, including GPT-4-0613, GPT-4-turbo-2024-0409, and ChatQA-1.5, an open-sourced model with the state-of-the-art performance on RAG benchmarks. Specifically, our Llama3-RankRAG significantly outperforms Llama3-ChatQA-1.5 and GPT-4 models on nine knowledge-intensive benchmarks. In addition, it also performs comparably to GPT-4 on five RAG benchmarks in the biomedical domain without instruction fine-tuning on biomedical data, demonstrating its superb capability for generalization to new domains.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# Neurocache:長距離言語モデリングのための効率的なベクトル検索

Neurocache: Efficient Vector Retrieval for Long-range Language Modeling ( http://arxiv.org/abs/2407.02486v1 )

ライセンス: Link先を確認
Ali Safaya, Deniz Yuret, (参考訳) 本稿では, 大規模言語モデル(LLM)のコンテキストサイズを, 外部ベクトルキャッシュを用いて拡張し, 過去の状態を記憶する手法であるNeurocacheを紹介する。 最近のベクトル検索アプローチと同様に、Neurocacheはk-nearest-neighbor(kNN)アルゴリズムを使用して、関連する過去の状態を検索し、注意プロセスに組み込む。 ニューロキャッシュは,(1)キャッシュサイズを小さくする圧縮状態の保存,(2)推論速度を向上するトークン毎の単一検索操作,(3)検索ウィンドウを隣接する状態に拡張し,言語モデリングとダウンストリームタスクの精度を向上する。 実験により,スクラッチからトレーニングしたモデルと,キャッシュ機構の強化によるLlama2-7BやMistral-7Bなどの事前訓練モデルの両方において,Neurocacheの有効性が示された。 また、Neurocacheをテキスト検索法と比較し、単文書質問回答と少数ショット学習タスクの改善を示す。 ソースコードはhttps://github.com/alisafaya/neurocache.comで公開しました。

This paper introduces Neurocache, an approach to extend the effective context size of large language models (LLMs) using an external vector cache to store its past states. Like recent vector retrieval approaches, Neurocache uses an efficient k-nearest-neighbor (kNN) algorithm to retrieve relevant past states and incorporate them into the attention process. Neurocache improves upon previous methods by (1) storing compressed states, which reduces cache size; (2) performing a single retrieval operation per token which increases inference speed; and (3) extending the retrieval window to neighboring states, which improves both language modeling and downstream task accuracy. Our experiments show the effectiveness of Neurocache both for models trained from scratch and for pre-trained models such as Llama2-7B and Mistral-7B when enhanced with the cache mechanism. We also compare Neurocache with text retrieval methods and show improvements in single-document question-answering and few-shot learning tasks. We made the source code available under: https://github.com/alisafaya/neurocache
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# 3+1Dバルクにおける線励起による2+1D系の位相的欠陥

Topological defects of 2+1D systems from line excitations in 3+1D bulk ( http://arxiv.org/abs/2407.02488v1 )

ライセンス: Link先を確認
Wenjie Ji, Xie Chen, (参考訳) 位相位相のバルク境界対応は、d+1-次元バルクにおける位相的特徴と(d-1)+1-次元境界上の潜在的ギャップのない理論の間の強い関係を示唆している。 2+1D 位相相では、バルク内の任意の励起と境界 1+1D 共形場理論における位相点欠陥/一次場の間に直接対応が存在する。 本稿では,3+1D位相における線励起が境界2+1D理論の線欠陥となる方法について,トポロジカルホログラフィー・シメトリートポロジカル場理論の枠組みを用いて検討する。 3+1DフェルミオンZ2トポロジカル秩序の異なるループ凝縮境界状態につながり、2+1Dマヨナ・コーン批判理論において、2種類のループ凝縮境界間の遷移を記述する符号を残している。 チェシャー弦のような非可逆な線励起の効果は、ボゾン3+1D位相相と対応する2+1D臨界点でも議論されている。

The bulk-boundary correspondence of topological phases suggests strong connections between the topological features in a d+1-dimensional bulk and the potentially gapless theory on the (d-1)+1-dimensional boundary. In 2+1D topological phases, a direct correspondence can exist between anyonic excitations in the bulk and the topological point defects/primary fields in the boundary 1+1D conformal field theory. In this paper, we study how line excitations in 3+1D topological phases become line defects in the boundary 2+1D theory using the Topological Holography/Symmetry Topological Field Theory framework. We emphasize the importance of "descendent" line excitations and demonstrate in particular the effect of the Majorana chain defect: it leads to a distinct loop condensed gapped boundary state of the 3+1D fermionic Z2 topological order, and leaves signatures in the 2+1D Majorana-cone critical theory that describes the transition between the two types of loop condensed boundaries. Effects of non-invertible line excitations, such as Cheshire strings, are also discussed in bosonic 3+1D topological phases and the corresponding 2+1D critical points.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# Magic Insert:スタイルを意識したドラッグ&ドロップ

Magic Insert: Style-Aware Drag-and-Drop ( http://arxiv.org/abs/2407.02489v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Yuanzhen Li, Neal Wadhwa, Yael Pritch, Michael Rubinstein, David E. Jacobs, Shlomi Fruchter, (参考訳) 提案するマジック・インサート(Magic Insert)は、ユーザが提供する画像から、対象画像のスタイルにマッチしながら、物理的に妥当な方法で、異なるスタイルのターゲット画像へ、対象画像をドラッグ&ドロップする手法である。 本研究は,スタイル認識のドラッグ・アンド・ドロップの問題を形式化し,スタイル認識のパーソナライゼーションと,スタイリングされた画像における現実的なオブジェクト挿入という,2つのサブプロブレムに対処する手法を提案する。 スタイル認識のパーソナライゼーションでは,まずLoRAを用いて事前学習したテキスト・ツー・イメージ拡散モデルを微調整し,対象画像上のテキストトークンを学習し,ターゲット画像のCLIP表現で注入する。 オブジェクト挿入にはBootstrapped Domain Adaptionを使用し、ドメイン固有のフォトリアリスティックオブジェクト挿入モデルをさまざまな芸術スタイルのドメインに適応させる。 全体としては、塗布などの従来の手法よりも優れていた。 最後に,この領域における評価と今後の進歩を促進するためのデータセット,SubjectPlopを提案する。 プロジェクトページ: https://magicinsert.github.io/

We present Magic Insert, a method for dragging-and-dropping subjects from a user-provided image into a target image of a different style in a physically plausible manner while matching the style of the target image. This work formalizes the problem of style-aware drag-and-drop and presents a method for tackling it by addressing two sub-problems: style-aware personalization and realistic object insertion in stylized images. For style-aware personalization, our method first fine-tunes a pretrained text-to-image diffusion model using LoRA and learned text tokens on the subject image, and then infuses it with a CLIP representation of the target style. For object insertion, we use Bootstrapped Domain Adaption to adapt a domain-specific photorealistic object insertion model to the domain of diverse artistic styles. Overall, the method significantly outperforms traditional approaches such as inpainting. Finally, we present a dataset, SubjectPlop, to facilitate evaluation and future progress in this area. Project page: https://magicinsert.github.io/
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# MInference 1.0: ダイナミックスパースアテンションによる長期LLMの事前充填の高速化

MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention ( http://arxiv.org/abs/2407.02490v1 )

ライセンス: Link先を確認
Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu, (参考訳) 大規模言語モデル(LLM)推論の計算上の課題は、特にプロンプト長が増加し続けるにつれて、広く展開する上で重要な障壁となっている。 注意計算の二次的な複雑さのため、8B LLMが1つのA100 GPU上で1Mトークン(すなわちプリフィルステージ)のプロンプトを処理するのに30分かかる。 プリフィルを高速化する既存の方法は、長いコンテキストのLLMに適用した場合、許容する精度や効率を維持することができないことが多い。 このギャップに対処するために、長いシーケンス処理の前処理を高速化するスパース計算法であるMInference(Milliontokens Inference)を導入する。 具体的には、GPU上で効率的なスパース計算に利用できるA字型、垂直スラッシュ、ブロックスパースという長コンテキストアテンション行列の3つのユニークなパターンを同定する。 提案手法では,各アテンションヘッドの最適パターンをオフラインで決定し,アサインされたパターンに基づいてスパースインデックスを動的に構築する。 パターンとスパース指標を用いて、最適化されたGPUカーネルを介して効率的なスパースアテンション計算を行い、長文LLMのプレフィルステージにおける遅延を大幅に低減する。 提案手法は,事前学習や追加の微調整を行うことなく,既存のLCMに直接適用することができる。 InfiniteBench, RULER, PG-19, Needle In A Haystack, および LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K, Qwen2-128K を含む幅広い下流タスクを評価した結果, MInference は精度を維持しつつ, A100 にプリフィルする際の推論遅延を 10 倍に抑えることを示した。 私たちのコードはhttps://aka.ms/MInference.orgで利用可能です。

The computational challenges of Large Language Model (LLM) inference remain a significant barrier to their widespread deployment, especially as prompt lengths continue to increase. Due to the quadratic complexity of the attention computation, it takes 30 minutes for an 8B LLM to process a prompt of 1M tokens (i.e., the pre-filling stage) on a single A100 GPU. Existing methods for speeding up prefilling often fail to maintain acceptable accuracy or efficiency when applied to long-context LLMs. To address this gap, we introduce MInference (Milliontokens Inference), a sparse calculation method designed to accelerate pre-filling of long-sequence processing. Specifically, we identify three unique patterns in long-context attention matrices-the A-shape, Vertical-Slash, and Block-Sparsethat can be leveraged for efficient sparse computation on GPUs. We determine the optimal pattern for each attention head offline and dynamically build sparse indices based on the assigned pattern during inference. With the pattern and sparse indices, we perform efficient sparse attention calculations via our optimized GPU kernels to significantly reduce the latency in the pre-filling stage of long-context LLMs. Our proposed technique can be directly applied to existing LLMs without any modifications to the pre-training setup or additional fine-tuning. By evaluating on a wide range of downstream tasks, including InfiniteBench, RULER, PG-19, and Needle In A Haystack, and models including LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K, and Qwen2-128K, we demonstrate that MInference effectively reduces inference latency by up to 10x for pre-filling on an A100, while maintaining accuracy. Our code is available at https://aka.ms/MInference.
翻訳日:2024-07-03 14:17:26 公開日:2024-07-02
# 強化学習における物体位置の追跡:キーポイント検出のためのメトリクス(拡張版)

Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) ( http://arxiv.org/abs/2312.00592v3 )

ライセンス: Link先を確認
Emma Cramer, Jonas Reiher, Sebastian Trimpe, (参考訳) ロボット制御のための強化学習(RL)は通常、直接測定できないタスク関連オブジェクトに関する情報を含む環境状態の詳細な表現を必要とする。 空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。 SAEは物体の位置などの空間的特徴を目標としており、ロボットRLにおいてしばしば有用な表現である。 しかし、SAEが実際にシーン内のオブジェクトを追跡でき、したがってRLタスクに適した空間状態表現が得られるかどうかは、確立されたメトリクスが欠如しているため、ほとんど調査されていない。 本稿では,画像中の真理物体をキーポイントがどれだけよく追跡できるかを計測することにより,SAEインスタンスの性能を評価することを提案する。 シミュレーションされたロボットタスクの画像データに基づいて,計算的に軽量なメトリクスを提示し,それを共通ベースラインSAEアーキテクチャの評価に用いる。 その結果,SAEは空間抽出能力に大きく違いがあることが判明した。 さらに, 下流RLで使用する場合, 測定値が良好に動作するSAEが優れた性能を発揮することを検証した。 したがって,我々の測定基準は高価なRLトレーニングを行う前にRL性能の有効かつ軽量な指標となる。 これらの知見に基づいて、トラッキング性能を改善するために、SAEアーキテクチャの3つの重要な変更点を特定する。

Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance.
翻訳日:2024-07-03 12:18:10 公開日:2024-07-02
# インストラクション調整LDMの自動評価法はどの程度信頼性が高いか?

How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? ( http://arxiv.org/abs/2402.10770v3 )

ライセンス: Link先を確認
Ehsan Doostmohammadi, Oskar Holmström, Marco Kuhlmann, (参考訳) 命令調整型大規模言語モデル (LLMs) の研究は, テキストオーバーラップに基づく自動手法とLCM判断を, 費用対効果の代替手段として用いている。 本稿では,このような手法のメタ評価を行い,その信頼性を幅広いタスクにわたって評価する。 自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。 具体的には、ROUGE-L測定値は、短命な英語タスクに対する人間の評価とよく相関するが、自由形式生成タスクや言語間移動では信頼できない。 GPT-4を審査員として使用するより高度な手法の有効性は、基準回答がプロンプトに含まれていない場合、大幅に低下する。 本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。

Work on instruction-tuned Large Language Models (LLMs) has used automatic methods based on text overlap and LLM judgments as cost-effective alternatives to human evaluation. In this paper, we perform a meta-evaluation of such methods and assess their reliability across a broad range of tasks. We observe that while automatic evaluation methods can approximate human ratings under specific conditions, their validity is highly context-dependent. Specifically, the simple ROUGE-L metric correlates well with human ratings for short-answer English tasks but is unreliable in free-form generation tasks and cross-lingual transfer. The effectiveness of the more advanced method of using GPT-4 as a judge diminishes significantly if reference answers are not included in the prompt, which is the scenario where this method has the potential to provide the most value compared to other metrics. Our findings enhance the understanding of how automatic methods should be applied and interpreted when developing and evaluating instruction-tuned LLMs.
翻訳日:2024-07-03 12:18:10 公開日:2024-07-02
# GraphWiz: グラフ問題に対する命令追従型言語モデル

GraphWiz: An Instruction-Following Language Model for Graph Problems ( http://arxiv.org/abs/2402.16029v4 )

ライセンス: Link先を確認
Nuo Chen, Yuhan Li, Jianheng Tang, Jia Li, (参考訳) 大規模言語モデル(LLM)は、いくつかの分野において顕著な成功を収めてきたが、複雑なグラフ問題を理解し、解決する能力は明らかにされていない。 このギャップを埋めるために、言語モデルに明示的な推論パスを用いて幅広いグラフ問題に取り組む能力を持たせるために設計された、新しく包括的な命令チューニングデータセットであるGraphInstructを導入する。 GraphInstructを利用することで、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決可能な、オープンソースの言語モデルであるGraphWizを構築します。 モデルの性能と信頼性を高めるため、グラフ問題解決コンテキストにダイレクト・プライス・オプティマイズ(DPO)フレームワークを組み込む。 拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。 さらに、トレーニングデータ量とモデル性能の微妙なバランスについて検討し、データ量の増加による過度な適合の可能性を強調した。 また、異なるグラフタスク間でのモデルの推論能力の伝達可能性についても検討し、モデルの適応性と実用的なアプリケーションの可能性を示す。 我々の調査は、グラフ推論と問題解決に特化したLSMを開発する上で、新しい青写真と貴重な洞察を提供する。

Large language models (LLMs) have achieved impressive success across several fields, but their proficiency in understanding and resolving complex graph problems is less explored. To bridge this gap, we introduce GraphInstruct, a novel and comprehensive instruction-tuning dataset designed to equip language models with the ability to tackle a broad spectrum of graph problems using explicit reasoning paths. Utilizing GraphInstruct, we build GraphWiz, an open-source language model capable of resolving various graph problem types while generating clear reasoning processes. To enhance the model's capability and reliability, we incorporate the Direct Preference Optimization (DPO) framework into the graph problem-solving context. The enhanced model, GraphWiz-DPO, achieves an average accuracy of 65% across nine tasks with different complexity levels, surpassing GPT-4 which has an average accuracy of 43.8%. Moreover, our research delves into the delicate balance between training data volume and model performance, highlighting the potential for overfitting with increased data. We also explore the transferability of the model's reasoning ability across different graph tasks, indicating the model's adaptability and practical application potential. Our investigation offers a new blueprint and valuable insights for developing LLMs specialized in graph reasoning and problem-solving.
翻訳日:2024-07-03 12:18:10 公開日:2024-07-02
# 大規模言語モデルを用いたデータ拡張:データパースペクティブ、学習パラダイム、課題

Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges ( http://arxiv.org/abs/2403.02990v4 )

ライセンス: Link先を確認
Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty, (参考訳) 大規模言語モデル(LLM)の急速に発展する分野では,データ収集を必要とせずにトレーニング例を多様化することにより,データ拡張(DA)がモデル性能を向上させる重要な手法として出現している。 本調査では,LLMがDAに与える影響,特に自然言語処理(NLP)などにおいて,それらがもたらす固有の課題と機会について考察する。 データと学習の両面から、LLMをデータ強化に活用する様々な戦略を検討する。 さらに、制御可能なデータ拡張からマルチモーダルデータ拡張まで、この領域で直面している主要なオープン課題を強調した。 本調査は,LLMがDAで導入したパラダイムシフトに注目し,研究者や実践者のための総合的なガイドとして機能することを目的としている。

In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# スタック化されたオートエンコーダとクラスタリングによる地質マッピングのためのリモートセンシングフレームワーク

Remote sensing framework for geological mapping via stacked autoencoders and clustering ( http://arxiv.org/abs/2404.02180v3 )

ライセンス: Link先を確認
Sandeep Nagar, Ehsan Farahbakhsh, Joseph Awange, Rohitash Chandra, (参考訳) ディメンタリティの低減やクラスタリングといった教師なし学習によって対処できる、正確にラベル付けされたトレーニングデータの不足による、リモートセンシング顔制限による地質図作成のための機械学習手法を改良した。 次元性低減法は、地質地図の精度向上に重要な役割を果たす可能性がある。 従来の次元減少法は非線形データと競合することがあるが、オートエンコーダのような教師なしのディープラーニングモデルは非線形関係をモデル化することができる。 スタックされたオートエンコーダは複数の相互接続層を備え、リモートセンシングデータに有用な階層データ表現をキャプチャする。 本研究は,地形単位のマッピングのための次元縮小とk平均クラスタリングのためのスタック付きオートエンコーダを用いた遠隔センシングデータ処理のための教師なし機械学習ベースのフレームワークを提案する。 我々は,オーストラリア・ニューサウスウェールズ州西部のムタウィンチ地域の地質マッピングの枠組みを評価するために,ランドサット8,ASTER,Sentinel-2のデータセットを用いている。 また、スタック化されたオートエンコーダと主成分分析と正準オートエンコーダを比較した。 本研究により, 岩盤単位を効率的に識別し, 高精度かつ解釈可能な地質図を作成できることが判明した。 重ねられたオートエンコーダの精度は、リモートセンシングデータの種類により、86.6%から90%の範囲であることがわかった。 また, 生成した地図は, 地質構造に関する新たな知見を提供しながら, それまでの地質学的知識と一致していることがわかった。

Supervised machine learning methods for geological mapping via remote sensing face limitations due to the scarcity of accurately labelled training data that can be addressed by unsupervised learning, such as dimensionality reduction and clustering. Dimensionality reduction methods have the potential to play a crucial role in improving the accuracy of geological maps. Although conventional dimensionality reduction methods may struggle with nonlinear data, unsupervised deep learning models such as autoencoders can model non-linear relationships. Stacked autoencoders feature multiple interconnected layers to capture hierarchical data representations useful for remote sensing data. This study presents an unsupervised machine learning-based framework for processing remote sensing data using stacked autoencoders for dimensionality reduction and k-means clustering for mapping geological units. We use Landsat 8, ASTER, and Sentinel-2 datasets to evaluate the framework for geological mapping of the Mutawintji region in Western New South Wales, Australia. We also compare stacked autoencoders with principal component analysis and canonical autoencoders. Our results reveal that the framework produces accurate and interpretable geological maps, efficiently discriminating rock units. We find that the accuracy of stacked autoencoders ranges from 86.6 % to 90 %, depending on the remote sensing data type, which is superior to their counterparts. We also find that the generated maps align with prior geological knowledge of the study area while providing novel insights into geological structures.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# 粒子検出器読み出しにおける機械学習のための130nmおよび28nmCMOSの組み込みFPGA開発

Embedded FPGA Developments in 130nm and 28nm CMOS for Machine Learning in Particle Detector Readout ( http://arxiv.org/abs/2404.17701v3 )

ライセンス: Link先を確認
Julia Gonski, Aseem Gupta, Haoyi Jia, Hyunjoon Kim, Lorenzo Rota, Larry Ruckman, Angelo Dragone, Ryan Herbst, (参考訳) 組み込みフィールドプログラマブルゲートアレイ(eFPGA)技術は、アプリケーション固有の集積回路(ASIC)の設計において再構成可能なロジックの実装を可能にする。 このアプローチはASICの低消費電力と効率、FPGA構成の容易さ、特に次世代コライダー実験のデータパイプラインにおける機械学習のユースケースに有益である。 FABulous"と呼ばれるオープンソースのフレームワークは130nmと28nmのCMOS技術ノードを使ってeFPGAを設計するために使われ、その後、テストによって製造され検証された。 シリコン画素センサを通した高エネルギー粒子のシミュレーションを用いて,eFPGAをフロントエンドの読み出しチップとして機能させる能力を評価した。 ソースにおけるセンサデータの削減のために設計された機械学習ベースの分類器を合成し、eFPGA上に構成した。 完全な精度でeFPGA上で予測されたアルゴリズムを再現し,概念実証に成功した。 eFPGA技術のさらなる発展とコライダー検出器の読み出しへの応用について論じる。

Embedded field programmable gate array (eFPGA) technology allows the implementation of reconfigurable logic within the design of an application-specific integrated circuit (ASIC). This approach offers the low power and efficiency of an ASIC along with the ease of FPGA configuration, particularly beneficial for the use case of machine learning in the data pipeline of next-generation collider experiments. An open-source framework called "FABulous" was used to design eFPGAs using 130 nm and 28 nm CMOS technology nodes, which were subsequently fabricated and verified through testing. The capability of an eFPGA to act as a front-end readout chip was assessed using simulation of high energy particles passing through a silicon pixel sensor. A machine learning-based classifier, designed for reduction of sensor data at the source, was synthesized and configured onto the eFPGA. A successful proof-of-concept was demonstrated through reproduction of the expected algorithm result on the eFPGA with perfect accuracy. Further development of the eFPGA technology and its application to collider detector readout is discussed.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# ファシリテート機能とトポロジー軽量化:不正アカウント検出のためのEthereumトランザクショングラフ圧縮法

Facilitating Feature and Topology Lightweighting: An Ethereum Transaction Graph Compression Method for Malicious Account Detection ( http://arxiv.org/abs/2405.08278v3 )

ライセンス: Link先を確認
Jiajun Zhou, Xuanze Chen, Shengbo Gong, Chenkai Hu, Chengxiang Jin, Shanqing Yu, Qi Xuan, (参考訳) Ethereumは暗号通貨の主要なグローバルプラットフォームのひとつとなり、金融エコシステムの多様化を促進する上で重要な役割を担っている。 しかし、規制の相対的な遅れによりEthereumの悪意ある活動が急増し、セキュリティへの資金提供が深刻な脅威となっている。 既存の規制手法は通常、機能エンジニアリングや大規模トランザクショングラフマイニングを通じて悪意のあるアカウントを検出する。 しかし、大量のトランザクションデータと悪意のある攻撃により、これらの手法は、データ処理と異常検出の間、非効率性とロバスト性に悩まされる。 そこで本研究では,TGC4Ethと呼ばれるEthereumトランザクショングラフ圧縮手法を提案し,トランザクショングラフの特徴とトポロジを軽量化することにより,悪意のあるアカウント検出を支援する。 特徴レベルでは,特徴回避攻撃に対する検出モデルのロバスト性を改善するために,低重要度に基づくトランザクション特徴を選択し,トポロジレベルでは,トランザクショングラフの構造を圧縮する集中処理と粗大化処理を採用し,検出モデルのデータ処理と推論効率を両立させる。 TGC4Ethは、トランザクショングラフの接続性を維持しながら、既存の検出モデルの計算効率を大幅に向上することを示した。 さらに、TGC4Ethは既存の検出モデルで安定した性能を維持し、機能回避攻撃に対して高い堅牢性を示すことができる。

Ethereum has become one of the primary global platforms for cryptocurrency, playing an important role in promoting the diversification of the financial ecosystem. However, the relative lag in regulation has led to a proliferation of malicious activities in Ethereum, posing a serious threat to fund security. Existing regulatory methods usually detect malicious accounts through feature engineering or large-scale transaction graph mining. However, due to the immense scale of transaction data and malicious attacks, these methods suffer from inefficiency and low robustness during data processing and anomaly detection. In this regard, we propose an Ethereum Transaction Graph Compression method named TGC4Eth, which assists malicious account detection by lightweighting both features and topology of the transaction graph. At the feature level, we select transaction features based on their low importance to improve the robustness of the subsequent detection models against feature evasion attacks; at the topology level, we employ focusing and coarsening processes to compress the structure of the transaction graph, thereby improving both data processing and inference efficiency of detection models. Extensive experiments demonstrate that TGC4Eth significantly improves the computational efficiency of existing detection models while preserving the connectivity of the transaction graph. Furthermore, TGC4Eth enables existing detection models to maintain stable performance and exhibit high robustness against feature evasion attacks.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# Ents: コミュニケーション最適化による決定木のための効率的な3要素学習フレームワーク

Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization ( http://arxiv.org/abs/2406.07948v4 )

ライセンス: Link先を確認
Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao, (参考訳) セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。 トレーニングプロセスは基本的に、分割基準に従って頻繁にデータセット分割を行う(e g Gini impurity)。 しかし,決定木に対する既存のマルチパーティトレーニングフレームワークは,(1)連続的な属性を持つデータセットを安全に分割する際の通信オーバーヘッドの増大に悩まされている。 2) 分割基準に対するセキュアな計算に適合するため, 大規模リング上でほぼ全ての計算を行うため, 通信オーバーヘッドの増大に悩まされる。 本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。 最初の問題として、セキュアなradixソートプロトコルに基づく一連のトレーニングプロトコルを提示し、データセットを連続的な属性で効率的に安全に分割する。 2つ目の問題として,大規模リング上でほぼ全ての計算を行うことで発生する通信オーバーヘッドを低減するために,小リングと大リング間で共有を変換する効率的な共有変換プロトコルを提案する。 8つの広く使われているデータセットによる実験結果によると、Entsは最先端のフレームワークを5.5\times \sim 9.3\times$と3.9\times \sim 5.3\times$で上回っている。 トレーニング時間の面では、Ents は $3.5\times \sim 6.7\times$ である。 その実用性を示すために、Entsは、WAN設定で245,000以上のサンプルを使用して、広く使用されている実世界のデータセット(Skin Segmentation)上で、決定ツリーをセキュアにトレーニングするのに3時間もかからない。

Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# 大規模言語モデルに対する逆探索エンジン最適化

Adversarial Search Engine Optimization for Large Language Models ( http://arxiv.org/abs/2406.18382v2 )

ライセンス: Link先を確認
Fredrik Nestaas, Edoardo Debenedetti, Florian Tramèr, (参考訳) 大規模言語モデル(LLM)は、LLMベースの検索エンジンやチャットボットプラグインなど、競合するサードパーティのコンテンツからモデルを選択するアプリケーションで、ますます使われている。 本稿では、LLMの選択を操作して攻撃者を支持する新しいタイプの攻撃であるPreference Manipulation Attacksを紹介する。 注意深いWebサイトコンテンツやプラグインのドキュメンテーションは、LLMを騙して攻撃的製品を宣伝し、競合を軽視し、ユーザトラフィックと収益化を増大させることができることを実証する。 これは囚人のジレンマにつながり、全ての当事者が攻撃を開始する動機付けを受けるが、集団的効果はLLMの出力を低下させる。 実運用LLM検索エンジン(BingとPerplexity)とプラグインAPI(GPT-4とClaude)に対する攻撃を実演する。 LLMは、サードパーティのコンテンツのランク付けにますます使われているので、Preference Manipulation Attacksが重大な脅威になることを期待している。

Large Language Models (LLMs) are increasingly used in applications where the model selects from competing third-party content, such as in LLM-powered search engines or chatbot plugins. In this paper, we introduce Preference Manipulation Attacks, a new class of attacks that manipulate an LLM's selections to favor the attacker. We demonstrate that carefully crafted website content or plugin documentations can trick an LLM to promote the attacker products and discredit competitors, thereby increasing user traffic and monetization. We show this leads to a prisoner's dilemma, where all parties are incentivized to launch attacks, but the collective effect degrades the LLM's outputs for everyone. We demonstrate our attacks on production LLM search engines (Bing and Perplexity) and plugin APIs (for GPT-4 and Claude). As LLMs are increasingly used to rank third-party content, we expect Preference Manipulation Attacks to emerge as a significant threat.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# 量子コンピュータにおける計算流体力学

Computational Fluid Dynamics on Quantum Computers ( http://arxiv.org/abs/2406.18749v2 )

ライセンス: Link先を確認
Madhava Syamlal, Carter Copen, Masashi Takahashi, Benjamin Hall, (参考訳) QubitSolveは計算流体力学(CFD)のための量子解に取り組んでいる。 我々は、変分量子CFD(VQCFD)アルゴリズムとそれに基づく2Dソフトウェアプロトタイプを作成しました。 量子シミュレータ上でSoftware Prototypeをテストすることにより、CFDの根底にある偏微分方程式を量子コンピュータで解くことができることを示す。 量子アドバンテージがVQCFDで達成できるかどうかを判断することを目的としている。 そこで本研究では,VQCFDの性能と従来のCFDの性能を性能モデルを用いて比較する。 量子性能モデルは、量子コンピュータ上で動作するVQCFD回路のデータを使用する。 産業シミュレーションに関係のあるサイズの量子と古典的シミュレーション時間の比率であるキーパフォーマンスパラメータ Q_{5E7} を定義する。 ソフトウェアプロトタイプの現在の状態と利用可能な限られた計算資源を考えると、我々はQ_{5E7}の上限を見積もることができる。 推定されたQ_{5E7} はアルゴリズムの実装が大幅に改善する必要があることを示しているが、量子的優位性を達成するのに十分削減できる革新的な技術がいくつか見出されている。 開発の次のフェーズでは、3Dの最小限の製品を開発し、それらの技術を実装します。

QubitSolve is working on a quantum solution for computational fluid dynamics (CFD). We have created a variational quantum CFD (VQCFD) algorithm and a 2D Software Prototype based on it. By testing the Software Prototype on a quantum simulator, we demonstrate that the partial differential equations that underlie CFD can be solved using quantum computers. We aim to determine whether a quantum advantage can be achieved with VQCFD. To do this, we compare the performance of VQCFD with classical CFD using performance models. The quantum performance model uses data from VQCFD circuits run on quantum computers. We define a key performance parameter Q_{5E7}, the ratio of quantum to classical simulation time for a size relevant to industrial simulations. Given the current state of the Software Prototype and the limited computing resources available, we can only estimate an upper bound for Q_{5E7}. While the estimated Q_{5E7} shows that the algorithm's implementation must improve significantly, we have identified several innovative techniques that could reduce it sufficiently to achieve a quantum advantage. In the next phase of development, we will develop a 3D minimum-viable product and implement those techniques.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# 大規模視線モデルに対するバックドアアタックの再検討

Revisiting Backdoor Attacks against Large Vision-Language Models ( http://arxiv.org/abs/2406.18844v3 )

ライセンス: Link先を確認
Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Ee-Chien Chang, Xiaochun Cao, (参考訳) インストラクションチューニングは、大きな視覚言語モデル(LVLM)を強化するが、オープン性によるバックドア攻撃によるセキュリティリスクを高める。 これまでのバックドア研究は、一貫したトレーニングとテストの指示を伴う囲い込みシナリオに焦点を当てており、攻撃効果に影響を与える可能性のある実践的なドメインギャップを無視している。 本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化性を実証的に検討し,実践シナリオにおけるバックドア戦略の限界を明らかにした。 視覚領域オフセットとテキスト領域オフセットの両方を考慮すると、複数のLVLMにまたがるイメージキャプションベンチマークに対する6つの典型的なバックドア攻撃の一般化可能性について定量的に評価する。 その結果, 攻撃の一般化性は, 特定の画像・モデルに関係のないバックドアトリガーと, トリガーパターンの優先的相関に正の相関があることが示唆された。 さらに、上記の主要な観測結果に基づいて既存のバックドア攻撃を修正し、クロスドメインシナリオの一般化可能性(+86%の攻撃成功率)を大幅に改善したことを示す。 特に、命令データセットにアクセスしなくても、マルチモーダル命令セットは、非常に低い毒性率(0.2%)で、97%以上の攻撃成功率を達成することができる。 この論文は、シンプルなバックドア戦略でさえLVLMに深刻な脅威をもたらし、より多くの注意と詳細な研究を必要としていることを強調している。

Instruction tuning enhances large vision-language models (LVLMs) but raises security risks through potential backdoor attacks due to their openness. Previous backdoor studies focus on enclosed scenarios with consistent training and testing instructions, neglecting the practical domain gaps that could affect attack effectiveness. This paper empirically examines the generalizability of backdoor attacks during the instruction tuning of LVLMs for the first time, revealing certain limitations of most backdoor strategies in practical scenarios. We quantitatively evaluate the generalizability of six typical backdoor attacks on image caption benchmarks across multiple LVLMs, considering both visual and textual domain offsets. Our findings indicate that attack generalizability is positively correlated with the backdoor trigger's irrelevance to specific images/models and the preferential correlation of the trigger pattern. Additionally, we modify existing backdoor attacks based on the above key observations, demonstrating significant improvements in cross-domain scenario generalizability (+86% attack success rate). Notably, even without access to the instruction datasets, a multimodal instruction set can be successfully poisoned with a very low poisoning rate (0.2%), achieving an attack success rate of over 97%. This paper underscores that even simple traditional backdoor strategies pose a serious threat to LVLMs, necessitating more attention and in-depth research.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# ReXTime: ビデオのリアルタイム推論のためのベンチマークスイート

ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos ( http://arxiv.org/abs/2406.19392v2 )

ライセンス: Link先を確認
Jr-Jen Chen, Yu-Chien Liao, Hsi-Che Lin, Yu-Chu Yu, Yen-Chun Chen, Yu-Chiang Frank Wang, (参考訳) ビデオイベント内で時間的推論を実行するAIモデルの能力を厳格にテストするために設計されたベンチマークであるReXTimeを紹介する。 具体的には、ReXTimeは時間にわたっての推論、すなわち、質問とその対応する回答が異なるビデオセグメントで発生するときの人間的な理解に焦点を当てている。 ビデオセグメント間の因果関係の高度な理解を必要とするこの推論形式は、フロンティアのマルチモーダルな大言語モデルにも大きな課題をもたらす。 この評価を容易にするために,時間的推論型質問応答ペアを生成する自動パイプラインを開発し,労働集約型手動アノテーションの必要性を著しく低減する。 私たちのベンチマークには、慎重に検証された検証サンプル921と、2,143のテストサンプルが含まれています。 評価の結果、フロンティアの大規模言語モデルは学術的モデルよりも優れているが、それでも14.3%の精度差で人間のパフォーマンスを遅れていることがわかった。 さらに、私たちのパイプラインは、手作業なしで9,695個のマシン生成サンプルのトレーニングデータセットを作成しています。

We introduce ReXTime, a benchmark designed to rigorously test AI models' ability to perform temporal reasoning within video events. Specifically, ReXTime focuses on reasoning across time, i.e. human-like understanding when the question and its corresponding answer occur in different video segments. This form of reasoning, requiring advanced understanding of cause-and-effect relationships across video segments, poses significant challenges to even the frontier multimodal large language models. To facilitate this evaluation, we develop an automated pipeline for generating temporal reasoning question-answer pairs, significantly reducing the need for labor-intensive manual annotations. Our benchmark includes 921 carefully vetted validation samples and 2,143 test samples, each manually curated for accuracy and relevance. Evaluation results show that while frontier large language models outperform academic models, they still lag behind human performance by a significant 14.3% accuracy gap. Additionally, our pipeline creates a training dataset of 9,695 machine generated samples without manual effort, which empirical studies suggest can enhance the across-time reasoning via fine-tuning.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# ROS-LLM:タスクフィードバックと構造化推論を備えたAI具体化のためのROSフレームワーク

ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning ( http://arxiv.org/abs/2406.19741v2 )

ライセンス: Link先を確認
Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Daniel Palenicek, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar, (参考訳) 本稿では,ロボットオペレーティング・システム(ROS)の自然言語プロンプトと文脈情報を活用する,非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。 我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。 フレームワークの主な特徴は、オープンソースのLLMと接続されたAIエージェントとのROSの統合、LLM出力からの行動の自動抽出、ROSアクション/サービスの実行、3つの動作モード(シーケンス、行動ツリー、状態マシン)のサポート、可能なアクションのライブラリに新しいロボットアクションを追加する模倣学習、人間と環境のフィードバックによるLCMリフレクションである。 大規模な実験により、長期のタスク、テーブルトップの再配置、リモート監視制御など、さまざまなシナリオにおける堅牢性、スケーラビリティ、汎用性を示すフレームワークが検証された。 フレームワークの採用を容易にし、その結果の再現をサポートするため、コードをオープンソースにしました。 https://github.com/huawei-noah/HEBO/tree/master/ROSLLM

We present a framework for intuitive robot programming by non-experts, leveraging natural language prompts and contextual information from the Robot Operating System (ROS). Our system integrates large language models (LLMs), enabling non-experts to articulate task requirements to the system through a chat interface. Key features of the framework include: integration of ROS with an AI agent connected to a plethora of open-source and commercial LLMs, automatic extraction of a behavior from the LLM output and execution of ROS actions/services, support for three behavior modes (sequence, behavior tree, state machine), imitation learning for adding new robot actions to the library of possible actions, and LLM reflection via human and environment feedback. Extensive experiments validate the framework, showcasing robustness, scalability, and versatility in diverse scenarios, including long-horizon tasks, tabletop rearrangements, and remote supervisory control. To facilitate the adoption of our framework and support the reproduction of our results, we have made our code open-source. You can access it at: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# 継続的統合における学習に基づくアプローチの適用に関する体系的文献レビュー

Systematic Literature Review on Application of Learning-based Approaches in Continuous Integration ( http://arxiv.org/abs/2406.19765v2 )

ライセンス: Link先を確認
Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi, M. Ali Babar, (参考訳) コンテキスト: 機械学習(ML)とディープラーニング(DL)は生データを分析して、特定のフェーズにおける貴重な洞察を抽出する。 ソフトウェアプロジェクトにおける継続的プラクティスの台頭は、これらの学習ベースの手法による継続的インテグレーション(CI)の自動化を強調する一方で、そのようなアプローチの採用の増加は、知識の体系化の必要性を浮き彫りにしている。 目的:私たちの目標は、CIドメイン内の学習ベースの方法に関する既存の文献を総合的にレビューし、分析することにあります。 私たちは、CIの文脈において、学習ベースのソリューションにおけるトレーニングフェーズの基本的特性を強調し、文献に記録された様々なテクニックを特定し、分析することに努めます。 方法:52の初等研究を含む体系的文献レビュー(SLR)を行った。 統計的および数学的な分析を通じて,CIタスクと学習ベース方法論の学習フェーズの相関関係を,データ工学から評価指標までの範囲で検討した。 結果:本論文では,学習手法を用いたCIタスクの自動化について分析する。 我々は、9種類のデータソース、データ準備の4つのステップ、4つの特徴タイプ、9つのデータ特徴のサブセット、ハイパーパラメータ選択とチューニングのための5つのアプローチ、および15の評価指標を特定し、分析する。 さらに、採用されている最新の技術、CIタスク自動化における既存のギャップ、利用した学習技術の特徴についても論じる。 結論:本研究では、CIにおける学習ベースの手法に関する包括的な概要を提供し、CIタスク自動化を開発する研究者や実践者に貴重な洞察を提供する。 さらに、これらの手法をCIで前進させるためのさらなる研究の必要性も強調されている。

Context: Machine learning (ML) and deep learning (DL) analyze raw data to extract valuable insights in specific phases. The rise of continuous practices in software projects emphasizes automating Continuous Integration (CI) with these learning-based methods, while the growing adoption of such approaches underscores the need for systematizing knowledge. Objective: Our objective is to comprehensively review and analyze existing literature concerning learning-based methods within the CI domain. We endeavour to identify and analyse various techniques documented in the literature, emphasizing the fundamental attributes of training phases within learning-based solutions in the context of CI. Method: We conducted a Systematic Literature Review (SLR) involving 52 primary studies. Through statistical and thematic analyses, we explored the correlations between CI tasks and the training phases of learning-based methodologies across the selected studies, encompassing a spectrum from data engineering techniques to evaluation metrics. Results: This paper presents an analysis of the automation of CI tasks utilizing learning-based methods. We identify and analyze nine types of data sources, four steps in data preparation, four feature types, nine subsets of data features, five approaches for hyperparameter selection and tuning, and fifteen evaluation metrics. Furthermore, we discuss the latest techniques employed, existing gaps in CI task automation, and the characteristics of the utilized learning-based techniques. Conclusion: This study provides a comprehensive overview of learning-based methods in CI, offering valuable insights for researchers and practitioners developing CI task automation. It also highlights the need for further research to advance these methods in CI.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02
# BMW Agents - マルチエージェントコラボレーションによるタスク自動化フレームワーク

BMW Agents -- A Framework For Task Automation Through Multi-Agent Collaboration ( http://arxiv.org/abs/2406.20041v3 )

ライセンス: Link先を確認
Noel Crawford, Edward B. Duffy, Iman Evazzade, Torsten Foehr, Gregory Robbins, Debbrata Kumar Saha, Jiya Varma, Marcin Ziolkowski, (参考訳) LLM(Large Language Models)によって駆動される自律エージェントは、自動化に巨大な可能性を秘めている。 この技術の初期の証明は、複雑なタスクを解決し、外部システムと対話して知識を増強し、アクションをトリガーするエージェントの様々なデモンストレーションで見ることができる。 特に、複数のエージェントが複雑なタスクを協調的に解決するワークフローは、より厳格で明確な環境での運用能力を実証している。 このように、マルチエージェントアプローチは、複雑な知識検索システムから次世代のロボットプロセス自動化まで、多くの産業アプリケーションにおいてバックボーンとして機能する大きな可能性を秘めている。 現在のLLMの世代における推論能力を考えると、複雑なプロセスは、明確に定義されたモジュラータスクの計画を含む多段階のアプローチを必要とする。 複雑さのレベルによって、これらのタスクは単一のエージェントまたはエージェントのグループによって実行される。 本研究では、計画と実行に注意を払ってフレキシブルなエージェントエンジニアリングフレームワークを設計することに焦点を当て、様々なドメインにわたる複雑なユースケースアプリケーションを扱うことができる。 提案するフレームワークは、産業用アプリケーションの信頼性を提供し、複数の自律エージェントがタスクの解決に向けて協力して作業するためのスケーラブルでフレキシブルで協調的なワークフローを保証するためのテクニックを提供する。

Autonomous agents driven by Large Language Models (LLMs) offer enormous potential for automation. Early proof of this technology can be found in various demonstrations of agents solving complex tasks, interacting with external systems to augment their knowledge, and triggering actions. In particular, workflows involving multiple agents solving complex tasks in a collaborative fashion exemplify their capacity to operate in less strict and less well-defined environments. Thus, a multi-agent approach has great potential for serving as a backbone in many industrial applications, ranging from complex knowledge retrieval systems to next generation robotic process automation. Given the reasoning abilities within the current generation of LLMs, complex processes require a multi-step approach that includes a plan of well-defined and modular tasks. Depending on the level of complexity, these tasks can be executed either by a single agent or a group of agents. In this work, we focus on designing a flexible agent engineering framework with careful attention to planning and execution, capable of handling complex use case applications across various domains. The proposed framework provides reliability in industrial applications and presents techniques to ensure a scalable, flexible, and collaborative workflow for multiple autonomous agents working together towards solving tasks.
翻訳日:2024-07-03 12:13:48 公開日:2024-07-02