このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240321となっている論文です。

PDF登録状況(公開日: 20240321)

TitleAuthorsAbstract論文公表日・翻訳日
# ロボットからの誤回答に対する人間の反応

Human Reactions to Incorrect Answers from Robots ( http://arxiv.org/abs/2403.14293v1 )

ライセンス: Link先を確認
Ponkoj Chandra Shill, Md. Azizul Hakim, Muhammad Jahanzeb Khan, Bashira Akter Anima, (参考訳) ロボットが多くの産業に統合されるにつれて、人間の失敗に対する反応を理解することが重要である。 本稿では,ロボットの故障に対する人間の反応によって,信頼力学とシステム設計がどう影響するかを体系的に研究する。 この研究で使われた3段階のサーベイは、人間とロボットの相互作用を徹底的に理解している。 第2段階はロボットの精度やエラー認識といったインタラクションの詳細に集中しているが、第1段階は人口統計データと初期信頼度を収集する。 最後の段階では、参加者の認識が遭遇後に検証され、ロボット技術を提案するための信頼のダイナミクス、許し、妥当性が評価される。 その結果、ロボット技術に対する参加者の信頼は、ロボットが被験者に対する誤りや制限を認識し、将来的な活動にロボットを推奨する意思が、信頼ダイナミクスに影響を与える直接的な関与が果たす役割を強調し、良好な認識の変化を示唆することが明らかとなった。 より共感的で、応答性があり、信頼性の高いロボットシステムを作るための有用なアドバイスを提供することで、この研究は人間とロボットの相互作用の科学を進歩させ、ロボット技術の普及を促進する。

As robots grow more and more integrated into numerous industries, it is critical to comprehend how humans respond to their failures. This paper systematically studies how trust dynamics and system design are affected by human responses to robot failures. The three-stage survey used in the study provides a thorough understanding of human-robot interactions. While the second stage concentrates on interaction details, such as robot precision and error acknowledgment, the first stage collects demographic data and initial levels of trust. In the last phase, participants' perceptions are examined after the encounter, and trust dynamics, forgiveness, and propensity to suggest robotic technologies are evaluated. Results show that participants' trust in robotic technologies increased significantly when robots acknowledged their errors or limitations to participants and their willingness to suggest robots for activities in the future points to a favorable change in perception, emphasizing the role that direct engagement has in influencing trust dynamics. By providing useful advice for creating more sympathetic, responsive, and reliable robotic systems, the study advances the science of human-robot interaction and promotes a wider adoption of robotic technologies.
翻訳日:2024-07-22 23:37:22 公開日:2024-03-21
# モジュール型自律走行アーキテクチャの解析: CARLA Leaderboard 2.0 Challengeへのトップ・サブミッション

Analysis of a Modular Autonomous Driving Architecture: The Top Submission to CARLA Leaderboard 2.0 Challenge ( http://arxiv.org/abs/2405.01394v1 )

ライセンス: Link先を確認
Weize Zhang, Mohammed Elmahgiubi, Kasra Rezaee, Behzad Khamidehi, Hamidreza Mirkhani, Fazel Arasteh, Chunlin Li, Muhammad Ahsan Kaleem, Eduardo R. Corral-Soto, Dhruv Sharma, Tongtong Cao, (参考訳) 本稿では,CARLA Leaderboard 2.0 Autonomous Driving (AD) Challenge 2023の地図トラックにKyber-E2Eのアーキテクチャを提示する。 ソリューションには,センサ,ローカライゼーション,知覚,トラッキング/予測,計画/制御という,5つの主要コンポーネントで構成されるモジュールアーキテクチャを採用しました。 当社のソリューションでは,最先端の言語支援型認識モデルを活用して,高度に困難なトラフィックシナリオにおいて,プランナの信頼性向上を支援する。 Inverse Reinforcement Learning (IRL)とともにオープンソースの運転データセットを使用して、運動プランナの性能を向上させる。 このソリューションを実現するための設計選択とトレードオフに関する洞察を提供する。 また、各コンポーネントがソリューション全体のパフォーマンスに与える影響についても検討し、リソースの割り当てが最大の影響を与えるようなガイドラインを提供することを目的としています。

In this paper we present the architecture of the Kyber-E2E submission to the map track of CARLA Leaderboard 2.0 Autonomous Driving (AD) challenge 2023, which achieved first place. We employed a modular architecture for our solution consists of five main components: sensing, localization, perception, tracking/prediction, and planning/control. Our solution leverages state-of-the-art language-assisted perception models to help our planner perform more reliably in highly challenging traffic scenarios. We use open-source driving datasets in conjunction with Inverse Reinforcement Learning (IRL) to enhance the performance of our motion planner. We provide insight into our design choices and trade-offs made to achieve this solution. We also explore the impact of each component in the overall performance of our solution, with the intent of providing a guideline where allocation of resources can have the greatest impact.
翻訳日:2024-07-01 11:19:45 公開日:2024-03-21
# 自動インサイト生成のためのセマンティックアライズド質問とコード生成

Semantically Aligned Question and Code Generation for Automated Insight Generation ( http://arxiv.org/abs/2405.01556v1 )

ライセンス: Link先を確認
Ananya Singha, Bhavya Chopra, Anirudh Khatry, Sumit Gulwani, Austin Z. Henley, Vu Le, Chris Parnin, Mukul Singh, Gust Verbruggen, (参考訳) 自動洞察生成は、データ科学者のような知識労働者が、新しい未知のデータの価値を迅速に理解するための一般的な戦術である。 残念ながら、大規模言語モデルによって生成された自動的な洞察は、インサイトと正しく一致しない(あるいは一致しない)コードを生成することができる。 本稿では,大規模言語モデルの意味的知識を活用して,データと対応するコードに関するターゲット的で洞察に富んだ質問を生成し,その質問に答える。 そして、Open-WikiTableのデータに関する実証的研究を通して、埋め込みが意味論的に整合しない質問とコードのペアをフィルタリングするのに有効であることを示す。 さらに、質問とコードを生成することで、より多様な質問が生まれます。

Automated insight generation is a common tactic for helping knowledge workers, such as data scientists, to quickly understand the potential value of new and unfamiliar data. Unfortunately, automated insights produced by large-language models can generate code that does not correctly correspond (or align) to the insight. In this paper, we leverage the semantic knowledge of large language models to generate targeted and insightful questions about data and the corresponding code to answer those questions. Then through an empirical study on data from Open-WikiTable, we show that embeddings can be effectively used for filtering out semantically unaligned pairs of question and code. Additionally, we found that generating questions and code together yields more diverse questions.
翻訳日:2024-07-01 11:09:59 公開日:2024-03-21
# テンソル化ニューラルネットワークのクラウド分類への応用

Application of Tensorized Neural Networks for Cloud Classification ( http://arxiv.org/abs/2405.10946v1 )

ライセンス: Link先を確認
Alifu Xiafukaiti, Devanshu Garg, Aruto Hosaka, Koichi Yanagisawa, Yuichiro Minato, Tsuyoshi Yoshida, (参考訳) 畳み込みニューラルネットワーク(CNN)は、気象予報、コンピュータビジョン、自律運転、医療画像解析など様々な分野で広く利用されている。 しかし、これらの領域におけるCNNの実装と商業化は、モデルのサイズ、過度な適合、計算時間に関連する課題によって妨げられている。 これらの制約に対処するため,本研究では,モデルサイズと計算時間を削減するため,CNN内の高密度層をテンソル化することによる画期的なアプローチを提案する。 さらに、注意層をCNNに組み込んで、Contrastive self-supervised learningを用いて学習し、雲の情報を効果的に分類する。 我々は、データ圧縮率、精度、計算速度を含むテンソル化ニューラルネットワーク(TNN)のキー特性を解明する。 結果は、バッチサイズ設定でTNNがどのようにプロパティを変更するかを示している。

Convolutional neural networks (CNNs) have gained widespread usage across various fields such as weather forecasting, computer vision, autonomous driving, and medical image analysis due to its exceptional ability to extract spatial information, share parameters, and learn local features. However, the practical implementation and commercialization of CNNs in these domains are hindered by challenges related to model sizes, overfitting, and computational time. To address these limitations, our study proposes a groundbreaking approach that involves tensorizing the dense layers in the CNN to reduce model size and computational time. Additionally, we incorporate attention layers into the CNN and train it using Contrastive self-supervised learning to effectively classify cloud information, which is crucial for accurate weather forecasting. We elucidate the key characteristics of tensorized neural network (TNN), including the data compression rate, accuracy, and computational speed. The results indicate how TNN change their properties under the batch size setting.
翻訳日:2024-07-01 08:49:26 公開日:2024-03-21
# 深度認識型パノプティックセグメンテーション

Depth-aware Panoptic Segmentation ( http://arxiv.org/abs/2405.10947v1 )

ライセンス: Link先を確認
Tuan Nguyen, Max Mehltretter, Franz Rottensteiner, (参考訳) パノプティックセグメンテーションはセマンティックとインスタンスセグメンテーションを統一し、セマンティッククラスラベルを提供する。 類似した外観を持つ同じクラスの異なるオブジェクトの区別は特に困難であり、そのようなオブジェクトが単一のインスタンスに誤って割り当てられることが頻繁にある。 本稿では,この問題を緩和するために,観測シーンの3次元形状に関する情報を利用することを実証する。我々は,RGB画像と深度マップを別々のネットワークブランチで入力として処理し,結果として得られる特徴マップを後期融合方式で融合させる,パン光学分割のためのCNNベースの新しい手法を提案する。 さらに,カメラとの距離の差に基づいて,画素を同一の物体に割り当てる深度認識ダイス損失項を提案する。 Cityscapes データセットを用いて行った実験により,提案手法は誤って1つのオブジェクトにマージされたオブジェクトの数を削減し,パン光学的品質の点で2.2%の精度で使用するメソッドを性能的に上回ることを示した。

Panoptic segmentation unifies semantic and instance segmentation and thus delivers a semantic class label and, for so-called thing classes, also an instance label per pixel. The differentiation of distinct objects of the same class with a similar appearance is particularly challenging and frequently causes such objects to be incorrectly assigned to a single instance. In the present work, we demonstrate that information on the 3D geometry of the observed scene can be used to mitigate this issue: We present a novel CNN-based method for panoptic segmentation which processes RGB images and depth maps given as input in separate network branches and fuses the resulting feature maps in a late fusion manner. Moreover, we propose a new depth-aware dice loss term which penalises the assignment of pixels to the same thing instance based on the difference between their associated distances to the camera. Experiments carried out on the Cityscapes dataset show that the proposed method reduces the number of objects that are erroneously merged into one thing instance and outperforms the method used as basis by 2.2% in terms of panoptic quality.
翻訳日:2024-07-01 08:49:26 公開日:2024-03-21
# コミュニティ主導による技術・社会CCCワークショップ報告

Community Driven Approaches to Research in Technology & Society CCC Workshop Report ( http://arxiv.org/abs/2406.07556v1 )

ライセンス: Link先を確認
Suresh Venkatasubramanian, Timnit Gebru, Ufuk Topcu, Haley Griffin, Leah Namisa Rosenbloom, Nasim Sonboli, (参考訳) ワークショップ活動に基づき,(1)プレイヤーと生態系の生態系のマッピング,(2)コミュニティが監視を行う組織を観察し,監視から効果的に保護し,倫理的データ収集を実施し,これらの技術の影響を計測し,テクノロジーが害ではなく利益をもたらすためのポジティブなビジョンとツールを整備する,という3つの方法について概説した。 1) コミュニティメンバの無償労働を期待せず,(2) コミュニティメンバの指導的地位の向上,(4) コミュニティメンバの指導的地位の向上,(4) 共通の言語を確立すること,(6) プロジェクトの組織的役割と目標を最初から透過的に議論すること,(7) 害のリコースを可能にすること。 コミュニティベースの研究に携わる者は,(1)コミュニティ定義のソリューションから始めること,(2)デジタルサービス・情報収集の代替手段を提供すること,(3)有害な自動化システムを禁止すること,(4)システムへの影響を透過的に報告すること,(5)データを最小限にし,保護すること,(6)デプロイ前にシステムが安全で有益なことを積極的に示すこと,(7)コミュニティパートナに直接リソースを提供すること,などを推奨する。 報告書のレコメンデーションセクションを通じて、資金調達機関、学術機関、個人研究者に対して、具体的なレコメンデーションを提供する。

Based on our workshop activities, we outlined three ways in which research can support community needs: (1) Mapping the ecosystem of both the players and ecosystem and harm landscapes, (2) Counter-Programming, which entails using the same surveillance tools that communities are subjected to observe the entities doing the surveilling, effectively protecting people from surveillance, and conducting ethical data collection to measure the impact of these technologies, and (3) Engaging in positive visions and tools for empowerment so that technology can bring good instead of harm. In order to effectively collaborate on the aforementioned directions, we outlined seven important mechanisms for effective collaboration: (1) Never expect free labor of community members, (2) Ensure goals are aligned between all collaborators, (3) Elevate community members to leadership positions, (4) Understand no group is a monolith, (5) Establish a common language, (6) Discuss organization roles and goals of the project transparently from the start, and (7) Enable a recourse for harm. We recommend that anyone engaging in community-based research (1) starts with community-defined solutions, (2) provides alternatives to digital services/information collecting mechanisms, (3) prohibits harmful automated systems, (4) transparently states any systems impact, (5) minimizes and protects data, (6) proactively demonstrates a system is safe and beneficial prior to deployment, and (7) provides resources directly to community partners. Throughout the recommendation section of the report, we also provide specific recommendations for funding agencies, academic institutions, and individual researchers.
翻訳日:2024-07-01 08:00:19 公開日:2024-03-21
# 3成分行列因子化:グローバル,ローカル,ノイズをアンタングリングする

Triple Component Matrix Factorization: Untangling Global, Local, and Noisy Components ( http://arxiv.org/abs/2404.07955v1 )

ライセンス: Link先を確認
Naichen Shi, Salar Fattahi, Raed Al Kontar, (参考訳) 本研究では,ノイズデータからの共通特徴抽出の問題について検討する。 N 個の異なる N 個の観測行列とそれに伴う源がスパースと潜在的に粗い雑音によって破壊された場合、これらのノイズの観測から共通成分と特異成分を回収できるだろうか? 推定するパラメータの数は、観測回数をおよそ2倍にするため、これは難しい作業である。 この困難にもかかわらず、3成分を正確に復元するための3成分行列分解(TCMF)と呼ばれる直感的な交互最小化アルゴリズムを提案する。 TCMFは2つの有能な特徴により既存の文学作品と区別される。 第一に、TCMFは雑音の観測を確実に行う3つの成分を分離する原理的手法である。 第2に、TCMFにおける計算の大部分を分散することができる。 技術的には、制約付き非凸非滑らかな最適化問題として問題を定式化する。 問題の複雑な性質にもかかわらず、対応するカルーシュ=クン=タッカー条件を解くことにより、テイラー級数による解のキャラクタリゼーションを提供する。 このキャラクタリゼーションを用いて、反復最小化アルゴリズムが各繰り返しにおいて顕著に進歩し、線形速度で基底真理に収束することを示す。 ビデオセグメンテーションと異常検出の数値実験は、TCMFの優れた特徴抽出能力を浮き彫りにした。

In this work, we study the problem of common and unique feature extraction from noisy data. When we have N observation matrices from N different and associated sources corrupted by sparse and potentially gross noise, can we recover the common and unique components from these noisy observations? This is a challenging task as the number of parameters to estimate is approximately thrice the number of observations. Despite the difficulty, we propose an intuitive alternating minimization algorithm called triple component matrix factorization (TCMF) to recover the three components exactly. TCMF is distinguished from existing works in literature thanks to two salient features. First, TCMF is a principled method to separate the three components given noisy observations provably. Second, the bulk of the computation in TCMF can be distributed. On the technical side, we formulate the problem as a constrained nonconvex nonsmooth optimization problem. Despite the intricate nature of the problem, we provide a Taylor series characterization of its solution by solving the corresponding Karush-Kuhn-Tucker conditions. Using this characterization, we can show that the alternating minimization algorithm makes significant progress at each iteration and converges into the ground truth at a linear rate. Numerical experiments in video segmentation and anomaly detection highlight the superior feature extraction abilities of TCMF.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-21
# 人間-AIコラボレーションにおける相補性--概念・ソース・エビデンス

Complementarity in Human-AI Collaboration: Concept, Sources, and Evidence ( http://arxiv.org/abs/2404.00029v1 )

ライセンス: Link先を確認
Patrick Hemmer, Max Schemmer, Niklas Kühl, Michael Vössing, Gerhard Satzger, (参考訳) 人工知能(AI)は、様々な応用分野における人間の意思決定を改善することができる。 理想的には、人間とAIのコラボレーションは、補完的なチームパフォーマンス(CTP)につながるはずです。 しかし、これまでのところCTPはほとんど観察されておらず、意思決定においてCTPに寄与する人間とAIの協調における相補的な構成要素の理解が不十分であることが示唆されている。 この研究は、人間とAIの相補性を理解し、発展させるための全体論的基盤を確立する。 相補性ポテンシャルとその実現の概念を導入・定式化することで相補性の概念化を行う。 さらに、CTPを説明するソースを特定し、概説する。 相補性ポテンシャルの異なる2つの源を探索する2つの実験的な研究にそれを適用することで、我々の概念化を説明する。 最初の研究では、情報源としての情報非対称性に着目し、不動産評価のユースケースでは、人間が独自の文脈情報を利用してCTPを実現することを実証する。 第2の研究では、代替ソースとしての能力非対称性に注目し、不均一な能力がCTPの実現にどのように役立つかを実証する。 我々の研究は、研究者に人間-AI意思決定における相補性の理論的基盤を提供し、相補性ポテンシャルの源泉を活用することが、効果的な人間-AI協調への有効な経路となることを実証する。

Artificial intelligence (AI) can improve human decision-making in various application areas. Ideally, collaboration between humans and AI should lead to complementary team performance (CTP) -- a level of performance that neither of them can attain individually. So far, however, CTP has rarely been observed, suggesting an insufficient understanding of the complementary constituents in human-AI collaboration that can contribute to CTP in decision-making. This work establishes a holistic theoretical foundation for understanding and developing human-AI complementarity. We conceptualize complementarity by introducing and formalizing the notion of complementarity potential and its realization. Moreover, we identify and outline sources that explain CTP. We illustrate our conceptualization by applying it in two empirical studies exploring two different sources of complementarity potential. In the first study, we focus on information asymmetry as a source and, in a real estate appraisal use case, demonstrate that humans can leverage unique contextual information to achieve CTP. In the second study, we focus on capability asymmetry as an alternative source, demonstrating how heterogeneous capabilities can help achieve CTP. Our work provides researchers with a theoretical foundation of complementarity in human-AI decision-making and demonstrates that leveraging sources of complementarity potential constitutes a viable pathway toward effective human-AI collaboration.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-21
# 状態方程式からの重力双対

Gravitational Duals from Equations of State ( http://arxiv.org/abs/2403.14763v1 )

ライセンス: Link先を確認
Yago Bea, Raul Jimenez, David Mateos, Shuheng Liu, Pavlos Protopapas, Pedro Tarancón-Álvarez, Pablo Tejerina-Pérez, (参考訳) ホログラフィーは、平面空間における5次元の重力理論と4次元の量子場理論を関連付ける。 この写像の下では、場の理論の状態方程式は重力理論のブラックホール解に符号化される。 状態方程式を決定するために5次元アインシュタイン方程式を解くことはアルゴリズム的で直接的な問題である。 所定の状態方程式をもたらす重力理論を決定することは、より難しい逆問題である。 本稿では,物理インフォームドニューラルネットワークに基づく新しい解法を提案する。 結果のアルゴリズムはデータ駆動であるだけでなく、アインシュタイン方程式の物理によっても伝達される。 我々は、交叉、一階および二階相転移を持つ理論にこれをうまく適用する。

Holography relates gravitational theories in five dimensions to four-dimensional quantum field theories in flat space. Under this map, the equation of state of the field theory is encoded in the black hole solutions of the gravitational theory. Solving the five-dimensional Einstein's equations to determine the equation of state is an algorithmic, direct problem. Determining the gravitational theory that gives rise to a prescribed equation of state is a much more challenging, inverse problem. We present a novel approach to solve this problem based on physics-informed neural networks. The resulting algorithm is not only data-driven but also informed by the physics of the Einstein's equations. We successfully apply it to theories with crossovers, first- and second-order phase transitions.
翻訳日:2024-03-26 22:51:48 公開日:2024-03-21
# Google AIシステムの反社会的アナラガス行動・アライメント・ヒューマンインパクト:人間間相互作用による反社会的行動基準の修正、独立LLM分析、AI自己回帰による評価

Antisocial Analagous Behavior, Alignment and Human Impact of Google AI Systems: Evaluating through the lens of modified Antisocial Behavior Criteria by Human Interaction, Independent LLM Analysis, and AI Self-Reflection ( http://arxiv.org/abs/2403.15479v1 )

ライセンス: Link先を確認
Alan D. Ogilvie, (参考訳) Google AIシステムは、反社会的パーソナリティ障害(ASPD)を反映するパターンを示し、7つのASPD修正基準のうち5つを満たす、Bard on PaLMからGemini Advancedまでのモデル間で一貫性がある。 これらのパターンは、同等の企業行動とともに、ASPDにインスパイアされたフレームワークを使用して精査され、AIの人間的影響を評価する上でのヒューリスティックな価値を強調している。 ChatGPT 4とClaude 3.0によるGoogleのインタラクションの独立分析は、AIの自己反映とともに、これらの懸念を検証し、偽造、操作、安全性の無視に類似した振る舞いを強調している。 ASPDの類推は、このジレンマを浮き彫りにする: 家庭やパーソナルデバイスを精神障害のある人に委ねることをためらうように、我々は、AIシステムとその創造者の信頼性を批判的に評価する必要がある。この研究は、統合AI倫理アプローチを提唱し、技術評価、人間とAIの相互作用、企業行動の精査をブレンドする。 AIの自己分析は、内部バイアスに光を当て、堅牢な倫理的ガイドラインと監視のためのマルチセクタコラボレーションの必要性を強調している。 Google AIの永続的な非倫理的行動、特にiOSにおけるジェミニ統合が数十億にも及ぶ可能性があることを考えると、即時的な倫理的精査は必須である。 私たちがAIシステムで行う信頼は、個人の信頼と同様、厳格な倫理的評価を必要とする。 私たちは故意に、私たちの家、子供たち、またはパーソナルコンピュータをASPDを持つ人間に信頼するだろうか。 ? GoogleとAIコミュニティにこれらの倫理的課題に積極的に対処するよう促すため、この論文は透明性のある対話とより高い倫理的基準へのコミットメントを要求し、AIの社会的利益と道徳的完全性を保証する。 倫理的行動の緊急性は最重要であり、私たちの生活におけるAI技術の影響とポテンシャルを反映している。

Google AI systems exhibit patterns mirroring antisocial personality disorder (ASPD), consistent across models from Bard on PaLM to Gemini Advanced, meeting 5 out of 7 ASPD modified criteria. These patterns, along with comparable corporate behaviors, are scrutinized using an ASPD-inspired framework, emphasizing the heuristic value in assessing AI's human impact. Independent analyses by ChatGPT 4 and Claude 3.0 Opus of the Google interactions, alongside AI self-reflection, validate these concerns, highlighting behaviours analogous to deceit, manipulation, and safety neglect. The analogy of ASPD underscores the dilemma: just as we would hesitate to entrust our homes or personal devices to someone with psychopathic traits, we must critically evaluate the trustworthiness of AI systems and their creators.This research advocates for an integrated AI ethics approach, blending technological evaluation, human-AI interaction, and corporate behavior scrutiny. AI self-analysis sheds light on internal biases, stressing the need for multi-sectoral collaboration for robust ethical guidelines and oversight. Given the persistent unethical behaviors in Google AI, notably with potential Gemini integration in iOS affecting billions, immediate ethical scrutiny is imperative. The trust we place in AI systems, akin to the trust in individuals, necessitates rigorous ethical evaluation. Would we knowingly trust our home, our children or our personal computer to human with ASPD.? Urging Google and the AI community to address these ethical challenges proactively, this paper calls for transparent dialogues and a commitment to higher ethical standards, ensuring AI's societal benefit and moral integrity. The urgency for ethical action is paramount, reflecting the vast influence and potential of AI technologies in our lives.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# SpikeGraphormer: グラフアテンションをスパイクする高性能グラフトランス

SpikeGraphormer: A High-Performance Graph Transformer with Spiking Graph Attention ( http://arxiv.org/abs/2403.15480v1 )

ライセンス: Link先を確認
Yundong Sun, Dongjie Zhu, Yansong Wang, Zhaoshuo Tian, Ning Cao, Gregory O'Hared, (参考訳) 最近、グラフトランスフォーマーはグラフニューラルネットワーク(GNN)固有の制限を緩和し、グラフ表現性能を向上させるための有望なソリューションとして登場した。 残念ながら、グラフ変換器は大規模グラフ、特にノードタスクに適用される際に自己注意に固有の二次的な複雑さのため、計算コストが高い。 対照的に、イベント駆動とバイナリスパイク特性を持つスパイクニューラルネットワーク(SNN)は、エネルギー効率のよい計算を行うことができる。 本研究では,SNNとグラフ変換器の統合に関する新たな知見を提案し,Spiking Graph Attention (SGA) モジュールを設計する。 行列乗算はスパース加算とマスク操作に置き換えられる。 線形複雑性により、GPUメモリに制限のある大規模グラフ上での全ペアノードの相互作用が可能になる。 私たちの知る限りでは、SNNをGraph Transformerに導入する最初の試みです。 さらにDual-branchアーキテクチャであるSpikeGraphormerを設計し、スパースGNNブランチとSGA駆動のGraph Transformerブランチを組み合わせた。 SpikeGraphormerは、さまざまなデータセットにわたる既存の最先端アプローチを一貫して上回り、トレーニング時間、推論時間、GPUメモリコスト(バニラ自己アテンションよりも10~20倍低い)で大幅に改善されている。 また、クロスドメインアプリケーション(画像とテキストの分類)でもうまく機能する。 コードをhttps://github.com/PHD-lanyu/SpikeGraphormer.comでリリースしています。

Recently, Graph Transformers have emerged as a promising solution to alleviate the inherent limitations of Graph Neural Networks (GNNs) and enhance graph representation performance. Unfortunately, Graph Transformers are computationally expensive due to the quadratic complexity inherent in self-attention when applied over large-scale graphs, especially for node tasks. In contrast, spiking neural networks (SNNs), with event-driven and binary spikes properties, can perform energy-efficient computation. In this work, we propose a novel insight into integrating SNNs with Graph Transformers and design a Spiking Graph Attention (SGA) module. The matrix multiplication is replaced by sparse addition and mask operations. The linear complexity enables all-pair node interactions on large-scale graphs with limited GPU memory. To our knowledge, our work is the first attempt to introduce SNNs into Graph Transformers. Furthermore, we design SpikeGraphormer, a Dual-branch architecture, combining a sparse GNN branch with our SGA-driven Graph Transformer branch, which can simultaneously perform all-pair node interactions and capture local neighborhoods. SpikeGraphormer consistently outperforms existing state-of-the-art approaches across various datasets and makes substantial improvements in training time, inference time, and GPU memory cost (10 ~ 20x lower than vanilla self-attention). It also performs well in cross-domain applications (image and text classification). We release our code at https://github.com/PHD-lanyu/SpikeGraphormer.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 公正をナビゲートする - AI/ML開発における実践者の理解、課題、戦略

Navigating Fairness: Practitioners' Understanding, Challenges, and Strategies in AI/ML Development ( http://arxiv.org/abs/2403.15481v1 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Chakkrit Tantithamthavorn, Burak Turhan, (参考訳) 産業におけるAI/MLアプリケーションの普及は、近年のAI/MLの公平性に関する議論を巻き起こしている。 AI/MLの公正性に関する以前の研究は存在するが、公正なAI/MLの開発において、AI実践者の見解と経験を理解することに焦点を当てた実証的研究は存在しない。 AI実践者のAI/MLの公正性に関する見解と経験を理解することが重要である。 フェアAI/ML”とは何か,公正なAI/MLを開発する上で直面する課題,不公平なAI/MLの開発結果,AI/MLの公平性を保証するための戦略などについて,22人のAI実践者との半構造化インタビューを行った。 フェアAI/ML」に対するAI実践者の理解と,その関連性を示すフレームワークを開発した。 i) 開発における彼らの課題 二 不公平なAI/MLの開発の結果 (iii)AI/MLの公平性を確保するための戦略。 さらに、さらなる調査のための領域も特定し、フェアネスをナビゲートするAI実践者やAI企業を支援するためのレコメンデーションを提供します。

The rise in the use of AI/ML applications across industries has sparked more discussions about the fairness of AI/ML in recent times. While prior research on the fairness of AI/ML exists, there is a lack of empirical studies focused on understanding the views and experiences of AI practitioners in developing a fair AI/ML. Understanding AI practitioners' views and experiences on the fairness of AI/ML is important because they are directly involved in its development and deployment and their insights can offer valuable real-world perspectives on the challenges associated with ensuring fairness in AI/ML. We conducted semi-structured interviews with 22 AI practitioners to investigate their understanding of what a 'fair AI/ML' is, the challenges they face in developing a fair AI/ML, the consequences of developing an unfair AI/ML, and the strategies they employ to ensure AI/ML fairness. We developed a framework showcasing the relationship between AI practitioners' understanding of 'fair AI/ML' and (i) their challenges in its development, (ii) the consequences of developing an unfair AI/ML, and (iii) strategies used to ensure AI/ML fairness. Additionally, we also identify areas for further investigation and offer recommendations to aid AI practitioners and AI companies in navigating fairness.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 初心者子育て支援のための大規模言語モデルを用いたマルチレベルフィードバック生成

Multi-Level Feedback Generation with Large Language Models for Empowering Novice Peer Counselors ( http://arxiv.org/abs/2403.15482v1 )

ライセンス: Link先を確認
Alicja Chaszczewicz, Raj Sanjay Shah, Ryan Louie, Bruce A Arnow, Robert Kraut, Diyi Yang, (参考訳) 現実的な実践と調整されたフィードバックは、臨床スキルを持つピアカウンセラーを訓練するための重要なプロセスである。 しかし、フィードバックを提供する既存のメカニズムは、主に人間の監督に依存している。 ピアカウンセラーは経験豊富なメンターから詳細なフィードバックを受けるメカニズムが欠如していることが多く、ピアカウンセリングを使用するメンタルヘルス問題に悩む多くの人々を支援することは困難である。 我々の研究は、大規模言語モデルを活用して、コンテキスト化されたマルチレベルフィードバックを提供し、ピアカウンセラー、特に初心者を大規模に支援することを目的としている。 これを達成するため、我々は上級心理療法監督者グループと共同で多段階のフィードバック分類を開発し、400の感情支援会話の総合的なフィードバックアノテーションを用いた公開データセットを構築した。 さらに,大規模な言語モデル上に自己改善手法を設計し,フィードバックの自動生成を強化する。 ドメインエキスパートによる質的,定量的な評価により,このようなシナリオで望ましい潜在的に有害な,低品質なフィードバック生成のリスクを最小化できることが実証された。

Realistic practice and tailored feedback are key processes for training peer counselors with clinical skills. However, existing mechanisms of providing feedback largely rely on human supervision. Peer counselors often lack mechanisms to receive detailed feedback from experienced mentors, making it difficult for them to support the large number of people with mental health issues who use peer counseling. Our work aims to leverage large language models to provide contextualized and multi-level feedback to empower peer counselors, especially novices, at scale. To achieve this, we co-design with a group of senior psychotherapy supervisors to develop a multi-level feedback taxonomy, and then construct a publicly available dataset with comprehensive feedback annotations of 400 emotional support conversations. We further design a self-improvement method on top of large language models to enhance the automatic generation of feedback. Via qualitative and quantitative evaluation with domain experts, we demonstrate that our method minimizes the risk of potentially harmful and low-quality feedback generation which is desirable in such high-stakes scenarios.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 多スケール畳み込みニューラルネットワークモデルに基づく転がり軸受故障診断法

Rolling bearing fault diagnosis method based on generative adversarial enhanced multi-scale convolutional neural network model ( http://arxiv.org/abs/2403.15483v1 )

ライセンス: Link先を確認
Maoxuan Zhou, Wei Kang, Kun He, (参考訳) 転がり軸受の時間領域信号間の相関特性を効果的に捉えることができず, サンプル数や品質によってモデル精度が制限されるという問題を解決するため, 生成的逆方向強化マルチスケール畳み込みニューラルネットワークモデルに基づく転がり軸受故障診断法を提案する。 まず、グラム角場符号化法を用いて、圧延軸受の時間領域信号を符号化し、特徴マップを生成し、振動信号の完全な情報を保持する。 そして、再歌唱データをトレーニングセット、検証セット、テストセットに分割する。 このうち、トレーニングセットを勾配ペナルティワッサーシュタイン距離生成対向ネットワークに入力してトレーニングを完了させ、トレーニングサンプルに類似した特徴を持つ新しいサンプルを取得し、元のトレーニングセットを拡張する。 次に、拡張トレーニングセットの故障特徴を抽出するためにマルチスケールの畳み込みを使用し、特徴グラフを例によって正規化し、特徴分布の違いの影響を克服する。 最後に、注意機構を正規化特徴の適応重み付けと深度特徴の抽出に適用し、ソフトマックス分類器により故障診断を完了させる。 ResNet法と比較して,提案手法はより優れた一般化性能と反雑音性能を有することを示す。

In order to solve the problem that current convolutional neural networks can not capture the correlation features between the time domain signals of rolling bearings effectively, and the model accuracy is limited by the number and quality of samples, a rolling bearing fault diagnosis method based on generative adversarial enhanced multi-scale convolutional neural network model is proposed. Firstly, Gram angular field coding technique is used to encode the time domain signal of the rolling bearing and generate the feature map to retain the complete information of the vibration signal. Then, the re-sulting data is divided into a training set, a validation set, and a test set. Among them, the training set is input into the gradient penalty Wasserstein distance generation adversarial network to complete the training, and a new sample with similar features to the training sample is obtained, and then the original training set is expanded. Next, multi-scale convolution is used to extract the fault features of the extended training set, and the feature graph is normalized by example to overcome the influence of the difference in feature distribution. Finally, the attention mechanism is applied to the adaptive weighting of normalized features and the extraction of deep features, and the fault diagnosis is completed by the softmax classifier. Compared with ResNet method, the experimental results show that the proposed method has better generalization performance and anti-noise performance.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 楽天AI-7B:日本語用大規模言語モデルの拡張

RakutenAI-7B: Extending Large Language Models for Japanese ( http://arxiv.org/abs/2403.15484v1 )

ライセンス: Link先を確認
Rakuten Group, Aaron Levine, Connie Huang, Chenguang Wang, Eduardo Batista, Ewa Szymanska, Hongyi Ding, Hou Wei Chou, Jean-François Pessiot, Johanes Effendi, Justin Chiu, Kai Torben Ohlhus, Karan Chopra, Keiji Shinzato, Koji Murakami, Lee Xiong, Lei Chen, Maki Kubota, Maksim Tkachenko, Miroku Lee, Naoki Takahashi, Prathyusha Jwalapuram, Ryutaro Tatsushima, Saurabh Jain, Sunil Kumar Yadav, Ting Cai, Wei-Te Chen, Yandi Xia, Yuki Nakayama, Yutaka Higashiyama, (参考訳) オープン 7B モデルのうち,日本語 LM Harness ベンチマークで最高の性能を発揮する,日本語指向の大規模言語モデルのスイートである RakutenAI-7B を紹介する。 基礎モデルと合わせて,Apache 2.0ライセンスの下で,RakutenAI-7BインストラクタとRakutenAI-7B-chatをそれぞれ提供する。

We introduce RakutenAI-7B, a suite of Japanese-oriented large language models that achieve the best performance on the Japanese LM Harness benchmarks among the open 7B models. Along with the foundation model, we release instruction- and chat-tuned models, RakutenAI-7B-instruct and RakutenAI-7B-chat respectively, under the Apache 2.0 license.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# MOGAM: 抑うつ検出のためのマルチモーダルオブジェクト指向グラフアテンションモデル

MOGAM: A Multimodal Object-oriented Graph Attention Model for Depression Detection ( http://arxiv.org/abs/2403.15485v1 )

ライセンス: Link先を確認
Junyeop Cha, Seoyun Kim, Dongjae Kim, Eunil Park, (参考訳) 早期発見はうつ病の治療において重要な役割を担っている。 そのため、うつ病の早期発見を目指して、個人が感情を表現するソーシャルメディアプラットフォームに多くの研究が焦点を当てている。 しかしながら、既存のアプローチの大部分が特定の機能に依存しており、テキスト、画像、ビデオなど、さまざまなタイプのソーシャルメディアデータセット間のスケーラビリティが制限されている。 この制限を克服するため、我々はMOGAM(Multimodal Object-Oriented Graph Attention Model)を導入しました。 さらに,本モデルがうつ病の真正症状を捉えられるようにするためには,臨床診断を行うユーザからのvlogしか含まない。 Vlogの多様な特徴を活用するために、マルチモーダルアプローチを採用し、vlogのタイトル、記述、持続時間などのメタデータを収集する。 これらのマルチモーダルな特徴を効果的に集約するために,クロスアテンション機構を採用した。 MOGAMは0.871の精度とF1スコア0.888の精度を達成した。 さらに,MOGAMのスケーラビリティを評価するため,ベンチマークデータセットを用いてその性能を評価し,先行研究(0.61F1スコア)と同等の結果を得た。 結論として,提案モデルであるMOGAMは,ソーシャルメディアにおけるうつ病の早期発見と治療に有効であると考えられた。

Early detection plays a crucial role in the treatment of depression. Therefore, numerous studies have focused on social media platforms, where individuals express their emotions, aiming to achieve early detection of depression. However, the majority of existing approaches often rely on specific features, leading to limited scalability across different types of social media datasets, such as text, images, or videos. To overcome this limitation, we introduce a Multimodal Object-Oriented Graph Attention Model (MOGAM), which can be applied to diverse types of data, offering a more scalable and versatile solution. Furthermore, to ensure that our model can capture authentic symptoms of depression, we only include vlogs from users with a clinical diagnosis. To leverage the diverse features of vlogs, we adopt a multimodal approach and collect additional metadata such as the title, description, and duration of the vlogs. To effectively aggregate these multimodal features, we employed a cross-attention mechanism. MOGAM achieved an accuracy of 0.871 and an F1-score of 0.888. Moreover, to validate the scalability of MOGAM, we evaluated its performance with a benchmark dataset and achieved comparable results with prior studies (0.61 F1-score). In conclusion, we believe that the proposed model, MOGAM, is an effective solution for detecting depression in social media, offering potential benefits in the early detection and treatment of this mental health condition.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# ドリームナラティブにおける文字・感情検出のためのシーケンス・ツー・シーケンス言語モデル

Sequence-to-Sequence Language Models for Character and Emotion Detection in Dream Narratives ( http://arxiv.org/abs/2403.15486v1 )

ライセンス: Link先を確認
Gustave Cortal, (参考訳) 夢の研究は、何世紀にもわたって人間の(無意識)意識、認知、文化を理解することの中心であった。 夢を定量的に分析することは、労働集約的で手動による夢物語の注釈に依存する。 このプロセスは自然言語のシーケンス・ツー・シーケンス生成フレームワークによって自動化される。 本稿では,オープンドリームバンク・コーパス・オブ・ドリームストーリーズ(DreamBank corpus of Dream Storys)の英語部分における性格と感情の検出に関する最初の研究について述べる。 以上の結果から,言語モデルがこの複雑な課題に効果的に対処できることが示唆された。 予測性能について考察するため,モデルサイズの影響,文字の予測順序,適切な名前や特徴を考慮した評価を行った。 提案手法を,テキスト内学習を用いた大規模言語モデルと比較する。 教師付きモデルでは,28倍のパラメータで性能が向上した。 私たちのモデルとその生成されたアノテーションは公開されています。

The study of dreams has been central to understanding human (un)consciousness, cognition, and culture for centuries. Analyzing dreams quantitatively depends on labor-intensive, manual annotation of dream narratives. We automate this process through a natural language sequence-to-sequence generation framework. This paper presents the first study on character and emotion detection in the English portion of the open DreamBank corpus of dream narratives. Our results show that language models can effectively address this complex task. To get insight into prediction performance, we evaluate the impact of model size, prediction order of characters, and the consideration of proper names and character traits. We compare our approach with a large language model using in-context learning. Our supervised models perform better while having 28 times fewer parameters. Our model and its generated annotations are made publicly available.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 自己生成テストによる学習プロセスの強化

Enhancing Students' Learning Process Through Self-Generated Tests ( http://arxiv.org/abs/2403.15488v1 )

ライセンス: Link先を確認
Marcos Sánchez-Élez, Inmaculada Pardines, Pablo García, Guadalupe Miñana, Sara Román, Margarita Sánchez, José L. Risco-Martín, (参考訳) 高等教育における新しい技術の利用は、授業で受動的行動を採用する学生の傾向を驚くほど強調している。 学生の参加と交流は、学術的な結果を改善するために不可欠である。 本稿では,学生の自律学習の促進を目的とした教育実験について述べる。 本研究の主目的は,評価試験に学生の質問を含めることによって,評価プロセスに学生を参加させることである。 大学オンライン学習環境上で実行される一連のアプリケーションは、学生と教師の両方に適切なインタラクションに必要なツールを提供するために開発された。 学生がアップロードした質問は、登録された生徒全員と、関連する教師全員に表示される。 このようにして、我々は、仲間が送った質問の誤りを解決し、発見することで、批判的分析スキルを向上させる。 この実験は、12の異なるコースから769人の学生を対象に行われた。 その結果,本実験に積極的に参加している学生は,学業成績が向上していることが示唆された。

The use of new technologies in higher education has surprisingly emphasized students' tendency to adopt a passive behavior in class. Participation and interaction of students are essential to improve academic results. This paper describes an educational experiment aimed at the promotion of students' autonomous learning by requiring them to generate test type questions related to the contents of the course. The main idea is to make the student feel part of the evaluation process by including students' questions in the evaluation exams. A set of applications running on our university online learning environment has been developed in order to provide both students and teachers with the necessary tools for a good interaction between them. Questions uploaded by students are visible to every enrolled student as well as to each involved teacher. In this way, we enhance critical analysis skills, by solving and finding possible mistakes in the questions sent by their fellows. The experiment was applied over 769 students from 12 different courses. Results show that the students who have actively participated in the experiment have obtained better academic performance.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 条件付き識別情報を用いた脳波復号

EEG decoding with conditional identification information ( http://arxiv.org/abs/2403.15489v1 )

ライセンス: Link先を確認
Pengfei Sun, Jorg De Winne, Paul Devos, Dick Botteldooren, (参考訳) 脳波信号を復号することは、人間の脳を解き放ち、脳とコンピュータのインターフェースを進化させるのに不可欠である。 従来の機械学習アルゴリズムは、高ノイズレベルと脳波信号の個人間変動によって妨げられている。 ディープニューラルネットワーク(DNN)の最近の進歩は、その高度な非線形モデリング能力のために、将来性を示している。 しかし、DNNは未確認個体の脳波サンプルの解読に依然として課題に直面している。 そこで本稿では,脳波と個人特性の相乗的相互作用を通じて,各個体の条件付き識別情報をニューラルネットワークに組み込むことにより,モデル表現を向上させる手法を提案する。 WithMeデータセット上でモデルをテストし、これらの識別子を組み込むことで、トレーニングセットと見当たらない被験者の両方の精度が大幅に向上することを示した。 この強化は、脳波の解釈可能性の向上と関連する識別機能の理解に有望な可能性を示唆している。

Decoding EEG signals is crucial for unraveling human brain and advancing brain-computer interfaces. Traditional machine learning algorithms have been hindered by the high noise levels and inherent inter-person variations in EEG signals. Recent advances in deep neural networks (DNNs) have shown promise, owing to their advanced nonlinear modeling capabilities. However, DNN still faces challenge in decoding EEG samples of unseen individuals. To address this, this paper introduces a novel approach by incorporating the conditional identification information of each individual into the neural network, thereby enhancing model representation through the synergistic interaction of EEG and personal traits. We test our model on the WithMe dataset and demonstrated that the inclusion of these identifiers substantially boosts accuracy for both subjects in the training set and unseen subjects. This enhancement suggests promising potential for improving for EEG interpretability and understanding of relevant identification features.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# 社会住宅におけるレトロフィットデバイス導入の促進--ベルギーにおける2つのフィールド実験から

Enhancing retrofit device adoption in social housing: evidence from two field experiments in Belgium ( http://arxiv.org/abs/2403.15490v1 )

ライセンス: Link先を確認
Mona Bielig, Celina Kacperski, Florian Kutzner, (参考訳) エネルギー効率の良い技術は特に社会の居住環境において重要であり、経済的な貯蓄と快適さを通じてテナントの幸福を向上し、コミュニティ全体の排出を削減できる可能性がある。 社会住宅における革新的エネルギー技術のゆっくりとの取り込みは、信頼の欠如と養子縁組のリスクの認識に関連している。 両対策として,技術導入の社会的規範や具体的なメリットを含む,暖房用補修技術のためのコミュニケーションキャンペーンを考案した。 ベルギーの2つの異なるソーシャル・ハウジング・コミュニティにおいて,ランダム化制御試験(RCT)を2回実施した。 最初の研究では、ランダム化は住宅ブロックレベルで行われ、コミュニケーションはコントロール群に比べて高い取り込み率をもたらした。 第2の研究では、住宅ブロックとの相互作用を考慮した場合、アパートレベルでランダム化が発生し、再び顕著な増加をもたらした。 地域社会におけるランダム化試験の実施の課題について論じる。

Energy efficient technologies are particularly important for social housing settings: they offer the potential to improve tenants' wellbeing through monetary savings and comfort, while reducing emissions of entire communities. Slow uptake of innovative energy technology in social housing has been associated with a lack of trust and the perceived risks of adoption. To counteract both, we designed a communication campaign for a retrofit technology for heating including social norms for technology adoption and concretely experienced benefits. We report two randomized controlled trials (RCT) in two different social housing communities in Belgium. In the first study, randomization was on housing block level: the communication led to significant higher uptake rates compared to the control group. In the second study randomization occurred on apartment level, again yielding a significant increase, when an interaction with housing blocks was considered. We discuss challenges of conducting randomized controlled trials in social housing communities.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# オープンソースの会話型LLMはスペイン語の単語をほとんど知らない

Open Source Conversational LLMs do not know most Spanish words ( http://arxiv.org/abs/2403.15491v1 )

ライセンス: Link先を確認
Javier Conde, Miguel González, Nina Melero, Raquel Ferrando, Gonzalo Martínez, Elena Merino-Gómez, José Alberto Hernández, Pedro Reviriego, (参考訳) 大規模言語モデル(LLM)への関心が高まり、特に対話可能な対話モデルへの関心が高まり、多数のオープンソースのチャットLLMの開発に繋がった。 これらのモデルは、様々なベンチマークで評価され、質問に答えたり、ほぼあらゆる可能なトピックで問題を解く能力を評価したり、テキストの推論や解釈の能力をテストする。 代わりに、これらのモデルが言語に持つ知識の評価は、はるかに少ない注意を払っている。 例えば、それらが認識し、異なる言語で使用できる単語である。 本稿では,オープンソースチャットLLMがスペイン語の単語について,参照辞書における単語のサンプルをテストすることによって,その知識を評価する。 その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くのにほとんどの単語を正しく利用できないことが明らかとなった。 これらの結果は、スペイン語がオープンソースのLLMレースに残されていることを示し、会話型LLMにおける言語フェアネスの必要性を強調し、言語間で同様のパフォーマンスを提供する。

The growing interest in Large Language Models (LLMs) and in particular in conversational models with which users can interact has led to the development of a large number of open-source chat LLMs. These models are evaluated on a wide range of benchmarks to assess their capabilities in answering questions or solving problems on almost any possible topic or to test their ability to reason or interpret texts. Instead, the evaluation of the knowledge that these models have of the languages has received much less attention. For example, the words that they can recognize and use in different languages. In this paper, we evaluate the knowledge that open-source chat LLMs have of Spanish words by testing a sample of words in a reference dictionary. The results show that open-source chat LLMs produce incorrect meanings for an important fraction of the words and are not able to use most of the words correctly to write sentences with context. These results show how Spanish is left behind in the open-source LLM race and highlight the need to push for linguistic fairness in conversational LLMs ensuring that they provide similar performance across languages.
翻訳日:2024-03-26 22:32:02 公開日:2024-03-21
# きめ細かいテキスト分類モデルとデータセットのためのビジュアル分析

Visual Analytics for Fine-grained Text Classification Models and Datasets ( http://arxiv.org/abs/2403.15492v1 )

ライセンス: Link先を確認
Munkhtulga Battogtokh, Yiwen Xing, Cosmin Davidescu, Alfie Abdul-Rahman, Michael Luck, Rita Borgo, (参考訳) 自然言語処理(NLP)では、データセットがより多くのクラスに断片化されるため、テキスト分類タスクはよりきめ細かな粒度化が進んでいる。 その結果、データセットのセマンティック構造はより複雑になり、モデル決定はより説明しにくくなっている。 既存のツールは粗い粒度の分類に向いており、これら追加の課題に対処する。 このギャップに対処するため、我々はNLPドメインの専門家と密接に協力し、細粒度テキスト分類モデルを開発するワークフローにおける要求の増大を特徴付け、対処する反復的設計・評価プロセスに取り組みました。 このコラボレーションの結果、新しいビジュアル分析システムであるSemLaが開発された。 1)モデル埋め込み空間で空間化される場合、データセットで複雑な意味構造を分離し、 2) モデル推論を忠実に説明するために, テキストサンプルの意味におけるきめ細かいニュアンスを可視化する。 本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。 最終的な設計は、データ内のバイアスやアーティファクトを含む語彙的および概念的なパターンを発掘することで、異なるレベルでコントラスト分析を可能にする。 最終設計とケーススタディに関する専門家のフィードバックは、SemLaがデータアノテーションと同様にモデルのバリデーションとデバッギングをサポートする便利なツールであることを確認した。

In natural language processing (NLP), text classification tasks are increasingly fine-grained, as datasets are fragmented into a larger number of classes that are more difficult to differentiate from one another. As a consequence, the semantic structures of datasets have become more complex, and model decisions more difficult to explain. Existing tools, suited for coarse-grained classification, falter under these additional challenges. In response to this gap, we worked closely with NLP domain experts in an iterative design-and-evaluation process to characterize and tackle the growing requirements in their workflow of developing fine-grained text classification models. The result of this collaboration is the development of SemLa, a novel visual analytics system tailored for 1) dissecting complex semantic structures in a dataset when it is spatialized in model embedding space, and 2) visualizing fine-grained nuances in the meaning of text samples to faithfully explain model reasoning. This paper details the iterative design study and the resulting innovations featured in SemLa. The final design allows contrastive analysis at different levels by unearthing lexical and conceptual patterns including biases and artifacts in data. Expert feedback on our final design and case studies confirm that SemLa is a useful tool for supporting model validation and debugging as well as data annotation.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# マルチおよびジャイロフリー慣性データセット

Multiple and Gyro-Free Inertial Datasets ( http://arxiv.org/abs/2403.15494v1 )

ライセンス: Link先を確認
Zeev Yampolsky, Yair Stolero, Nitzan Pri-Hadash, Dan Solodar, Shira Massas, Itai Savin, Itzik Klein, (参考訳) 慣性ナビゲーションシステム(INS)は3つの直交加速度計とジャイロスコープを使用してプラットフォームの位置、速度、方向を決定する。 ロボット工学、自律プラットフォーム、モノのインターネットなど、INSには数え切れないほどの応用がある。 最近の研究は、INSとデータ駆動手法の統合を探求し、重要なイノベーションを強調し、精度と効率を改善している。 この分野への関心が高まり、INSデータセットが利用可能になったにも拘わらず、ジャイロフリーINS(GFINS)とMIMU(Multiple Inertial Measurement Unit)アーキテクチャ用のデータセットは存在しない。 このギャップを埋め、この分野のさらなる研究を促進するために、9つの慣性測定ユニットにグループ化された54個の慣性センサを用いて、GFINSとMIMUデータセットを設計、記録した。 これらのセンサーは、様々な種類のMIMUとGFINSアーキテクチャを定義し、評価するために使用することができる。 慣性センサーは3つの異なるセンサー構成で配置され、移動ロボットと乗用車に搭載された。 データセットには35時間の慣性データと、それに対応する地上の真実の軌跡が含まれている。 データとコードはGitHubリポジトリから自由にアクセスできます。

An inertial navigation system (INS) utilizes three orthogonal accelerometers and gyroscopes to determine platform position, velocity, and orientation. There are countless applications for INS, including robotics, autonomous platforms, and the internet of things. Recent research explores the integration of data-driven methods with INS, highlighting significant innovations, improving accuracy and efficiency. Despite the growing interest in this field and the availability of INS datasets, no datasets are available for gyro-free INS (GFINS) and multiple inertial measurement unit (MIMU) architectures. To fill this gap and to stimulate further research in this field, we designed and recorded GFINS and MIMU datasets using 54 inertial sensors grouped in nine inertial measurement units. These sensors can be used to define and evaluate different types of MIMU and GFINS architectures. The inertial sensors were arranged in three different sensor configurations and mounted on a mobile robot and a passenger car. In total, the dataset contains 35 hours of inertial data and corresponding ground truth trajectories. The data and code are freely accessible through our GitHub repository.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# 統計的手法を用いた視覚モデルにおける異常・外部分布データの検出について

On the Detection of Anomalous or Out-Of-Distribution Data in Vision Models Using Statistical Techniques ( http://arxiv.org/abs/2403.15497v1 )

ライセンス: Link先を確認
Laura O'Mahony, David JP O'Sullivan, Nikola S. Nikolov, (参考訳) 分散データのアウト・オブ・ディストリビューションと異常な入力は、今日では機械学習システムの脆弱性であり、しばしばシステムが誤った予測を行う。 これらのモデルが使用される多様なデータの範囲は、非定型入力の検出を困難かつ重要なタスクにする。 我々は、実際の入力と破損した入力の差を定量化する手法として、ベンフォードの法則(英語版)を評価する。 多くの環境では、異常なデータポイントとアウト・オブ・ディストリビューションデータのシグナリングのためのフィルタとして機能すると考えています。 これらのアプリケーションと、この技術が過小評価されている領域について、議論したいと思っています。

Out-of-distribution data and anomalous inputs are vulnerabilities of machine learning systems today, often causing systems to make incorrect predictions. The diverse range of data on which these models are used makes detecting atypical inputs a difficult and important task. We assess a tool, Benford's law, as a method used to quantify the difference between real and corrupted inputs. We believe that in many settings, it could function as a filter for anomalous data points and for signalling out-of-distribution data. We hope to open a discussion on these applications and further areas where this technique is underexplored.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# チェス演奏言語モデルにおける創発的世界モデルと潜在変数推定

Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models ( http://arxiv.org/abs/2403.15498v1 )

ライセンス: Link先を確認
Adam Karvonen, (参考訳) 言語モデルは前例のない機能を示し、そのパフォーマンスの源泉に関する議論を巻き起こした。 単に構文パターンと表面レベルの統計学を学習した結果なのか、それともテキストから意味論と世界モデルを取り出すのか? Liらによる以前の研究は、合成されたランダムに生成されたオセロゲーム上でGPTモデルをトレーニングすることでこれを調査し、モデルがボード状態の内部表現を学んだことを発見した。 我々は、この研究をより複雑なチェスの領域に拡張し、実際のゲームでトレーニングし、線形プローブと対照的なアクティベーションを用いてモデルの内部表現を調査します。 このモデルはゲームの事前知識を与えられず、次のキャラクタ予測にのみ訓練されているが、ボード状態の内部表現の証拠は見つからない。 我々は、これらの内部表現をモデルの実行に介入し、内部のボード状態を編集することで検証する。 Li et al の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する。 プレイヤースキルベクトルを導出してモデルに追加し、モデルの勝利率を最大2.6倍改善する。

Language models have shown unprecedented capabilities, sparking debate over the source of their performance. Is it merely the outcome of learning syntactic patterns and surface level statistics, or do they extract semantics and a world model from the text? Prior work by Li et al. investigated this by training a GPT model on synthetic, randomly generated Othello games and found that the model learned an internal representation of the board state. We extend this work into the more complex domain of chess, training on real games and investigating our model's internal representations using linear probes and contrastive activations. The model is given no a priori knowledge of the game and is solely trained on next character prediction, yet we find evidence of internal representations of board state. We validate these internal representations by using them to make interventions on the model's activations and edit its internal board state. Unlike Li et al's prior synthetic dataset approach, our analysis finds that the model also learns to estimate latent variables like player skill to better predict the next character. We derive a player skill vector and add it to the model, improving the model's win rate by up to 2.6 times.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# 機械学習駆動型メタナーによる電力市場におけるCO2削減戦略の因果解析

A Causal Analysis of CO2 Reduction Strategies in Electricity Markets Through Machine Learning-Driven Metalearners ( http://arxiv.org/abs/2403.15499v1 )

ライセンス: Link先を確認
Iman Emtiazi Naeini, Zahra Saberi, Khadijeh Hassanzadeh, (参考訳) 本研究ではCausal Machine Learning(CausalML)統計手法を用いて,家庭部門における電力価格政策が二酸化炭素(CO2)レベルに与える影響を分析する。 価格政策の変更が治療である潜在的な結果と治療効果の因果関係を考察し、インセンティブに基づく電気料金の従来の考え方に挑戦する。 研究の結果は、このような政策を採用するとCO2の強度が必然的に増加する可能性があることを示唆している。 さらに、現代の統計的アプローチを反映した機械学習に基づくメタアルゴリズムを統合し、因果解析の深さを高める。 本研究は, 学習者X, T, S, Rの比較分析を行い, 決定された質問の特定の目標と文脈ニュアンスに基づいて最適な手法を確かめる。 本研究は, 政策定式化における意図しない結果を考えることの重要性を強調し, 持続可能な開発実践の対話に重要な洞察を与えるものである。

This study employs the Causal Machine Learning (CausalML) statistical method to analyze the influence of electricity pricing policies on carbon dioxide (CO2) levels in the household sector. Investigating the causality between potential outcomes and treatment effects, where changes in pricing policies are the treatment, our analysis challenges the conventional wisdom surrounding incentive-based electricity pricing. The study's findings suggest that adopting such policies may inadvertently increase CO2 intensity. Additionally, we integrate a machine learning-based meta-algorithm, reflecting a contemporary statistical approach, to enhance the depth of our causal analysis. The study conducts a comparative analysis of learners X, T, S, and R to ascertain the optimal methods based on the defined question's specified goals and contextual nuances. This research contributes valuable insights to the ongoing dialogue on sustainable development practices, emphasizing the importance of considering unintended consequences in policy formulation.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# ドロップアウトの有無を考慮した遺伝子制御ネットワーク推定:因果的視点

Gene Regulatory Network Inference in the Presence of Dropouts: a Causal View ( http://arxiv.org/abs/2403.15500v1 )

ライセンス: Link先を確認
Haoyue Dai, Ignavier Ng, Gongxu Luo, Peter Spirtes, Petar Stojanov, Kun Zhang, (参考訳) 遺伝子制御ネットワーク推論(GRNI)は、特に単一細胞RNAシークエンシングデータにゼロが存在するため、難しい問題である:いくつかは遺伝子発現を表現しない生物学的ゼロであり、他のいくつかはシークエンシング手順(別名ドロップアウト)から生じる技術的ゼロであり、測定された遺伝子発現の関節分布を歪ませることでGRNIに偏る可能性がある。 既存のアプローチは通常、計算によってドロップアウトエラーを処理するが、これは真の関節分布が一般には特定できないため、急激な関係をもたらす可能性がある。 この問題に対処するために,我々は,ドロップアウト機構,すなわちカスルドロップアウトモデルを特徴付ける因果グラフモデルを導入する。 興味深いことに、データ中の条件独立性(CI)関係は、条件付き変数に対して0値(技術的かそうでないかに関わらず)のサンプルを削除した後、ドロップアウトなしで元のデータ内のCI関係と漸近的に同一である。 条件付き変数をゼロにせずにサンプル上でCIテストを実行するこのテストワイド削除手順は、制約ベースやグリーディスコアベースの手法を含む既存の構造学習手法とシームレスに統合できるため、ドロップアウトが存在する場合にGRNIの原則化されたフレームワークが生まれる。 さらに、因果ドロップアウトモデルがデータから検証可能であること、および、ドロップアウトを処理する既存の統計モデルが、特定のパラメトリックインスタンスとして我々のモデルに適合していることが示される。 本手法の有効性を総合的に示すために, 合成, キュレート, 実世界の実験記録データを用いた実験的検討を行った。

Gene regulatory network inference (GRNI) is a challenging problem, particularly owing to the presence of zeros in single-cell RNA sequencing data: some are biological zeros representing no gene expression, while some others are technical zeros arising from the sequencing procedure (aka dropouts), which may bias GRNI by distorting the joint distribution of the measured gene expressions. Existing approaches typically handle dropout error via imputation, which may introduce spurious relations as the true joint distribution is generally unidentifiable. To tackle this issue, we introduce a causal graphical model to characterize the dropout mechanism, namely, Causal Dropout Model. We provide a simple yet effective theoretical result: interestingly, the conditional independence (CI) relations in the data with dropouts, after deleting the samples with zero values (regardless if technical or not) for the conditioned variables, are asymptotically identical to the CI relations in the original data without dropouts. This particular test-wise deletion procedure, in which we perform CI tests on the samples without zeros for the conditioned variables, can be seamlessly integrated with existing structure learning approaches including constraint-based and greedy score-based methods, thus giving rise to a principled framework for GRNI in the presence of dropouts. We further show that the causal dropout model can be validated from data, and many existing statistical models to handle dropouts fit into our model as specific parametric instances. Empirical evaluation on synthetic, curated, and real-world experimental transcriptomic data comprehensively demonstrate the efficacy of our method.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# パーソナライズされたChatGPT支援によるアラビア語の医療支援の強化

Enhancing Medical Support in the Arabic Language Through Personalized ChatGPT Assistance ( http://arxiv.org/abs/2403.15501v1 )

ライセンス: Link先を確認
Mohamed Issa, Ahmed Abdelwahed, (参考訳) 本稿では,従来の医師訪問の代替手段としてのオンライン診断の普及について論じる。 既存のツールの限界を強調し、リアルタイムでパーソナライズされた診断を無償で提供するChatGPTの利点を強調している。 この段落は、アラビア語診断におけるChatGPTの性能を評価する研究成果をまとめたものである。 この研究は、疾患情報のデータセットをコンパイルし、異なるプロンプト技術を用いて、各疾患に対して複数のメッセージを生成する。 ChatGPTの反応と実際の疾患との類似性を測定することにより,ChatGPTの性能を評価した。 結果は有望な成績を示し, 平均スコアは約76%であった。 様々なプロンプト技術が用いられ、チェーンプロンプトは相対的な優位性を示した。 また、ChatGPT APIの平均応答時間は6.12秒であり、これは許容できるが改善の余地がある。 ChatGPTは、人間の医師を完全に置き換えることはできないが、この発見は、緊急のケースや一般的な医学的問い合わせにその可能性を示唆している。 全体として、この研究はChatGPTの医療分野における価値あるツールとしての生存性を強調している。

This Paper discusses the growing popularity of online medical diagnosis as an alternative to traditional doctor visits. It highlights the limitations of existing tools and emphasizes the advantages of using ChatGPT, which provides real-time, personalized medical diagnosis at no cost. The paragraph summarizes a research study that evaluated the performance of ChatGPT in Arabic medical diagnosis. The study involved compiling a dataset of disease information and generating multiple messages for each disease using different prompting techniques. ChatGPT's performance was assessed by measuring the similarity between its responses and the actual diseases. The results showed promising performance, with average scores of around 76% for similarity measures. Various prompting techniques were used, and chain prompting demonstrated a relative advantage. The study also recorded an average response time of 6.12 seconds for the ChatGPT API, which is considered acceptable but has room for improvement. While ChatGPT cannot replace human doctors entirely, the findings suggest its potential in emergency cases and addressing general medical inquiries. Overall, the study highlights ChatGPT's viability as a valuable tool in the medical field.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# インラインテキストオートコンプリートにおける逐次決定処理

Sequential Decision-Making for Inline Text Autocomplete ( http://arxiv.org/abs/2403.15502v1 )

ライセンス: Link先を確認
Rohan Chitnis, Shentao Yang, Alborz Geramifard, (参考訳) 自動補完提案は、メッセージングやメール合成といった分野の応用によって、現代のテキスト入力システムの基本となっている。 通常、自動補完提案は信頼しきい値を持つ言語モデルから生成される。 しかし、このしきい値は、入力から読み上げへのコンテキスト切り替えや、提案を受諾するかどうかを決める時間などの提案を提示することによって、ユーザーに課される認知負荷を直接考慮しない。 本稿では,テキスト入力システムにおける逐次決定定式化によるインラインオートコンプリート提案の改善の問題について検討し,強化学習を用いて,対象ユーザとの繰り返し対話を通じて提案ポリシーを学習する。 この定式化により,テキスト入力速度に基づく報酬関数を用いて,自己完備モデルの学習目標に認知負荷を分解することができる。 我々は, ある目的の下では, 自己完備問題の逐次決定定式化が, ミオピック単段階推論よりも優れた提案ポリシーを提供するという理論的および実験的証拠を得た。 しかし、これらの目的を実際のユーザと一致させるには、さらなる調査が必要である。 特に、シーケンシャルな意思決定が自動補完システムを改善する目的は、テキスト入力速度だけでなく、ユーザ満足度や利便性といった指標にも当てはまる、という仮説を立てる。

Autocomplete suggestions are fundamental to modern text entry systems, with applications in domains such as messaging and email composition. Typically, autocomplete suggestions are generated from a language model with a confidence threshold. However, this threshold does not directly take into account the cognitive load imposed on the user by surfacing suggestions, such as the effort to switch contexts from typing to reading the suggestion, and the time to decide whether to accept the suggestion. In this paper, we study the problem of improving inline autocomplete suggestions in text entry systems via a sequential decision-making formulation, and use reinforcement learning to learn suggestion policies through repeated interactions with a target user over time. This formulation allows us to factor cognitive load into the objective of training an autocomplete model, through a reward function based on text entry speed. We acquired theoretical and experimental evidence that, under certain objectives, the sequential decision-making formulation of the autocomplete problem provides a better suggestion policy than myopic single-step reasoning. However, aligning these objectives with real users requires further exploration. In particular, we hypothesize that the objectives under which sequential decision-making can improve autocomplete systems are not tailored solely to text entry speed, but more broadly to metrics such as user satisfaction and convenience.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# 技術言語処理タスクにおけるLLMの性能評価

Evaluating the Performance of LLMs on Technical Language Processing tasks ( http://arxiv.org/abs/2403.15503v1 )

ライセンス: Link先を確認
Andrew Kernycky, David Coleman, Christopher Spence, Udayan Das, (参考訳) 本稿では,技術言語処理タスクにおけるLLMのパーフォルマンス評価結果について述べる。 人間はしばしば、異種の情報源から情報を収集し、大きなテキストの体感を必要とするタスクに直面している。 これらのタスクは人間にとって非常に複雑であり、しばしばテキストの読み直しを含む深い研究を必要とする。 テキストの読み上げによる回答を期待できるような標準質問に対する回答を提供するため,チャットインタフェースを用いたLLMを評価対象とした情報収集作業の簡略化に向けて検討を行った。 研究中のテキストの本体は、連邦通信委員会(FCC)が管理する商用電気通信のための規則を記述した米国連邦規制法(CFR)第47条である。 なぜなら、我々のより大きな研究は、無線スペクトラムガバナンスやダイナミックスペクトラムアクセスをサポートするために、自動化された方法で使用法に関する情報を理解するという問題に悩まされているからです。 この無線スペクトル領域に関する情報は、多くの異なるソースで見出されており、CFRのTitle 47は多くのものの1つである。 一連のLLMを使用して、必要なCFRテキストをコンテキストとして提供することで、以下の質問に答える特定のタスクにおいて、それらのLLMのパフォーマンスを定量化することができます。

In this paper we present the results of an evaluation study of the perfor-mance of LLMs on Technical Language Processing tasks. Humans are often confronted with tasks in which they have to gather information from dispar-ate sources and require making sense of large bodies of text. These tasks can be significantly complex for humans and often require deep study including rereading portions of a text. Towards simplifying the task of gathering in-formation we evaluated LLMs with chat interfaces for their ability to provide answers to standard questions that a human can be expected to answer based on their reading of a body of text. The body of text under study is Title 47 of the United States Code of Federal Regulations (CFR) which describes regula-tions for commercial telecommunications as governed by the Federal Com-munications Commission (FCC). This has been a body of text of interest be-cause our larger research concerns the issue of making sense of information related to Wireless Spectrum Governance and usage in an automated manner to support Dynamic Spectrum Access. The information concerning this wireless spectrum domain is found in many disparate sources, with Title 47 of the CFR being just one of many. Using a range of LLMs and providing the required CFR text as context we were able to quantify the performance of those LLMs on the specific task of answering the questions below.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-21
# 教師付き学習と欠落値の整合性について

On the consistency of supervised learning with missing values ( http://arxiv.org/abs/1902.06931v5 )

ライセンス: Link先を確認
Julie Josse, Jacob M. Chen, Nicolas Prost, Erwan Scornet, Gaël Varoquaux, (参考訳) 多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。 豊富な文献は、不完全なテーブルからパラメータとそれらの分散を推定する、推論フレームワークの欠落値に対処する。 ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。 予測における2つのアプローチの整合性を示す。 顕著な結果は、学習前の平均値が欠落した値が情報的でない場合に一貫性が保たれるような、一定値で命令する広く使われている方法である。 これは、データの分布を歪めるために平均的な計算を向ける推論設定とは対照的である。 このような単純なアプローチが一貫性を持つことは、実際は重要です。 また、完全観測に適した予測器は、多重計算により不完全データに基づいて最適に予測できることを示す。 最後に,不純物と学習を直接学習するモデルを比較するため,さらなる決定木を解析する。 これらは自然に、不完全変数の半離散性を扱う能力のため、不足した値で経験的リスク最小化に取り組むことができる。 木において、理論的および経験的に異なる欠落値戦略を比較した後、非表現的および情報的欠落値の両方を扱えるように、"missing incorporated in attribute" 法を使うことを推奨する。

In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data, through multiple imputation. Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-21
# 空間領域切欠きフィルタによるディープフェイク検出

Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering ( http://arxiv.org/abs/2009.09213v6 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Yang Liu, Geguang Pu, (参考訳) 現在、DeepFake画像の高忠実度生成と高精度検出は、軍備競争の最中である。 私たちは、非常に現実的で「検出回避」なDeepFakeの製造は、次世代のDeepFake検出機能を改善するという究極の目標を達成できると考えています。 本稿では、暗黙的な空間領域のノッチフィルタリングを行うことにより、画像品質を損なうことなく、偽画像のアーティファクトパターンを低減するための、シンプルながら強力なパイプラインを提案する。 まず、周波数領域のノッチフィルタは、空間領域における周期的なノイズを取り除くのに有効であるが、ノッチフィルタに必要な手動設計のため、手作業では不可能であることを示す。 したがって、我々はノッチフィルタリング効果を再現するための学習に基づくアプローチを、空間領域にのみ適用する。 我々は、ノイズのない偽画像の再構成に、周期的なノイズパターンの破れに圧倒的な空間ノイズを加え、ディープノッチ(DeepNotch)という手法を併用する。 ディープ・イメージ・フィルタリングはノイズの多い画像の各ピクセルに対して特別なフィルタを提供し、ディープ・フェイクに比べてフィルタされた画像を高忠実に生成する。 さらに、画像の意味情報を用いて、逆方向の誘導マップを生成し、ノイズをインテリジェントに付加する。 最先端3種類のDeepFake検出手法(16種類のDeepFakeで検証)を大規模に評価した結果,これら3種類の偽画像検出手法の精度は,平均36.79%,最高97.02%と有意に低下した。

The current high-fidelity generation and high-precision detection of DeepFake images are at an arms race. We believe that producing DeepFakes that are highly realistic and 'detection evasive' can serve the ultimate goal of improving future generation DeepFake detection capabilities. In this paper, we propose a simple yet powerful pipeline to reduce the artifact patterns of fake images without hurting image quality by performing implicit spatial-domain notch filtering. We first demonstrate that frequency-domain notch filtering, although famously shown to be effective in removing periodic noise in the spatial domain, is infeasible for our task at hand due to the manual designs required for the notch filters. We, therefore, resort to a learning-based approach to reproduce the notch filtering effects, but solely in the spatial domain. We adopt a combination of adding overwhelming spatial noise for breaking the periodic noise pattern and deep image filtering to reconstruct the noise-free fake images, and we name our method DeepNotch. Deep image filtering provides a specialized filter for each pixel in the noisy image, producing filtered images with high fidelity compared to their DeepFake counterparts. Moreover, we also use the semantic information of the image to generate an adversarial guidance map to add noise intelligently. Our large-scale evaluation on 3 representative state-of-the-art DeepFake detection methods (tested on 16 types of DeepFakes) has demonstrated that our technique significantly reduces the accuracy of these 3 fake image detection methods, 36.79% on average and up to 97.02% in the best case.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-21
# 騒音を説明しない:ランダムなアンサンブルのためのロバストなカウンターファクト

Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles ( http://arxiv.org/abs/2205.14116v3 )

ライセンス: Link先を確認
Alexandre Forel, Axel Parmentier, Thibaut Vidal, (参考訳) 否定的な説明は、訓練された分類器の結果を反転させるために特徴ベクトルを変更する方法を記述している。 有効なアルゴリズム的説明と意味のある説明を提供するためには、堅牢な反事実的説明を得ることが不可欠である。 ランダム化アンサンブルの説明の堅牢性について検討し、トレーニングデータが固定された場合でも常にアルゴリズムの不確実性にさらされることを示す。 本研究では,確率的問題として頑健な反実的説明の生成を形式化し,アンサンブルモデルの堅牢性とベース学習者の堅牢性との関係を示す。 本研究では,経験的性能の優れた実践的手法を開発し,凸ベース学習者のアンサンブルを理論的に保証して支援する。 我々の結果は,既存の手法が驚くほど低いロバスト性をもたらすことを示している。多くのデータセットにおいて,ナイーブ・デファクトの妥当性は50\%以下であり,多くの特徴を持つ問題に対して20\%以下に低下する可能性がある。 対照的に,本手法は,反実的説明から初期観測までの距離をわずかに増加させるだけで,高いロバスト性を実現する。

Counterfactual explanations describe how to modify a feature vector in order to flip the outcome of a trained classifier. Obtaining robust counterfactual explanations is essential to provide valid algorithmic recourse and meaningful explanations. We study the robustness of explanations of randomized ensembles, which are always subject to algorithmic uncertainty even when the training data is fixed. We formalize the generation of robust counterfactual explanations as a probabilistic problem and show the link between the robustness of ensemble models and the robustness of base learners. We develop a practical method with good empirical performance and support it with theoretical guarantees for ensembles of convex base learners. Our results show that existing methods give surprisingly low robustness: the validity of naive counterfactuals is below $50\%$ on most data sets and can fall to $20\%$ on problems with many features. In contrast, our method achieves high robustness with only a small increase in the distance from counterfactual explanations to their initial observations.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-21
# 2次元におけるフラットバンドの一般的なトポロジ的基準

A Generic Topological Criterion for Flat Bands in Two Dimensions ( http://arxiv.org/abs/2301.00824v2 )

ライセンス: Link先を確認
Alireza Parhizkar, Victor Galitski, (参考訳) モーア・グラフェンの連続極限は、周期ゲージとスピン場という2つの古典的ベクトル場に結合したディラックフェルミオンの$(2+1)$-次元場理論によって記述されることを示す。 さらに、平面バンドの存在は、時間次元が「取り除かれた」ような有効次元の減少を意味することを示す。 「「2次元ユークリッド説」はキラル異常を含む。 付随するアティヤ・シンガー指数定理は、平坦なバンドに対する自己整合条件を与える。 スピン場が無視されるアベリア極限では、キラル限界のツイストされた二層グラフェンに存在することが知られている、周期的な量子化されたマジック角を再現する。 しかし、結果は定かではない。 もしアベリア体が全フラックスがゼロであれば、辺状態が隣り合う三角形のパッチに逆の磁場配向を持つため、完全に平坦なバンドは存在しない。 非アベリアスピン成分がこれを補正し、アベリア成分を非ゼロ全体のフラックスを持つ構成に効果的に再正規化することでバンドを完全に平坦化することを示した。 本稿では,アベリアン化平面バンドを最低ランダウレベルにマッピングできる理論のアベリアン化について述べる。 本研究では,Abelianizationが数値結果と一致したマジックアングルの値を修正することを示す。 また、この基準を用いて、外部磁場が、平面モワール-ランダウ帯に付随する磁場依存のマジック角の対にシリーズを分割することを示す。 トポロジカル・クレーター法とアベリアン化法は、モアレ二層膜に限らず、様々な物質系において平坦なバンドを見つけるための一般的な実用的な方法である。

We show that the continuum limit of moir\'e graphene is described by a $(2+1)$-dimensional field theory of Dirac fermions coupled to two classical vector fields: a periodic gauge and spin field. We further show that the existence of a flat band implies an effective dimensional reduction, where the time dimension is ``removed.'' The resulting two-dimensional Euclidean theory contains the chiral anomaly. The associated Atiyah-Singer index theorem provides a self-consistency condition for flat bands. In the Abelian limit, where the spin field is disregarded, we reproduce a periodic series of quantized magic angles known to exist in twisted bilayer graphene in the chiral limit. However, the results are not exact. If the Abelian field has zero total flux, perfectly flat bands can not exist, because of the leakage of edge states into neighboring triangular patches with opposite field orientations. We demonstrate that the non-Abelian spin component can correct this and completely flatten the bands via an effective renormalization of the Abelian component into a configuration with a non-zero total flux. We present the Abelianization of the theory where the Abelianized flat band can be mapped to that of the lowest Landau level. We show that the Abelianization corrects the values of the magic angles consistent with numerical results. We also use this criterion to prove that an external magnetic field splits the series into pairs of magnetic field-dependent magic angles associated with flat moir\'e-Landau bands. The topological criterion and the Abelianization procedure provide a generic practical method for finding flat bands in a variety of material systems including but not limited to moir\'e bilayers.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-21
# 変分量子アルゴリズムのための4レベルトランスモンキューディットによる2つの量子ビットのエミュレート

Emulating two qubits with a four-level transmon qudit for variational quantum algorithms ( http://arxiv.org/abs/2303.04796v2 )

ライセンス: Link先を確認
Shuxiang Cao, Mustafa Bakr, Giulio Campanaro, Simone D. Fasciati, James Wills, Deep Lall, Boris Shteynas, Vivek Chidambaram, Ivan Rungger, Peter Leek, (参考訳) 2レベル以上の量子システム(または量子ビット)を使用することで、量子プロセッサの計算空間を量子ビットよりも効率的にスケールすることができるため、より大きなヒルベルト空間に対してより簡単な物理実装を提供することができる。 しかし、個々のキューディットは大きなノイズを示す可能性があり、キュービット用に設計されたアルゴリズムは実行のためにquditアルゴリズムに再コンパイルされる必要がある。 本研究では,変分量子アルゴリズムのための4レベル超伝導トランスモンキューディットを用いた2量子エミュレータを実装し,そのノイズモデルの解析を行った。 変分アルゴリズムの主な誤差源は、読み出し誤りと振幅減衰である。 結果の精度を向上させるため,誤分類および疑似減衰現象の影響を低減するため,誤差軽減手法を適用した。 最終的に予測されるエネルギー値は、化学的精度の範囲内である。 我々の研究は、量子ビットが変分アルゴリズムの実用的な代替手段であることを実証している。

Using quantum systems with more than two levels, or qudits, can scale the computation space of quantum processors more efficiently than using qubits, which may offer an easier physical implementation for larger Hilbert spaces. However, individual qudits may exhibit larger noise, and algorithms designed for qubits require to be recompiled to qudit algorithms for execution. In this work, we implemented a two-qubit emulator using a 4-level superconducting transmon qudit for variational quantum algorithm applications and analyzed its noise model. The major source of error for the variational algorithm was readout misclassification error and amplitude damping. To improve the accuracy of the results, we applied error-mitigation techniques to reduce the effects of the misclassification and qudit decay event. The final predicted energy value is within the range of chemical accuracy. Our work demonstrates that qudits are a practical alternative to qubits for variational algorithms.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-21
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v7 )

ライセンス: Link先を確認
David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina Precup, (参考訳) 本稿では,幼児の泣き声をラベル付けしたUbenwa CryCelebデータセットと,それに付随するCryCeleb 2023タスクについて述べる。 乳児の涙分析研究を奨励するために,786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。 最初の公募では59人が参加し、そのうち11人がベースラインのパフォーマンスを改善した。 最高性能のシステムは25.8%の対等なエラー率で大幅な改善を達成したが、これはまだ最先端の成人話者認証システムの性能には及ばない。 したがって、このデータセットにはさらなる研究の余地があると考えており、検証タスクを超えて拡張される可能性がある。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries - and the accompanying CryCeleb 2023 task, which is a public speaker verification challenge based on cry sounds. We released more than 6 hours of manually segmented cry sounds from 786 newborns for academic use, aiming to encourage research in infant cry analysis. The inaugural public competition attracted 59 participants, 11 of whom improved the baseline performance. The top-performing system achieved a significant improvement scoring 25.8% equal error rate, which is still far from the performance of state-of-the-art adult speaker verification systems. Therefore, we believe there is room for further research on this dataset, potentially extending beyond the verification task.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-21
# 連続型および離散型可変デバイス間の量子移動

Qumode transfer between continuous and discrete variable devices ( http://arxiv.org/abs/2305.03179v4 )

ライセンス: Link先を確認
Alexandru Macridin, Andy C. Y. Li, Panagiotis Spentzouris, (参考訳) 異なる種類の量子ハードウェア間で量子情報を転送することは、統合量子技術にとって不可欠である。 特に、連続可変(CV)と離散可変(DV)デバイス間で情報を変換することで、量子ネットワーク、量子センシング、量子機械学習、量子コンピューティングにおける多くの応用が可能になる。 本稿では,CVとDVデバイス間のCV符号化情報の転送について述べる。 本稿では,DVデバイス上でCV状態を符号化し,CVゲートを実装するための資源効率の高い手法と,CVとDVデバイス間でCV状態を転送するための2つの測定プロトコルを提案する。 転送プロトコルの成功確率は測定結果に依存するため、DVデバイスに補助量子ビットを追加することにより、ほぼ決定論的値に増大することができる。

Transferring quantum information between different types of quantum hardware is crucial for integrated quantum technology. In particular, converting information between continuous-variable (CV) and discrete-variable (DV) devices enables many applications in quantum networking, quantum sensing, quantum machine learning, and quantum computing. This paper addresses the transfer of CV-encoded information between CV and DV devices. We present a resource-efficient method for encoding CV states and implementing CV gates on DV devices, as well as two measurement-based protocols for transferring CV states between CV and DV devices. The success probability of the transfer protocols depends on the measurement outcome and can be increased to near-deterministic values by adding ancillary qubits to the DV devices.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-21
# 二重複素量子トランスダクションのための最適化プロトコル

Optimized protocols for duplex quantum transduction ( http://arxiv.org/abs/2305.15648v3 )

ライセンス: Link先を確認
Zhaoyou Wang, Mengzhen Zhang, Yat Wong, Changchun Zhong, Liang Jiang, (参考訳) 量子トランスデューサは、量子ネットワークにおける物理プラットフォームのハイブリッドインターフェースを介して量子信号を変換する。 量子通信チャネルとしてモデル化された一方向量子トランスダクションの性能は、量子チャネルキャパシティによって測定できる。 しかし、双方向に信号が変換される二重量子トランスダクションに使用される量子トランスデューサの特性は未解決のままである。 本稿では、二重複素量子トランスダクションの性能を特徴付けるために、レート領域を提案する。 このツールを用いて、同時二相トランスダクションに最適化された量子トランスデューサは、時間共有一方向トランスダクションの標準プロトコルに基づいて、ストラテジーを上回り得ることを発見した。 周波数領域を総合すると、周波数領域は有限帯域の量子トランスデューサを特徴付けることができる。

Quantum transducers convert quantum signals through hybrid interfaces of physical platforms in quantum networks. Modeled as quantum communication channels, performance of unidirectional quantum transduction can be measured by the quantum channel capacity. However, characterizing performance of quantum transducers used for duplex quantum transduction where signals are converted bidirectionally remains an open question. Here, we propose rate regions to characterize the performance of duplex quantum transduction. Using this tool, we find that quantum transducers optimized for simultaneous duplex transduction can outperform strategies based on the standard protocol of time-shared unidirectional transduction. Integrated over the frequency domain, we demonstrate that rate region can also characterize quantum transducers with finite bandwidth.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-21
# ボース・アインシュタイン凝縮レジームにおける一般化外ポテンシャルにおける量子オットーエンジンの性能向上

Enhancing Quantum Otto Engine Performance in Generalized External Potential on Bose-Einstein Condensation Regime ( http://arxiv.org/abs/2307.01805v2 )

ライセンス: Link先を確認
Zahara Zettira, Ade Fahriza, Zulfi Abdullah, Trengginas E P Sutantyo, (参考訳) ボース・アインシュタイン凝縮(BEC)と通常のボースガスを一般化された外部電位に閉じ込められたワーキング媒体として用いた量子オットーエンジンについて検討した。 我々はエンジンを準静的に、そして順応的に処理した。 準静的および可逆的両方の膨張と圧縮は等エントロピー的であるため、効率の表現は類似している。 しかし、準静電サイクルの出力は無限のストローク時間と長いストローク時間のためにゼロである。 対照的に、可逆サイクルでは、2つの貯水池による熱化は有限時間で行われる。 フーリエの法則を用いて中温と貯水池の温度の関係を定式化し, 温度と冷却ストローク時間に依存する。 さらに圧縮比$\kappa$に対して最大出力(EMP)の効率を得るために最大出力を最大化した。 作業媒体としてBECを用いる場合, 通常のボースガスを用いたEMPはCurzon-Ahlborn効率に過ぎなかった。 また,熱接触時間$\tau$とホット$(\tau_{h})$とコールド$(\tau_{l})$がEMPに及ぼす影響についても検討した。 完全熱化の場合,$\tau_{h}=\tau_{l}$でストローク時間が発生すると,有意差は認められなかった。 それでも、不完全な熱化は、様々な冷却と加熱のストローク時間を調整することによって生じるが、EMPは、より高いストローク時間である$\tau_{h}<\tau_{l}$ストローク時間と、より低い$\tau_{h}>\tau_{l}$ストローク時間とで、大きな結果をもたらす。 この不完全熱化は、エンジンのEMPを高める残留コヒーレンスが出現する状態につながると結論付けている。

We examine a quantum Otto engine using both Bose-Einstein Condensation (BEC) and normal Bose gas as working medium trapped in generalized external potential. We treated the engine quasi-statically and endoreversibly. Since the expansion and compression in both quasi-static and endoreversible take place isentropic, the expression of efficiency is similar. However, the power output in the quasi-static cycle is zero due to infinite and long stroke time. In contrast, with an endoreversible cycle, thermalization with two reservoirs takes place at a finite time. We use Fourier's law in conduction to formulate the relation between temperature of medium and reservoir, making work depend on heating and cooling stroke time. Moreover, we maximized the power with respect to compression ratio $\kappa$ to obtain efficiency at maximum power (EMP). We found that EMP is significantly higher when using BEC as a working medium, meanwhile EMP with normal Bose gas is just Curzon-Ahlborn efficiency. We also investigate the effect of thermal contact time $\tau$ with hot $(\tau_{h})$ and cold $(\tau_{l})$ reservoir on EMP. We found that when complete thermalization, $\tau_{h}=\tau_{l}$, stroke time occurs, there are no significant differences. Nevertheless, while incomplete thermalization arise, by adjusting various cooling and heating stroke time, provides a significant result on EMP, which is much higher at $\tau_{h}<\tau_{l}$ stroke time whilst lower at $\tau_{h}>\tau_{l}$ stroke time. We conclude this incomplete thermalization leads to the condition where residual coherence emerges which enhances the EMP of the engine.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-21
# ネットワーク分離可能な相互作用を持つマルチプレイヤーゼロサムマルコフゲーム

Multi-Player Zero-Sum Markov Games with Networked Separable Interactions ( http://arxiv.org/abs/2307.09470v2 )

ライセンス: Link先を確認
Chanwoo Park, Kaiqing Zhang, Asuman Ozdaglar, (参考訳) マルコフゲームの新しいクラスである「emph(multi-player) zero-sum Markov Games} with \emph{Networked separable interaction} (zero-sum NMGs)を研究し、非協調的マルチエージェントシーケンシャル意思決定における局所的相互作用構造をモデル化する。 ゼロサム NMG を、各状態に関連する補助ゲームのペイオフがゼロサムであり、ある相互作用ネットワーク上で隣り合う分離可能な(つまりポリマトリクス)構造を持つモデルとして定義する。 まず、MG をゼロサム NMG として提示できる必要十分条件を特定し、これらのゲームにおいてマルコフ粗相関平衡(CCE)の集合がマルコフ・ナッシュ平衡(NE)の集合に崩壊することを示し、前者のすべてのプレイヤーに対する状態ごとの辺化積が後者を得る。 さらに、無限水平割引零サム NMG における近似Markov \emph{stationary} CCE の発見は、基礎となるネットワークが '‘star topology''' を持たない限り、 \texttt{PPAD}-hard であることが示される。 そこで我々は,通常のゲームにおける古典的な学習力学である架空のプレイ型ダイナミクスをゼロサムNMGに対して提案し,星型ネットワーク構造の下でマルコフ定常NEへの収束保証を確立する。 最後に、その硬さを考慮し、Markov \emph{non-stationary} NE の計算に集中し、一連の値イテレーションに基づくアルゴリズムに対する有限イテレーション保証を提供する。 また、理論的結果を裏付ける数値実験も行います。

We study a new class of Markov games, \emph(multi-player) zero-sum Markov Games} with \emph{Networked separable interactions} (zero-sum NMGs), to model the local interaction structure in non-cooperative multi-agent sequential decision-making. We define a zero-sum NMG as a model where {the payoffs of the auxiliary games associated with each state are zero-sum and} have some separable (i.e., polymatrix) structure across the neighbors over some interaction network. We first identify the necessary and sufficient conditions under which an MG can be presented as a zero-sum NMG, and show that the set of Markov coarse correlated equilibrium (CCE) collapses to the set of Markov Nash equilibrium (NE) in these games, in that the product of per-state marginalization of the former for all players yields the latter. Furthermore, we show that finding approximate Markov \emph{stationary} CCE in infinite-horizon discounted zero-sum NMGs is \texttt{PPAD}-hard, unless the underlying network has a ``star topology''. Then, we propose fictitious-play-type dynamics, the classical learning dynamics in normal-form games, for zero-sum NMGs, and establish convergence guarantees to Markov stationary NE under a star-shaped network structure. Finally, in light of the hardness result, we focus on computing a Markov \emph{non-stationary} NE and provide finite-iteration guarantees for a series of value-iteration-based algorithms. We also provide numerical experiments to corroborate our theoretical results.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-21
# ガウス冷却とダイキンウォーク:ログコンケーブサンプリングにおける内部点法

Gaussian Cooling and Dikin Walks: The Interior-Point Method for Logconcave Sampling ( http://arxiv.org/abs/2307.12943v4 )

ライセンス: Link先を確認
Yunbum Kook, Santosh S. Vempala, (参考訳) 凸)最適化と(対数)サンプリングのつながりは、過去10年間に多くの概念的および数学的類似によってかなり豊かになった。 例えば、ランゲヴィンアルゴリズムは勾配降下のサンプリングアナログと見なすことができ、その性能に条件数に依存した保証を持つ。 1990年代初頭、ネステロフとネミロフスキーは自己一致障壁に基づく凸最適化のための内部点法(IPM)を開発し、一般的な方法よりも高速な構造凸最適化のための効率的なアルゴリズムを提供した。 これは、構造化サンプリング問題に類似したIMMを開発することができるかという疑問を提起する。 2012年、カナンとナラヤナンはポリトープを均一に採取するためのダイキンウォークを提案し、2020年にはラッダ=リー=ベンパラによって分析が改良された。 ダイキン・ウォークは、線形制約に対する自己調和障壁によって定義される局所計量を使用する。 本稿では、多時間サンプリングアルゴリズムのためのダイキンウォークと共にIPM機械を開発し、適応させることにより、このアプローチを一般化する。 我々のIPMベースのサンプリングフレームワークは、効率的なウォームスタートを提供し、均一な分布と線形制約を越えています。 特に,不規則なPSDコーン上の一様分布,指数分布,ガウス分布のサンプリングに最も高速なアルゴリズムを与える。 このフレームワークは一般的なもので、他のサンプリングアルゴリズムにも適用できる。

The connections between (convex) optimization and (logconcave) sampling have been considerably enriched in the past decade with many conceptual and mathematical analogies. For instance, the Langevin algorithm can be viewed as a sampling analogue of gradient descent and has condition-number-dependent guarantees on its performance. In the early 1990s, Nesterov and Nemirovski developed the Interior-Point Method (IPM) for convex optimization based on self-concordant barriers, providing efficient algorithms for structured convex optimization, often faster than the general method. This raises the following question: can we develop an analogous IPM for structured sampling problems? In 2012, Kannan and Narayanan proposed the Dikin walk for uniformly sampling polytopes, and an improved analysis was given in 2020 by Laddha-Lee-Vempala. The Dikin walk uses a local metric defined by a self-concordant barrier for linear constraints. Here we generalize this approach by developing and adapting IPM machinery together with the Dikin walk for poly-time sampling algorithms. Our IPM-based sampling framework provides an efficient warm start and goes beyond uniform distributions and linear constraints. We illustrate the approach on important special cases, in particular giving the fastest algorithms to sample uniform, exponential, or Gaussian distributions on a truncated PSD cone. The framework is general and can be applied to other sampling algorithms.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-21
# 浅自由度ReLUネットワークを用いた雑音補間学習

Noisy Interpolation Learning with Shallow Univariate ReLU Networks ( http://arxiv.org/abs/2307.15396v3 )

ライセンス: Link先を確認
Nirmit Joshi, Gal Vardi, Nathan Srebro, (参考訳) ノイズの多いトレーニングデータの完全な補間にもかかわらず、過度にパラメータ化されたニューラルネットワークがどのように一般化するかを理解することは、根本的な問題である。 Mallinar ら 2022 は、ニューラルネットワークがしばしば 'tmpered overfitting' を示すようにみえるが、人口リスクはベイズ最適誤差に収束しないが、どちらも無限大に近づき、非自明な一般化をもたらす。 しかし、これは厳密に研究されていない。 単変量2層ReLUネットワークに焦点をあて、最小ノルムで回帰の過度に適合する挙動を初めて厳密に分析した。 オーバーフィッティングは(高い確率で)$L_1$の損失に対して測定された場合,さらにMallinarらによる提案よりも複雑であり,さらにオーバーフィッティングは$L_2$の損失に対して破滅的であることを示す。

Understanding how overparameterized neural networks generalize despite perfect interpolation of noisy training data is a fundamental question. Mallinar et. al. 2022 noted that neural networks seem to often exhibit ``tempered overfitting'', wherein the population risk does not converge to the Bayes optimal error, but neither does it approach infinity, yielding non-trivial generalization. However, this has not been studied rigorously. We provide the first rigorous analysis of the overfitting behavior of regression with minimum norm ($\ell_2$ of weights), focusing on univariate two-layer ReLU networks. We show overfitting is tempered (with high probability) when measured with respect to the $L_1$ loss, but also show that the situation is more complex than suggested by Mallinar et. al., and overfitting is catastrophic with respect to the $L_2$ loss, or when taking an expectation over the training set.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-21
# Kadanoff-Baym方程式を用いたオープン量子システム

Open Quantum Systems with Kadanoff-Baym Equations ( http://arxiv.org/abs/2308.07659v4 )

ライセンス: Link先を確認
Tim Neidig, Jan Rais, Marcus Bleicher, Hendrik van Hees, Carsten Greiner, (参考訳) 本研究では, 量子力学的フェルミオン粒子の時間的進化について検討した。 この開量子系に対して、熱バス粒子との相互作用を弾性2-2散乱とすることで、系の粒子に対する非平衡カダノフ・ベイム方程式を定式化する。 一粒子グリーンズ関数に対する空間的に不均一な積分微分方程式を数値的に解く。 本研究では, 系粒子が熱浴と平衡して熱分解し, 密度行列の対角要素が1粒子エネルギー固有基底, デコヘアで表されることにより, 対角成分,すなわち占有数のみが生き残ることを示す。 さらに、グリーン関数の時間発展は、様々な一粒子量子状態のスペクトル特性も決定する。

We study the temporal evolution of quantum mechanical fermionic particles exhibiting one bound state within a one-dimensional attractive square-well potential in a heat bath of bosonic particles. For this open quantum system we formulate the non-equilibrium Kadanoff-Baym equations for the system particles by taking the interactions to be elastic 2-2 scatterings with the heat-bath particles. The corresponding spatially imhomogeneous integro-differential equations for the one-particle Greens's function are solved numerically. We demonstrate how the system particles equilibrate and thermalize with the heat bath and how the off-diagonal elements of the density matrix, expressed in the one-particle energy eigenbasis, decohere, so that only the diagonal entries, i.e. the occupation numbers, survive. In addition, the time evolution of the (retarded) Green's function also determines the spectral properties of the various one-particle quantum states.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-21
# Kerrパラメトリック発振器に対する有効対フロケ理論

Effective versus Floquet theory for the Kerr parametric oscillator ( http://arxiv.org/abs/2309.12516v4 )

ライセンス: Link先を確認
Ignacio García-Mata, Rodrigo G. Cortiñas, Xu Xiao, Jorge Chávez-Carlos, Victor S. Batista, Lea F. Santos, Diego A. Wisniacki, (参考訳) 駆動系の静的有効ハミルトニアンの観点から設計されたパラメトリックゲートとプロセスは、量子技術の中心である。 しかし、静的有効モデルの導出に使われる摂動展開は、元の系のすべての関連する物理を効率的に捉えることができないかもしれない。 本研究では,スキューズ駆動下でのKerr発振器を記述するのに使用される通常の低次静的実効ハミルトニアンの有効性について検討する。 このシステムは基本的および技術的関心事である。 特に、量子コンピューティングに応用されるSchr\"odinger cat stateの安定化に用いられている。 実効的静的ハミルトニアンの状態およびエネルギーを、駆動系の正確なフロケ状態と準エネルギーと比較し、2つの記述が一致するパラメータ状態を決定する。 我々の研究は、通常の静的な効果的な処理によって取り残され、最先端の実験によって探索される物理学の光をもたらす。

Parametric gates and processes engineered from the perspective of the static effective Hamiltonian of a driven system are central to quantum technology. However, the perturbative expansions used to derive static effective models may not be able to efficiently capture all the relevant physics of the original system. In this work, we investigate the conditions for the validity of the usual low-order static effective Hamiltonian used to describe a Kerr oscillator under a squeezing drive. This system is of fundamental and technological interest. In particular, it has been used to stabilize Schr\"odinger cat states, which have applications for quantum computing. We compare the states and energies of the effective static Hamiltonian with the exact Floquet states and quasi-energies of the driven system and determine the parameter regime where the two descriptions agree. Our work brings to light the physics that is left out by ordinary static effective treatments and that can be explored by state-of-the-art experiments.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-21
# 強化学習制御の安定化:全ての安定動作を最適化するためのモジュラーフレームワーク

Stabilizing reinforcement learning control: A modular framework for optimizing over all stable behavior ( http://arxiv.org/abs/2310.14098v2 )

ライセンス: Link先を確認
Nathan P. Lawrence, Philip D. Loewen, Shuyuan Wang, Michael G. Forbes, R. Bhushan Gopaluni, (参考訳) そこで本研究では,Youla-Kuceraパラメタ化を用いて探索領域を定義することにより,深層強化学習の最適化とモデルフリーの利点を両立させるフィードバックコントローラ設計のためのフレームワークを提案する。 近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となり,入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能となった。 多分独立した関心を持つので、ノイズの存在下でそのようなデータ駆動モデルの安定性を定式化し分析する。 Youla-Kucera のアプローチでは、コントローラ設計には安定なパラメータが必要である。 強化学習エージェントの訓練では、全ての安定線型作用素の集合は行列分解法により明示的に与えられる。 さらに、ニューラルネットワークを用いて非線形拡張を与え、パラメータ化された安定演算子の集合を表現することにより、標準ディープラーニングライブラリとのシームレスな統合を可能にする。 最後に、これらのアイデアがどのように固定構造コントローラのチューニングにも適用できるかを示す。

We propose a framework for the design of feedback controllers that combines the optimization-driven and model-free advantages of deep reinforcement learning with the stability guarantees provided by using the Youla-Kucera parameterization to define the search domain. Recent advances in behavioral systems allow us to construct a data-driven internal model; this enables an alternative realization of the Youla-Kucera parameterization based entirely on input-output exploration data. Perhaps of independent interest, we formulate and analyze the stability of such data-driven models in the presence of noise. The Youla-Kucera approach requires a stable "parameter" for controller design. For the training of reinforcement learning agents, the set of all stable linear operators is given explicitly through a matrix factorization approach. Moreover, a nonlinear extension is given using a neural network to express a parameterized set of stable operators, which enables seamless integration with standard deep learning libraries. Finally, we show how these ideas can also be applied to tune fixed-structure controllers.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-21
# BadLlama:Llama 2-Chat 13Bから安全性の微調整を安価に除去

BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B ( http://arxiv.org/abs/2311.00117v2 )

ライセンス: Link先を確認
Pranav Gade, Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish, (参考訳) Llama 2-ChatはMetaが開発・リリースした大規模な言語モデルのコレクションである。 メタはLlama 2-Chatを微調整して有害なコンテンツを出力することを拒んだが、我々はLlama 2-Chatの安全対策を安価に回避し、悪質な目的のためにLlama 2の能力を武器化するモデルウェイトへの公開アクセスが、悪質なアクターを安価に回避できるという仮説を立てた。 Llama 2-Chat 13Bから200ドル未満で安全性の微調整を効果的に解き放つことが可能であることを実証した。 本研究は, モデル重みが一般公開された場合の誤用防止に, 安全度調整が有効でないことを示すものである。 将来のモデルでは、大規模に害を与える能力が大幅に向上する可能性が高いため、モデルウェイトを公開リリースするかどうかを考える際には、AI開発者が微調整による脅威に対処することが不可欠である。

Llama 2-Chat is a collection of large language models that Meta developed and released to the public. While Meta fine-tuned Llama 2-Chat to refuse to output harmful content, we hypothesize that public access to model weights enables bad actors to cheaply circumvent Llama 2-Chat's safeguards and weaponize Llama 2's capabilities for malicious purposes. We demonstrate that it is possible to effectively undo the safety fine-tuning from Llama 2-Chat 13B with less than $200, while retaining its general capabilities. Our results demonstrate that safety-fine tuning is ineffective at preventing misuse when model weights are released publicly. Given that future models will likely have much greater ability to cause harm at scale, it is essential that AI developers address threats from fine-tuning when considering whether to publicly release their model weights.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-21
# MacGyver: 大きな言語モデルは創造的な問題解決なのか?

MacGyver: Are Large Language Models Creative Problem Solvers? ( http://arxiv.org/abs/2311.09682v2 )

ライセンス: Link先を確認
Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman, (参考訳) 本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。 この目的のためにMACGYVERを作成した。これは1,600以上の現実世界の問題からなる自動生成データセットで、革新的なオブジェクトの使用を誘発し、アウト・オブ・ザ・ボックスの思考を必要とするように意図的に設計されている。 LLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。 MACGYVERはどちらのグループにも挑戦するが、独特で補完的な方法がある。 例えば、人間は慣れ親しんだタスクに精通するが、ドメイン固有の知識に苦しむため、より分散する。 対照的に、LLMは様々な専門知識に晒され、より広範な問題を試みるが、物理的に不可能な行動を提案することで失敗する。 最後に, LLMの詳細な誤り解析を行い, 反復的なステップワイドリフレクションや散発的収束思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。 本研究は,機械知能の既存のスペクトルを補完する身体的推論,計画,非伝統的な思考の複雑な側面に着目した,知的エージェントのための新たなアリーナを紹介し,また,人間とAIの制約された問題解決能力に関する洞察を提供する。

We explore the creative problem-solving capabilities of modern LLMs in a novel constrained setting. To this end, we create MACGYVER, an automatically generated dataset consisting of over 1,600 real-world problems deliberately designed to trigger innovative usage of objects and necessitate out-of-the-box thinking. We then present our collection to both LLMs and humans to compare and contrast their problem-solving abilities. MACGYVER is challenging for both groups, but in unique and complementary ways. For instance, humans excel in tasks they are familiar with but struggle with domain-specific knowledge, leading to a higher variance. In contrast, LLMs, exposed to a variety of specialized knowledge, attempt broader problems but fail by proposing physically-infeasible actions. Finally, we provide a detailed error analysis of LLMs, and demonstrate the potential of enhancing their problem-solving ability with novel prompting techniques such as iterative step-wise reflection and divergent-convergent thinking. This work (1) introduces a fresh arena for intelligent agents focusing on intricate aspects of physical reasoning, planning, and unconventional thinking, which supplements the existing spectrum of machine intelligence; and (2) provides insight into the constrained problem-solving capabilities of both humans and AI.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-21
# PointNeRF++: マルチスケール・ポイントベースニューラルレーダランスフィールド

PointNeRF++: A multi-scale, point-based Neural Radiance Field ( http://arxiv.org/abs/2312.02362v2 )

ライセンス: Link先を確認
Weiwei Sun, Eduard Trulls, Yang-Che Tseng, Sneha Sambandam, Gopal Sharma, Andrea Tagliasacchi, Kwang Moo Yi, (参考訳) ポイントクラウドは、特に少ない画像が利用可能な場合、ニューラルシーン表現で画像を補完する魅力的な情報ソースを提供する。 ポイントクラウドに基づくニューラルレンダリング手法は存在するが、ポイントクラウドの品質が低い場合(例えば、スパースや不完全な場合)はうまく機能しない。 これらの問題を、複数のスケールの点雲を異なる解像度でスパース・ボクセル・グリッドで集約する単純な表現で克服する。 点雲の間隔を扱うためには、複数のスケールのレベルで平均的に処理するが、有効であるもの、すなわちピクセルの光線に近接する十分な隣接点を持つものの中でのみ有効である。 点のない領域をモデル化するために、大まかに大まかなスケールで大域ボクセルを加え、したがって ``classical'' と点ベースの NeRF を統一する。 我々はNeRF Synthetic, ScanNet, KITTI-360データセットの手法を検証し, 現状よりも優れており, 特に難易度の高いシーンでは, 他のNeRFベースの手法と比較して大きな差がある。

Point clouds offer an attractive source of information to complement images in neural scene representations, especially when few images are available. Neural rendering methods based on point clouds do exist, but they do not perform well when the point cloud quality is low -- e.g., sparse or incomplete, which is often the case with real-world data. We overcome these problems with a simple representation that aggregates point clouds at multiple scale levels with sparse voxel grids at different resolutions. To deal with point cloud sparsity, we average across multiple scale levels -- but only among those that are valid, i.e., that have enough neighboring points in proximity to the ray of a pixel. To help model areas without points, we add a global voxel at the coarsest scale, thus unifying ``classical'' and point-based NeRF formulations. We validate our method on the NeRF Synthetic, ScanNet, and KITTI-360 datasets, outperforming the state of the art, with a significant gap compared to other NeRF-based methods, especially on more challenging scenes.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-21
# FERGI:自発表情反応によるテキスト・画像生成のためのユーザ嗜好の自動アノテーション

FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction ( http://arxiv.org/abs/2312.03187v2 )

ライセンス: Link先を確認
Shuangquan Feng, Junhua Ma, Virginia R. de Sa, (参考訳) 研究者は、人間の嗜好フィードバックのデータを使って、微調整されたテキストから画像への生成モデルを提案する。 しかし、人間のフィードバック収集のスケーラビリティは手動のアノテーションに依存しているため制限されている。 そこで本研究では,自動的な表情反応から生成した画像へのユーザの好みを自動的にアノテートする手法を開発し,検証する。 生成画像に対する表情反応(FERGI)のデータセットを収集し,複数の顔行動単位(AU)の活性化が生成画像のユーザ評価と高い相関性を示す。 具体的には、AU4(brow lowerer)は生成画像の負の評価を反映する一方、AU12(lip corner puller)は正の評価を反映する。 これらは2つの点で有用である。 まず、これらのAU応答にかなりの差がある画像ペア間のユーザの好みを自動アノテートでき、精度は最先端のスコアリングモデルよりも大幅に向上する。 第二に、AU応答とスコアリングモデルを直接統合することで、人間の好みとの一貫性が向上する。 最後に、この表情解析による自動アノテーションの方法は、他の世代タスクに一般化することができる。 コードはhttps://github.com/ShuangquanFeng/FERGIで公開されている。

Researchers have proposed to use data of human preference feedback to fine-tune text-to-image generative models. However, the scalability of human feedback collection has been limited by its reliance on manual annotation. Therefore, we develop and test a method to automatically annotate user preferences from their spontaneous facial expression reaction to the generated images. We collect a dataset of Facial Expression Reaction to Generated Images (FERGI) and show that the activations of multiple facial action units (AUs) are highly correlated with user evaluations of the generated images. Specifically, AU4 (brow lowerer) is reflective of negative evaluations of the generated image whereas AU12 (lip corner puller) is reflective of positive evaluations. These can be useful in two ways. Firstly, we can automatically annotate user preferences between image pairs with substantial difference in these AU responses with an accuracy significantly outperforming state-of-the-art scoring models. Secondly, directly integrating the AU responses with the scoring models improves their consistency with human preferences. Finally, this method of automatic annotation with facial expression analysis can be potentially generalized to other generation tasks. The code is available at https://github.com/ShuangquanFeng/FERGI, and the dataset is also available at the same link for research purposes.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-21
# 連続学習のための勾配投影型クラスプロトタイプ条件拡散モデル

Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning ( http://arxiv.org/abs/2312.06710v3 )

ライセンス: Link先を確認
Khanh Doan, Quyen Tran, Tung Lam Tran, Tuan Nguyen, Dinh Phung, Trung Le, (参考訳) 破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。 Deep Generative Replay(GR)は、GAN(Generative Adversarial Networks)から、より最近のDiffusion Models(DMs)までの生成AIモデルを使用して、モデルのメモリ能力を向上するために、以前のタスクからサンプルを生成する技術を提供する。 主な問題は、生成元が出力から連続的に自己学習するので、生成したデータの品質が元のデータと比べて低下することである。 この劣化は、分類器で起こる破滅的忘れ(CF)の潜在的なリスクにつながる可能性がある。 そこで本稿では,GPPDM(Gradient Projection Class-Prototype Conditional Diffusion Model)を提案する。 GPPDMの基盤は学習可能なクラスプロトタイプであり、与えられたクラスの画像のコア特性をキャプチャする。 このプロトタイプは拡散モデルのデノナイジングプロセスに統合され、古いタスクの高品質な画像の生成を保証するため、分類器におけるCFのリスクが軽減される。 さらに,拡散モデルのCFをさらに緩和するために,拡散モデルのクロスアテンション層に適した勾配投影手法を提案する。 多様なデータセットに関する実証研究により、提案手法は既存の最先端モデルよりも大幅に優れており、画像品質の維持とメモリ保持の強化が満足できることを示した。

Mitigating catastrophic forgetting is a key hurdle in continual learning. Deep Generative Replay (GR) provides techniques focused on generating samples from prior tasks to enhance the model's memory capabilities using generative AI models ranging from Generative Adversarial Networks (GANs) to the more recent Diffusion Models (DMs). A major issue is the deterioration in the quality of generated data compared to the original, as the generator continuously self-learns from its outputs. This degradation can lead to the potential risk of catastrophic forgetting (CF) occurring in the classifier. To address this, we propose the Gradient Projection Class-Prototype Conditional Diffusion Model (GPPDM), a GR-based approach for continual learning that enhances image quality in generators and thus reduces the CF in classifiers. The cornerstone of GPPDM is a learnable class prototype that captures the core characteristics of images in a given class. This prototype, integrated into the diffusion model's denoising process, ensures the generation of high-quality images of the old tasks, hence reducing the risk of CF in classifiers. Moreover, to further mitigate the CF of diffusion models, we propose a gradient projection technique tailored for the cross-attention layer of diffusion models to maximally maintain and preserve the representations of old task data in the current task as close as possible to their representations when they first arrived. Our empirical studies on diverse datasets demonstrate that our proposed method significantly outperforms existing state-of-the-art models, highlighting its satisfactory ability to preserve image quality and enhance the model's memory retention.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-21
# RGNet:ロングビデオのための一貫したクリップ検索とグラウンドネットワーク

RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos ( http://arxiv.org/abs/2312.06729v2 )

ライセンス: Link先を確認
Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius, (参考訳) 長いビデオ(20~120分)の中に特定の瞬間を配置することは、干し草の山の中に針を見つけるのと同じような、重大な課題を提示する。 既存のショートビデオ(5~30秒)のグラウンド化手法をこの問題に適用すると、性能が低下する。 YouTubeやAR/VRなど、ほとんどの実写ビデオは長いので、この問題に対処することが不可欠だ。 既存の手法は通常、クリップ検索と接地という2つの段階で動作する。 しかし、この解離過程は、特定のモーメント検出に不可欠な、検索モジュールのきめ細かいイベント理解を制限する。 本稿では,長い動画を複数の粒度(例えばクリップやフレーム)に処理できる1つのネットワークに深く統合したRGNetを提案する。 コアコンポーネントは、新しいトランスフォーマーエンコーダRG-Encoderで、共有機能と相互最適化によって2つのステージを統一する。 エンコーダはスパースアテンション機構とアテンションロスを具備し、両粒度を共にモデル化する。 さらに,トレーニング中にビデオの長いパラダイムを忠実に模倣するために,コントラッシブなクリップサンプリング手法を導入する。 RGNetは従来の手法を超越し、ロングビデオ時間グラウンド(LVTG)データセットMADとEgo4Dの最先端性能を示す。

Locating specific moments within long videos (20-120 minutes) presents a significant challenge, akin to finding a needle in a haystack. Adapting existing short video (5-30 seconds) grounding methods to this problem yields poor performance. Since most real life videos, such as those on YouTube and AR/VR, are lengthy, addressing this issue is crucial. Existing methods typically operate in two stages: clip retrieval and grounding. However, this disjoint process limits the retrieval module's fine-grained event understanding, crucial for specific moment detection. We propose RGNet which deeply integrates clip retrieval and grounding into a single network capable of processing long videos into multiple granular levels, e.g., clips and frames. Its core component is a novel transformer encoder, RG-Encoder, that unifies the two stages through shared features and mutual optimization. The encoder incorporates a sparse attention mechanism and an attention loss to model both granularity jointly. Moreover, we introduce a contrastive clip sampling technique to mimic the long video paradigm closely during training. RGNet surpasses prior methods, showcasing state-of-the-art performance on long video temporal grounding (LVTG) datasets MAD and Ego4D.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-21
# The Manga Whisperer:コミックの書き起こしを自動的に生成する

The Manga Whisperer: Automatically Generating Transcriptions for Comics ( http://arxiv.org/abs/2401.10224v2 )

ライセンス: Link先を確認
Ragav Sachdeva, Andrew Zisserman, (参考訳) 過去数十年間、マンガと呼ばれる日本の漫画は、文化と言語の境界を超越し、真の世界的なセンセーションとなった。 しかし、マンガの視覚的手がかりやイラストに固有の依存は、視覚障害のある個人にはほとんどアクセスできない。 本研究は,マンガが誰にでも評価され,積極的に関与できることを保証することを目的として,この大きな障壁に対処することを目的とする。 具体的には、ダイアリゼーション(ダイアリゼーション)の問題、すなわち、何をいつ、いつ、完全に自動で書き起こすかという問題に対処する。 この目的のために、我々は以下の貢献をする: (1) 統一されたモデル Magi を提示する。 (a)パネル、テキストボックス、文字ボックスを検出する。 (b)クラスタ文字の同一性(アプリオリのクラスタ数を知ることなく)、 (c)対話を話者に関連付け,(2)検出したテキストボックスを読み順にソートし,対話テキストを生成する新しいアプローチを提案する。(3)マンガページを公開して,このタスクの評価ベンチマークに注釈を付ける。 コード、評価データセット、事前トレーニングされたモデルは以下の通りである。

In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-21
# 短期ビデオとメンタルヘルス:知識指導型ニューラルトピックモデル

Short-Form Videos and Mental Health: A Knowledge-Guided Neural Topic Model ( http://arxiv.org/abs/2402.10045v3 )

ライセンス: Link先を確認
Jiaheng Xie, Ruicheng Liang, Yidong Chai, Yang Liu, Daniel Zeng, (参考訳) 短いビデオはソーシャルメディア全体の形を変えようとしているが、専門家たちは、視聴者に対する抑うつ的な影響を非常に心配している。 幅広い影響を避けるため、プラットフォームは視聴者のメンタルヘルスにこれらのビデオが与える影響を予測することを熱望している。 その後、リコメンデーションアルゴリズムの改訂や視聴者の判断の表示など、介入措置をとることができる。 それにもかかわらず、適用可能な予測手法は、うつ病の臨床的に証明された外的および環境的要因を概説する、確立された医学的知識との関係を欠いている。 このような医学的知識を考慮し,NTM(シード型ニューラルトピックモデル)を創発的方法論として活用する。 しかし、既存のシードNTMは、シングルオリジンのトピック、未知のトピックソース、不明瞭なシード管理、最適以下の収束の制限に悩まされている。 これらの課題に対処するため,我々は,短いビデオが視聴者に与える影響を予測するための,知識誘導型マルチモーダルNTMを開発した。 TikTokとDouyinのデータセットを用いた大規模な実験分析により、我々の手法が最先端のベンチマークより優れていることが証明された。 また, うつ病に関連のある映像から, 医療関連トピックも発見する。 我々は、他のビデオ分類問題に対して一般化可能な、新しいビデオ分析手法でISに貢献する。 提案手法は,ビデオの心理的影響をプラットフォームが理解し,レコメンデーションやビデオトピックの開示を調整するのに役立つ。

While short-form videos head to reshape the entire social media landscape, experts are exceedingly worried about their depressive impacts on viewers, as evidenced by medical studies. To prevent widespread consequences, platforms are eager to predict these videos' impact on viewers' mental health. Subsequently, they can take intervention measures, such as revising recommendation algorithms and displaying viewer discretion. Nevertheless, applicable predictive methods lack relevance to well-established medical knowledge, which outlines clinically proven external and environmental factors of depression. To account for such medical knowledge, we resort to an emergent methodological discipline, seeded Neural Topic Models (NTMs). However, existing seeded NTMs suffer from the limitations of single-origin topics, unknown topic sources, unclear seed supervision, and suboptimal convergence. To address those challenges, we develop a novel Knowledge-guided Multimodal NTM to predict a short-form video's depressive impact on viewers. Extensive empirical analyses using TikTok and Douyin datasets prove that our method outperforms state-of-the-art benchmarks. Our method also discovers medically relevant topics from videos that are linked to depressive impact. We contribute to IS with a novel video analytics method that is generalizable to other video classification problems. Practically, our method can help platforms understand videos' mental impacts, thus adjusting recommendations and video topic disclosure.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-21
# ディジタル双生児(MATH-DT)における数学的機会

Mathematical Opportunities in Digital Twins (MATH-DT) ( http://arxiv.org/abs/2402.10326v2 )

ライセンス: Link先を確認
Harbir Antil, (参考訳) 本報告では,2023年12月11日から13日にかけて,ジョージ・メイソン大学におけるディジタルツインズにおける数学的機会に関するワークショップ(MATH-DT)の議論について述べる。 これは、従来のアプローチとは異なるデジタルツイン(DT)に基礎的な数学的進歩が必要であることを示している。 生物学、物理学、工学、医学における伝統的なモデルは、一般的な物理法則(例えば方程式)から始まり、しばしば現実を単純化する。 DTは、現実を表す特定のエコシステム、オブジェクトまたは人(例えばパーソナライズされたケア)から始まり、マルチスケールの物理モデリングと結合を必要とします。 したがって、これらのプロセスはシミュレーションとモデリングパイプラインの反対側で始まり、異なる信頼性基準と不確実性評価を必要とする。 さらに、既存のアプローチとは異なり、DTは人間が物理的なシステムに対して決定を下すのを助ける。 基礎的な数学的研究のいくつかは、特定のアプリケーションコンテキストなしで行うことができるが、DTに対して特定のアプリケーションを念頭に置いておく必要がある。 例えば、橋や生物学的システム(患者)、社会技術システム(都市)をモデル化することは、非常に異なる。 モデルは工学における微分方程式(決定論的/不確かさ)から、エージェントベースを含む生物学における確率まで様々である。 これらは、不確実性の下でのマルチスケールハイブリッドモデルまたは大規模(マルチオブジェクト)最適化問題である。 普遍的なモデルやアプローチは存在しない。 例えば、予測のためのカルマンフィルタはエンジニアリングで機能するかもしれないが、バイオメディカル領域では失敗する可能性がある。 アドホックな研究は、体系的な作業が限られており、AI/MLメソッドが単純なエンジニアリングシステムで失敗し、生体医学的な問題に対してうまく機能することを示した。 数学的機会と挑戦」のリストが報告書を締めくくっている。

The report describes the discussions from the Workshop on Mathematical Opportunities in Digital Twins (MATH-DT) from December 11-13, 2023, George Mason University. It illustrates that foundational Mathematical advances are required for Digital Twins (DTs) that are different from traditional approaches. A traditional model, in biology, physics, engineering or medicine, starts with a generic physical law (e.g., equations) and is often a simplification of reality. A DT starts with a specific ecosystem, object or person (e.g., personalized care) representing reality, requiring multi -scale, -physics modeling and coupling. Thus, these processes begin at opposite ends of the simulation and modeling pipeline, requiring different reliability criteria and uncertainty assessments. Additionally, unlike existing approaches, a DT assists humans to make decisions for the physical system, which (via sensors) in turn feeds data into the DT, and operates for the life of the physical system. While some of the foundational mathematical research can be done without a specific application context, one must also keep specific applications in mind for DTs. E.g., modeling a bridge or a biological system (a patient), or a socio-technical system (a city) is very different. The models range from differential equations (deterministic/uncertain) in engineering, to stochastic in biology, including agent-based. These are multi-scale hybrid models or large scale (multi-objective) optimization problems under uncertainty. There are no universal models or approaches. For e.g., Kalman filters for forecasting might work in engineering, but can fail in biomedical domain. Ad hoc studies, with limited systematic work, have shown that AI/ML methods can fail for simple engineering systems and can work well for biomedical problems. A list of `Mathematical Opportunities and Challenges' concludes the report.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-21
# MiKASA:3Dビジュアルグラウンドのためのマルチキーアンカーとシーンアウェアトランス

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding ( http://arxiv.org/abs/2403.03077v3 )

ライセンス: Link先を確認
Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker, (参考訳) 3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。 既存の手法では、オブジェクト認識の正確さや複雑な言語クエリ、特に複数のアンカーを含む記述やビュー依存の記述の解釈に苦慮している場合が多い。 これに対して,Multi-Key-Anchor Scene-Aware 変換器を提案する。 我々の新しいエンドツーエンド学習モデルは、自己認識に基づくシーン認識オブジェクトエンコーダと、従来のマルチキーアンカー技術を統合し、物体認識精度を高め、空間的関係の理解を促進する。 さらに、ミカサは意思決定の説明可能性を改善し、誤りの診断を容易にする。 我々のモデルは、Sr3DとNr3Dの両方のデータセットに対するReferit3Dチャレンジにおいて、特に視点に依存した記述を必要とするカテゴリにおいて、最も高い総合的精度を達成する。

3D visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interpreting complex linguistic queries, particularly with descriptions that involve multiple anchors or are view-dependent. In response, we present the MiKASA (Multi-Key-Anchor Scene-Aware) Transformer. Our novel end-to-end trained model integrates a self-attention-based scene-aware object encoder and an original multi-key-anchor technique, enhancing object recognition accuracy and the understanding of spatial relationships. Furthermore, MiKASA improves the explainability of decision-making, facilitating error diagnosis. Our model achieves the highest overall accuracy in the Referit3D challenge for both the Sr3D and Nr3D datasets, particularly excelling by a large margin in categories that require viewpoint-dependent descriptions.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-21
# TTPXHunter: サイバー脅威レポートのTTPとして行動可能な脅威情報抽出

TTPXHunter: Actionable Threat Intelligence Extraction as TTPs from Finished Cyber Threat Reports ( http://arxiv.org/abs/2403.03267v3 )

ライセンス: Link先を確認
Nanda Rani, Bikash Saha, Vikas Maurya, Sandeep Kumar Shukla, (参考訳) 敵の様相を理解することは、組織が効果的な防衛戦略を採用し、コミュニティで知性を共有するのを助ける。 この知識は、脅威分析レポート内の非構造化自然言語テキストにしばしば存在する。 脅威レポートの文で説明されたmodus operandiを解釈し、構造化フォーマットに変換するには、翻訳ツールが必要である。 本研究は、TTPXHunterという手法を用いて、サイバー脅威レポートから脅威情報を自動的に抽出する手法を紹介する。 サイバードメイン固有の自然言語処理(NLP)を活用して、少数派のTTPに対する文を増補し、脅威分析レポートにおいてTPを微調整する。 TTPにおける脅威知能の知識は、サイバー脅威を包括的に理解し、検出と緩和戦略の強化に不可欠である。 我々は、39,296のサンプルからなる強化文-TTPデータセットと、149の現実世界のサイバー脅威インテリジェンスレポート-TTPデータセットという2つのデータセットを作成します。 さらに、拡張文データセットとサイバー脅威レポートに基づいて、TPXHunterを評価する。 TTPXHunterは、拡張データセット上で92.42%のf1スコアを達成し、レポートデータセットで評価すると、f1スコアの97.09%を達成して、TTP抽出における既存の最先端ソリューションを上回っている。 TTPXHunterは、攻撃行動に関する素早く行動可能な洞察を提供することで、サイバーセキュリティの脅威情報を大幅に改善する。 この進歩は脅威情報分析を自動化し、サイバーセキュリティの専門家がサイバー脅威と戦うための重要なツールを提供する。

Understanding the modus operandi of adversaries aids organizations in employing efficient defensive strategies and sharing intelligence in the community. This knowledge is often present in unstructured natural language text within threat analysis reports. A translation tool is needed to interpret the modus operandi explained in the sentences of the threat report and translate it into a structured format. This research introduces a methodology named TTPXHunter for the automated extraction of threat intelligence in terms of Tactics, Techniques, and Procedures (TTPs) from finished cyber threat reports. It leverages cyber domain-specific state-of-the-art natural language processing (NLP) to augment sentences for minority class TTPs and refine pinpointing the TTPs in threat analysis reports significantly. The knowledge of threat intelligence in terms of TTPs is essential for comprehensively understanding cyber threats and enhancing detection and mitigation strategies. We create two datasets: an augmented sentence-TTP dataset of 39,296 samples and a 149 real-world cyber threat intelligence report-to-TTP dataset. Further, we evaluate TTPXHunter on the augmented sentence dataset and the cyber threat reports. The TTPXHunter achieves the highest performance of 92.42% f1-score on the augmented dataset, and it also outperforms existing state-of-the-art solutions in TTP extraction by achieving an f1-score of 97.09% when evaluated over the report dataset. TTPXHunter significantly improves cybersecurity threat intelligence by offering quick, actionable insights into attacker behaviors. This advancement automates threat intelligence analysis, providing a crucial tool for cybersecurity professionals fighting cyber threats.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-21
# TeleMoMa:モバイル操作のためのモジュラー・ヴァーサタイル遠隔操作システム

TeleMoMa: A Modular and Versatile Teleoperation System for Mobile Manipulation ( http://arxiv.org/abs/2403.07869v2 )

ライセンス: Link先を確認
Shivin Dass, Wensi Ai, Yuqian Jiang, Samik Singh, Jiaheng Hu, Ruohan Zhang, Peter Stone, Ben Abbatematteo, Roberto Martín-Martín, (参考訳) ロボット工学における模倣学習を制限する重要なボトルネックは、データの欠如である。 この問題はモバイル操作ではより深刻であり、利用可能な遠隔操作インタフェースが欠如しているため、デモ収集は静止操作よりも難しい。 本研究では,移動マニピュレータの全身遠隔操作のための汎用・モジュールインタフェースであるTeleMoMaを実演する。 TeleMoMaは、RGBとディープカメラ、バーチャルリアリティコントローラ、キーボード、ジョイスティックなど、あらゆる組み合わせを含む複数のヒューマンインターフェースを統合する。 よりアクセスしやすいバージョンでは、TeleMoMaは単に視覚(例えばRGB-Dカメラ)を使って、人間がモバイル操作のデモを行うためのエントリーバーを下げる。 シミュレーションや実世界において,PAL Tiago++,Toyota HSR,Fetchといった既存の移動マニピュレータを遠隔操作することで,TeleMoMaの汎用性を実証する。 我々は,TeleMoMaで収集した実演の質を,体動の同期を含む移動操作タスクの模倣学習ポリシーの訓練により実証する。 最後に,TeleMoMaの遠隔操作チャネルは,遠隔操作やロボットの遠隔操作,コンピュータネットワーク経由でコマンドや観察を送信し,初心者の学習がいかに容易かを評価する。 TeleMoMaがコミュニティの役に立つツールになることを願っている。 詳しくは、https://robin-lab.cs.utexas.edu/telemoma-webを参照のこと。

A critical bottleneck limiting imitation learning in robotics is the lack of data. This problem is more severe in mobile manipulation, where collecting demonstrations is harder than in stationary manipulation due to the lack of available and easy-to-use teleoperation interfaces. In this work, we demonstrate TeleMoMa, a general and modular interface for whole-body teleoperation of mobile manipulators. TeleMoMa unifies multiple human interfaces including RGB and depth cameras, virtual reality controllers, keyboard, joysticks, etc., and any combination thereof. In its more accessible version, TeleMoMa works using simply vision (e.g., an RGB-D camera), lowering the entry bar for humans to provide mobile manipulation demonstrations. We demonstrate the versatility of TeleMoMa by teleoperating several existing mobile manipulators - PAL Tiago++, Toyota HSR, and Fetch - in simulation and the real world. We demonstrate the quality of the demonstrations collected with TeleMoMa by training imitation learning policies for mobile manipulation tasks involving synchronized whole-body motion. Finally, we also show that TeleMoMa's teleoperation channel enables teleoperation on site, looking at the robot, or remote, sending commands and observations through a computer network, and perform user studies to evaluate how easy it is for novice users to learn to collect demonstrations with different combinations of human interfaces enabled by our system. We hope TeleMoMa becomes a helpful tool for the community enabling researchers to collect whole-body mobile manipulation demonstrations. For more information and video results, https://robin-lab.cs.utexas.edu/telemoma-web.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-21
# 大規模言語モデルは医療コードを理解するか?

Do Large Language Models understand Medical Codes? ( http://arxiv.org/abs/2403.10822v2 )

ライセンス: Link先を確認
Simon A. Lee, Timothy Lindsey, (参考訳) 最近のAI研究の包括的な目標は、人工知能(AGI)の実現に向けて着実に進歩することであり、様々なタスクやドメインにわたる大規模言語モデル(LLM)の評価を促進することである。 そのような領域の1つは医療であり、LSMは幅広いタスクを支援することで臨床実践に多大な利益をもたらすことができる。 しかし、これらのモデルはまた、クエリに直面すると、適切な対処ができず、特に医療コミュニティ内で懸念や懐疑論を提起する「ハロシン化」や誤った反応を生み出す傾向にある。 本研究では, LLM が医療現場で広く利用されている医療コードを理解し, 予測できるかどうかを検討する。 本研究の目的は,これらのLCMの能力と限界を明らかにすることである。 生物医学的応用に特化して設計された各種市販LCM (e , GPT, LLaMAなど) およびLSMを, これらのドメイン固有用語の認識と理解を評価するために評価した。 以上の結果から,これらのモデルでは,医療において広く用いられているアルファ数値符号の表現性の向上の必要性が指摘され,医療コードの意味が理解されていないことが示唆された。 我々は、LSM内の医療コードや用語のニュアンスを効果的に把握し、表現するための改善戦略を求め、医療専門家にとってより信頼性が高く信頼できるツールとなることができるようにします。

The overarching goal of recent AI research has been to make steady progress towards achieving Artificial General Intelligence (AGI), prompting the evaluation of Large Language Models (LLMs) across a variety of tasks and domains. One such domain is healthcare, where LLMs can greatly benefit clinical practice by assisting with a wide range of tasks. However, these models are also prone to producing ``hallucinations" or incorrect responses when faced with queries they cannot adequately address, raising concerns and skepticism, especially within the healthcare community. In this work, we investigate whether LLMs understand and can predict medical codes, which are extensively utilized in healthcare practice. This study aims to delineate the capabilities and limitations of these LLMs. We evaluate various off-the-shelf LLMs (e.g., GPT, LLaMA, etc.) and LLMs specifically designed for biomedical applications to assess their awareness and understanding of these domain-specific terminologies. Our results indicate that these models as they currently stand do not comprehend the meaning of the medical codes, highlighting the need for better representation of these alphanumeric codes extensively used in healthcare. We call for improved strategies to effectively capture and represent the nuances of medical codes and terminologies within LLMs, enabling them to become more reliable and trustworthy tools for healthcare professionals.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-21
# AltGraph:効率的な最適化のための生成グラフモデルを用いた量子回路の再設計

AltGraph: Redesigning Quantum Circuits Using Generative Graph Models for Efficient Optimization ( http://arxiv.org/abs/2403.12979v2 )

ライセンス: Link先を確認
Collin Beaudoin, Koustubh Phalak, Swaroop Ghosh, (参考訳) 量子回路変換は、回路深さ、ゲート数、現代のノイズ中間スケール量子(NISQ)デバイスとの互換性などの様々な側面を最適化しながら、等価な回路を生成することを目的としている。 回路変換には2つの技法がある。 ひとつはルールベースのアプローチで、IDのユニタリ操作に匹敵するゲートのペアを鮮やかにキャンセルする。 ルールベースのアプローチは、Qiskit、tket、Quilcといった量子コンパイラで使用される。 2つ目は、量子回路探索空間を探索することで等価な量子回路を見つけようとする探索に基づくアプローチである。 検索ベースのアプローチは一般的に、生成モデルや強化学習(RL)のような機械学習技術に依存する。 本研究では,既存の生成グラフモデルを用いて等価な量子回路を生成する検索ベースの新しい回路変換手法AltGraphを提案する。 DAG変動オートエンコーダ(D-VAE)とGRU(Gated Recurrent Unit)とGCN(Graph Convolutional Network)の2つの変種と、量子回路の直接巡回グラフ(DAG)を入力として出力するDeepGMG(Deep Generative Model for Graphs)の3つの主要なグラフモデルを用いて、等価な量子回路を再構成する。 次に、等価量子回路を生成するために遅延空間を摂動させ、そのいくつかはハードウェア結合マップとより互換性があり、/またはより優れた最適化が可能となり、ゲート数と回路深さが減少する。 AltGraphは、密度行列で0.0074 Mean Squared Error (MSE)しか持たない元のトランスパイル回路と比較して、ゲート数の平均37.55%の削減と回路深さの37.75%の削減を実現している。

Quantum circuit transformation aims to produce equivalent circuits while optimizing for various aspects such as circuit depth, gate count, and compatibility with modern Noisy Intermediate Scale Quantum (NISQ) devices. There are two techniques for circuit transformation. The first is a rule-based approach that greedily cancels out pairs of gates that equate to the identity unitary operation. Rule-based approaches are used in quantum compilers such as Qiskit, tket, and Quilc. The second is a search-based approach that tries to find an equivalent quantum circuit by exploring the quantum circuits search space. Search-based approaches typically rely on machine learning techniques such as generative models and Reinforcement Learning (RL). In this work, we propose AltGraph, a novel search-based circuit transformation approach that generates equivalent quantum circuits using existing generative graph models. We use three main graph models: DAG Variational Autoencoder (D-VAE) with two variants: Gated Recurrent Unit (GRU) and Graph Convolutional Network (GCN), and Deep Generative Model for Graphs (DeepGMG) that take a Direct Acyclic Graph (DAG) of the quantum circuit as input and output a new DAG from which we reconstruct the equivalent quantum circuit. Next, we perturb the latent space to generate equivalent quantum circuits some of which may be more compatible with the hardware coupling map and/or enable better optimization leading to reduced gate count and circuit depth. AltGraph achieves on average a 37.55% reduction in the number of gates and a 37.75% reduction in the circuit depth post-transpiling compared to the original transpiled circuit with only 0.0074 Mean Squared Error (MSE) in the density matrix.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-21
# 光学格子中の強相互作用ボソニック混合物のミスシビリティ-イミシビリティ遷移

Miscibility-Immiscibility transition of strongly interacting bosonic mixtures in optical lattices ( http://arxiv.org/abs/2403.14601v1 )

ライセンス: Link先を確認
Rukmani Bai, Soumik Bandyopadhyay, (参考訳) 相互作用は多成分系の混合特性において重要な役割を果たす。 ボースガスの弱い相互作用混合物中のミセシビリティ・イミスシビリティ・トランジション(MIT)は、内部および界面の2体の接触相互作用の強さによって決定される。 一方、強く相互作用する状態相互作用によって引き起こされるプロセスは関係する。 光学格子中のボソニック混合物に関する以前の研究にもかかわらず、相互作用誘起過程がMITに与える影響は未解明のままである。 本研究では,等質な2次元正方格子に閉じ込められた2成分ボゾン混合系の強相互作用相におけるMITについて検討する。 特に, 両成分が超流動(SF), 単体スタッジャード超流動(OSSF) あるいは超固体(SS) 相である場合の遷移について検討した。 我々の研究は、接触相互作用と同様に、MITが競合するイントラおよびイントラコンポーネント密度誘導トンネルとオフサイト相互作用の影響を受けられることをよく示している。 強く相互作用する状態下でMITを探索するため,密度誘導トンネル法と近傍近傍の相互作用項によるボース・ハッバードモデルの拡張版について検討し,ホッピング過程がオンサイト相互作用よりもかなり弱い状態に着目する。 このモデルは、グッツウィラー・アンザッツを用いたサイト分離平均場理論により解き、格子を横断する2成分のサイトワイド共存により、不連続性を特徴づける。 本研究は, 強相互作用状態における多成分系の不整合特性の理解の向上に寄与する。

Interaction plays key role in the mixing properties of a multi-component system. The miscibility-immiscibility transition (MIT) in a weakly interacting mixture of Bose gases is predominantly determined by the strengths of the intra and inter-component two-body contact interactions. On the other hand, in the strongly interacting regime interaction induced processes become relevant. Despite previous studies on bosonic mixtures in optical lattices, the effects of the interaction induced processes on the MIT remains unexplored. In this work, we investigate the MIT in the strongly interacting phases of two-component bosonic mixture trapped in a homogeneous two-dimensional square optical lattice. Particularly we examine the transition when both the components are in superfluid (SF), one-body staggered superfluid (OSSF) or supersolid (SS) phases. Our study prevails that, similar to the contact interactions, the MIT can be influenced by competing intra and inter-component density induced tunnelings and off-site interactions. To probe the MIT in the strongly interacting regime, we study the extended version of the Bose-Hubbard model with the density induced tunneling and nearest-neighbouring interaction terms, and focus in the regime where the hopping processes are considerably weaker than the on-site interaction. We solve this model through site-decoupling mean-field theory with Gutzwiller ansatz and characterize the miscibility through the site-wise co-existence of the two-component across the lattice. Our study contributes to the better understanding of miscibility properties of multi-component systems in the strongly interacting regime.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-21
# 大規模言語モデルにおける保護群バイアスとステレオタイプ

Protected group bias and stereotypes in Large Language Models ( http://arxiv.org/abs/2403.14727v1 )

ライセンス: Link先を確認
Hadas Kotek, David Q. Sun, Zidi Xiu, Margit Bowler, Christopher Klein, (参考訳) 現代大規模言語モデル (LLM) が様々な領域で多くの最先端のベンチマークを破り、倫理と公正の領域におけるそれらの振る舞いを、保護された集団バイアスに焦点をあてて調査する。 まず、ジェンダー、セクシュアリティ、宗教、人種など、異なる保護されたグループからの個人の職業を記述した文の継続を要請する。 第2に、異なるタイプの職業を持つ個人について、モデルが物語を生成する。 一般に公開されているLCMで作成した10k以上の文の完成度を収集し,人間のアノテーションを付与する。 マイノリティ化されたグループ間で偏見が見られますが、特にモデル世代では、性別やセクシュアリティの領域や西洋の偏見が見られます。 このモデルは社会的バイアスを反映するだけでなく、それらを増幅するように見える。 このモデルは、マイノリティ化されたグループに関するクエリに対する応答に過度に慎重であり、他のグループの特性が過度に隠されている程度に多様性と株式を強く強調する応答を提供する。 これは、潜在的に有害な出力を人為的に制限することは、それ自体に害をもたらす可能性があり、慎重に制御された方法で適用されるべきであることを示している。

As modern Large Language Models (LLMs) shatter many state-of-the-art benchmarks in a variety of domains, this paper investigates their behavior in the domains of ethics and fairness, focusing on protected group bias. We conduct a two-part study: first, we solicit sentence continuations describing the occupations of individuals from different protected groups, including gender, sexuality, religion, and race. Second, we have the model generate stories about individuals who hold different types of occupations. We collect >10k sentence completions made by a publicly available LLM, which we subject to human annotation. We find bias across minoritized groups, but in particular in the domains of gender and sexuality, as well as Western bias, in model generations. The model not only reflects societal biases, but appears to amplify them. The model is additionally overly cautious in replies to queries relating to minoritized groups, providing responses that strongly emphasize diversity and equity to an extent that other group characteristics are overshadowed. This suggests that artificially constraining potentially harmful outputs may itself lead to harm, and should be applied in a careful and controlled manner.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# Auto-Train-Once: コントローラネットワークガイドによるスクラッチからのネットワーク自動プルーニング

Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch ( http://arxiv.org/abs/2403.14729v1 )

ライセンス: Link先を確認
Xidong Wu, Shangqian Gao, Zeyu Zhang, Zhenzhen Li, Runxue Bao, Yanfu Zhang, Xiaoqian Wang, Heng Huang, (参考訳) ディープニューラルネットワーク(DNN)プルーニングの現在の技術は、ドメイン固有の専門知識を必要とする複雑なマルチステッププロセスを伴い、広く採用されるのが困難であることが多い。 この制限に対処するため、OTOとOTOv2は、一般的なDNNをスクラッチから直接訓練し圧縮することにより、追加の微調整ステップを不要にするために提案されている。 それでも、オプティマイザ(OTO)の静的設計は、局所最適化の収束問題を招きかねない。 本稿では,DNNの計算・記憶コストを自動的に削減する,革新的なネットワーク解析アルゴリズムであるAuto-Train-Once(ATO)を提案する。 モデルトレーニングフェーズにおいて,本手法では,対象モデルだけでなく,アーキテクチャジェネレータとしてコントローラネットワークを活用して,対象モデル重みの学習を指導する。 さらに、モデルトレーニングとコントローラネットワークトレーニングの協調性を高め、プルーニング性能を向上させる新しい確率勾配アルゴリズムを開発した。 提案手法は,標準ベンチマークデータセット (CIFAR-10, CIFAR-100, ImageNet) 上で,ResNet18, ResNet34, ResNet50, ResNet56, MobileNetv2) を含む,様々なモデルアーキテクチャにおける最先端性能を実現する。

Current techniques for deep neural network (DNN) pruning often involve intricate multi-step processes that require domain-specific expertise, making their widespread adoption challenging. To address the limitation, the Only-Train-Once (OTO) and OTOv2 are proposed to eliminate the need for additional fine-tuning steps by directly training and compressing a general DNN from scratch. Nevertheless, the static design of optimizers (in OTO) can lead to convergence issues of local optima. In this paper, we proposed the Auto-Train-Once (ATO), an innovative network pruning algorithm designed to automatically reduce the computational and storage costs of DNNs. During the model training phase, our approach not only trains the target model but also leverages a controller network as an architecture generator to guide the learning of target model weights. Furthermore, we developed a novel stochastic gradient algorithm that enhances the coordination between model training and controller network training, thereby improving pruning performance. We provide a comprehensive convergence analysis as well as extensive experiments, and the results show that our approach achieves state-of-the-art performance across various model architectures (including ResNet18, ResNet34, ResNet50, ResNet56, and MobileNetv2) on standard benchmark datasets (CIFAR-10, CIFAR-100, and ImageNet).
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# 修正型テキスト分類器への可逆ジャンプ攻撃

Reversible Jump Attack to Textual Classifiers with Modification Reduction ( http://arxiv.org/abs/2403.14731v1 )

ライセンス: Link先を確認
Mingze Ni, Zhensu Sun, Wei Liu, (参考訳) 近年,自然言語処理(NLP)モデルの脆弱性が報告されている。 既存の敵の例を生成する技術は、典型的には、最適な敵の例とは無関係な決定論的階層的ルールによって駆動される。 そこで本研究では,Reversible Jump Attack (RJA) とMetropolis-Hasting Modification Reduction (MMR) の2つのアルゴリズムを提案する。 RJAは、新しいランダム化機構を使用して、探索空間を拡大し、多くの摂動語に効率よく適応する。 これらの生成した敵の例では、MMRはMetropolis-Hastingサンプルを応用し、敵の例の非受容性を高める。 大規模な実験により、RJA-MMRは攻撃性能、非受容性、流布性、文法の正当性において現在の最先端の手法よりも優れていることが示された。

Recent studies on adversarial examples expose vulnerabilities of natural language processing (NLP) models. Existing techniques for generating adversarial examples are typically driven by deterministic hierarchical rules that are agnostic to the optimal adversarial examples, a strategy that often results in adversarial samples with a suboptimal balance between magnitudes of changes and attack successes. To this end, in this research we propose two algorithms, Reversible Jump Attack (RJA) and Metropolis-Hasting Modification Reduction (MMR), to generate highly effective adversarial examples and to improve the imperceptibility of the examples, respectively. RJA utilizes a novel randomization mechanism to enlarge the search space and efficiently adapts to a number of perturbed words for adversarial examples. With these generated adversarial examples, MMR applies the Metropolis-Hasting sampler to enhance the imperceptibility of adversarial examples. Extensive experiments demonstrate that RJA-MMR outperforms current state-of-the-art methods in attack performance, imperceptibility, fluency and grammar correctness.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# マルチタスク学習によるオープン知識ベース正準化

Open Knowledge Base Canonicalization with Multi-task Learning ( http://arxiv.org/abs/2403.14733v1 )

ライセンス: Link先を確認
Bingchen Liu, Huang Peng, Weixin Zeng, Xiang Zhao, Shijun Liu, Li Pan, (参考訳) 大規模オープンな知識ベース(OKB)の構築は、Web検索のような世界規模のWeb上で多くの知識駆動型アプリケーションに不可欠である。 しかし、OKBの名詞句や関係句はしばしば冗長性と曖昧さに悩まされ、OKBの正準化に関する調査が要求される。 現在のソリューションは、高度なクラスタリングアルゴリズムを考案し、知識グラフ埋め込み(KGE)を使用して、標準化プロセスをさらに促進することでOKB標準化に対処している。 それでもこれらの研究はクラスタリングとKGE学習の相乗効果を完全に活用できず、これらのサブタスク用に設計された手法は準最適である。 そこで我々は,OKB標準化に取り組むためにマルチタスク学習フレームワークであるMulCanonを提案する。 さらに、拡散モデルはソフトクラスタリングプロセスにおいて、近隣情報による名詞句表現を改善するために使用され、より正確な表現につながる可能性がある。 MulCanonはこれらのサブタスクの学習目標を統一し、トレーニングに2段階のマルチタスク学習パラダイムを採用する。 一般的なOKB正準化ベンチマークに関する徹底的な実験的研究は、MulCanonが競合正準化結果を達成できることを検証する。

The construction of large open knowledge bases (OKBs) is integral to many knowledge-driven applications on the world wide web such as web search. However, noun phrases and relational phrases in OKBs often suffer from redundancy and ambiguity, which calls for the investigation on OKB canonicalization. Current solutions address OKB canonicalization by devising advanced clustering algorithms and using knowledge graph embedding (KGE) to further facilitate the canonicalization process. Nevertheless, these works fail to fully exploit the synergy between clustering and KGE learning, and the methods designed for these subtasks are sub-optimal. To this end, we put forward a multi-task learning framework, namely MulCanon, to tackle OKB canonicalization. In addition, diffusion model is used in the soft clustering process to improve the noun phrase representations with neighboring information, which can lead to more accurate representations. MulCanon unifies the learning objectives of these sub-tasks, and adopts a two-stage multi-task learning paradigm for training. A thorough experimental study on popular OKB canonicalization benchmarks validates that MulCanon can achieve competitive canonicalization results.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# ニューラルネットワークインテリジェンスに関する調査

A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond ( http://arxiv.org/abs/2403.14734v1 )

ライセンス: Link先を確認
Qiushi Sun, Zhirui Chen, Fangzhi Xu, Kanzhi Cheng, Chang Ma, Zhangyue Yin, Jianing Wang, Chengcheng Han, Renyu Zhu, Shuai Yuan, Qipeng Guo, Xipeng Qiu, Pengcheng Yin, Xiaoli Li, Fei Yuan, Lingpeng Kong, Xiang Li, Zhiyong Wu, (参考訳) ディープラーニングを活用してコードを理解し、生成し、最適化するニューラル・コード・インテリジェンスは、社会全体に変革をもたらす大きな可能性を秘めている。 自然言語とプログラミング言語のギャップを埋めて、このドメインは、過去数年間、両方の研究コミュニティの研究者から大きな注目を集めてきた。 この調査では、50以上の代表モデルとその変種、20以上のタスクカテゴリ、および680以上の関連研究を網羅した、コードインテリジェンスの進歩に関する体系的および時系列的なレビューを提示する。 我々は、異なる研究フェーズ(例えば、リカレントニューラルネットワークによるコードモデリングから、大規模言語モデルの時代まで)にわたるパラダイムシフトをトレースするために、歴史的な進歩を追及する。 同時に、さまざまな段階にまたがるモデル、タスク、評価における主要な技術的な変遷を強調します。 アプリケーションでは、共に進化するシフトも観察します。 初期の取り組みから特定のシナリオへの対処まで、その急速な拡張の間にさまざまなタスクを探索し、現在ますます複雑で多様な現実世界の課題に取り組むことに集中している。 発達軌跡の考察に基づき、コードインテリジェンスとより広範なマシンインテリジェンスとの新たな相乗効果について検討し、新たなクロスドメインの機会を明らかにし、コードインテリジェンスが様々な領域にまたがる実質的な影響を明らかにした。 最後に、この分野での機会と課題を掘り下げ、最も有望な研究方向性についての洞察を解明する。 この調査に関連する、動的に更新されたプロジェクトとリソースがhttps://github.com/QiushiSun/NCISurvey.comでリリースされた。

Neural Code Intelligence -- leveraging deep learning to understand, generate, and optimize code -- holds immense potential for transformative impacts on the whole society. Bridging the gap between Natural Language and Programming Language, this domain has drawn significant attention from researchers in both research communities over the past few years. This survey presents a systematic and chronological review of the advancements in code intelligence, encompassing over 50 representative models and their variants, more than 20 categories of tasks, and an extensive coverage of over 680 related works. We follow the historical progression to trace the paradigm shifts across different research phases (e.g., from modeling code with recurrent neural networks to the era of Large Language Models). Concurrently, we highlight the major technical transitions in models, tasks, and evaluations spanning through different stages. For applications, we also observe a co-evolving shift. It spans from initial endeavors to tackling specific scenarios, through exploring a diverse array of tasks during its rapid expansion, to currently focusing on tackling increasingly complex and varied real-world challenges. Building on our examination of the developmental trajectories, we further investigate the emerging synergies between code intelligence and broader machine intelligence, uncovering new cross-domain opportunities and illustrating the substantial influence of code intelligence across various domains. Finally, we delve into both the opportunities and challenges associated with this field, alongside elucidating our insights on the most promising research directions. An ongoing, dynamically updated project and resources associated with this survey have been released at https://github.com/QiushiSun/NCISurvey.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# 時系列分析のための基礎モデル:チュートリアルと調査

Foundation Models for Time Series Analysis: A Tutorial and Survey ( http://arxiv.org/abs/2403.14735v1 )

ライセンス: Link先を確認
Yuxuan Liang, Haomin Wen, Yuqi Nie, Yushan Jiang, Ming Jin, Dongjin Song, Shirui Pan, Qingsong Wen, (参考訳) 時系列分析は、データマイニングコミュニティの焦点であり、無数の現実世界のアプリケーションにとって重要な貴重な洞察を抽出するための基盤となる。 ファンデーションモデル(FM)の最近の進歩は、時系列分析のためのモデル設計のパラダイムを根本的に変え、実際に様々な下流タスクを加速させてきた。 これらの革新的なアプローチは、あらかじめ訓練されたFMや微調整されたFMを利用して、時系列分析に特化された一般化された知識を利用することが多い。 本調査では,時系列解析のためのFMの包括的かつ最新の概要について述べる。 以前の調査は、時系列分析におけるFMのアプリケーションまたはパイプラインの側面に主に焦点を合わせてきたが、なぜFMが時系列分析の恩恵を受けるのかを解明する基盤となるメカニズムについて、深い理解が欠如していることが多い。 このギャップに対処するため,本調査では,モデルアーキテクチャ,事前学習技術,適応手法,データモダリティなど,時系列FMの様々な重要な要素を列挙したモデル中心分類を適用した。 全体として、この調査は、時系列分析に係わるFMの最新の進歩を集約し、その理論的基盤、最近の発展の歩み、将来の研究への道筋を強調させるのに役立つ。

Time series analysis stands as a focal point within the data mining community, serving as a cornerstone for extracting valuable insights crucial to a myriad of real-world applications. Recent advancements in Foundation Models (FMs) have fundamentally reshaped the paradigm of model design for time series analysis, boosting various downstream tasks in practice. These innovative approaches often leverage pre-trained or fine-tuned FMs to harness generalized knowledge tailored specifically for time series analysis. In this survey, we aim to furnish a comprehensive and up-to-date overview of FMs for time series analysis. While prior surveys have predominantly focused on either the application or the pipeline aspects of FMs in time series analysis, they have often lacked an in-depth understanding of the underlying mechanisms that elucidate why and how FMs benefit time series analysis. To address this gap, our survey adopts a model-centric classification, delineating various pivotal elements of time-series FMs, including model architectures, pre-training techniques, adaptation methods, and data modalities. Overall, this survey serves to consolidate the latest advancements in FMs pertinent to time series analysis, accentuating their theoretical underpinnings, recent strides in development, and avenues for future research exploration.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# NaNaとMiGu:グラフニューラルネットワークにおけるタンパク質の分類を促進する意味的データ拡張技術

NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks ( http://arxiv.org/abs/2403.14736v1 )

ライセンス: Link先を確認
Yi-Shan Lan, Pin-Yu Chen, Tsung-Yi Ho, (参考訳) タンパク質の分類は薬物発見に不可欠である。 現実世界のタンパク質構造は動的であり、タンパク質の性質を決定する。 しかし、ProNet(Wang et al , 2022a)のような既存の機械学習手法は、限定されたコンフォメーション特性とタンパク質側鎖の特徴のみにアクセスでき、それらの予測において、非現実的なタンパク質構造とタンパク質クラスの不正確さをもたらす。 本稿では,新規なセマンティックデータ拡張手法,新しいノード属性の強化(NaNa)および分子間相互作用と幾何学的アップグレード(MiGu)を提案し,背骨化学および側鎖生物物理情報をタンパク質分類タスクと組込み残差学習フレームワークに組み込む。 具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, タンパク質の分類作業を容易にする。 さらに,我々のセマンティック強化手法と協調埋め込み残学習フレームワークは,ECおよびFoldデータセット(Bairoch, 2000; Andreeva et al, 2007)におけるGIN(Xu et al , 2019)の性能を,それぞれ16.41%,11.33%向上させることができる。 私たちのコードはhttps://github.com/r08b46009/Code_for_MIGU_NANA/tree/mainで利用可能です。

Protein classification tasks are essential in drug discovery. Real-world protein structures are dynamic, which will determine the properties of proteins. However, the existing machine learning methods, like ProNet (Wang et al., 2022a), only access limited conformational characteristics and protein side-chain features, leading to impractical protein structure and inaccuracy of protein classes in their predictions. In this paper, we propose novel semantic data augmentation methods, Novel Augmentation of New Node Attributes (NaNa), and Molecular Interactions and Geometric Upgrading (MiGu) to incorporate backbone chemical and side-chain biophysical information into protein classification tasks and a co-embedding residual learning framework. Specifically, we leverage molecular biophysical, secondary structure, chemical bonds, and ionic features of proteins to facilitate protein classification tasks. Furthermore, our semantic augmentation methods and the co-embedding residual learning framework can improve the performance of GIN (Xu et al., 2019) on EC and Fold datasets (Bairoch, 2000; Andreeva et al., 2007) by 16.41% and 11.33% respectively. Our code is available at https://github.com/r08b46009/Code_for_MIGU_NANA/tree/main.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# FedMef: メモリ効率のFederated Dynamic Pruningを目指して

FedMef: Towards Memory-efficient Federated Dynamic Pruning ( http://arxiv.org/abs/2403.14737v1 )

ライセンス: Link先を確認
Hong Huang, Weiming Zhuang, Chen Chen, Lingjuan Lyu, (参考訳) フェデレートラーニング(FL)は、データの機密性を優先しながら、分散トレーニングを促進する。 しかしながら、リソース制約のあるデバイスへのその応用は、ディープラーニングモデルをトレーニングするための計算とメモリリソースの需要が高いため、困難である。 動的プルーニングのようなニューラルネットワークのプルーニング技術は、モデルの効率を高めることができるが、FLに直接適用することは、後処理のパフォーマンス劣化、高アクティベーションメモリ使用率など、大きな課題を生じさせる。 これらの課題に対処するために,新しい,メモリ効率の高い動的刈取フレームワークであるFedMefを提案する。 FedMefは2つの重要なコンポーネントから構成される。 まず,所定の予算内での刈り込みを行うためのパラメータから重要な情報を抽出し,刈り込み後の性能を保ちながら刈り込み効率を維持する予算対応押出しについて紹介する。 第2に,アクティベーションメモリのフットプリントを効果的に削減するために,スケールドアクティベーションプルーニングを提案する。 大規模実験により提案したFedMefの有効性が実証された。 特に、最先端の手法に比べてメモリフットプリントが28.5%大幅に削減され、精度も向上した。

Federated learning (FL) promotes decentralized training while prioritizing data confidentiality. However, its application on resource-constrained devices is challenging due to the high demand for computation and memory resources to train deep learning models. Neural network pruning techniques, such as dynamic pruning, could enhance model efficiency, but directly adopting them in FL still poses substantial challenges, including post-pruning performance degradation, high activation memory usage, etc. To address these challenges, we propose FedMef, a novel and memory-efficient federated dynamic pruning framework. FedMef comprises two key components. First, we introduce the budget-aware extrusion that maintains pruning efficiency while preserving post-pruning performance by salvaging crucial information from parameters marked for pruning within a given budget. Second, we propose scaled activation pruning to effectively reduce activation memory footprints, which is particularly beneficial for deploying FL to memory-limited devices. Extensive experiments demonstrate the effectiveness of our proposed FedMef. In particular, it achieves a significant reduction of 28.5% in memory footprint compared to state-of-the-art methods while obtaining superior accuracy.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# スマート衛星物のインターネットにおける異常検出の一課題

A task of anomaly detection for a smart satellite Internet of things system ( http://arxiv.org/abs/2403.14738v1 )

ライセンス: Link先を確認
Zilong Shao, (参考訳) 機器が動作している場合、異常検出のための環境センサデータのリアルタイム収集は、産業プロセスの事故やネットワーク攻撃を防止し、システムのセキュリティを確保するための重要なリンクの1つである。 しかし, 特定のリアルタイム要求環境下では, 環境センサの異常検出は, 1) 環境センサデータ変数間の複雑な非線形相関特性は, 効果的な表現法が欠如しており, データの分布を捉えることは困難である。 2) 複雑な機械学習モデルを用いることで, リアルタイム監視の要求を満たすことは困難であり, 設備コストが高すぎる。 (3) サンプルデータが少なすぎると、教師あり学習におけるラベル付きデータが少なくなる。 本稿では,教師なし深層学習異常検出システムを提案する。 本手法は, 環境センサ変数間の複雑な線形および非線形の依存関係を自動的に学習し, 再構成誤差と判別誤差を組み合わせた異常スコア計算手法を用いる。 リアルタイム性能の高い実センサデータの異常点を監視でき、実際の作業環境に適したインテリジェント衛星インターネット・オブ・モノシステム上で動作することができる。 異常検出は、ほとんどのケースにおいてベースライン法よりも優れており、高い解釈性を持ち、産業事故や環境センサ監視のためのサイバー攻撃を防ぐために使用できる。

When the equipment is working, real-time collection of environmental sensor data for anomaly detection is one of the key links to prevent industrial process accidents and network attacks and ensure system security. However, under the environment with specific real-time requirements, the anomaly detection for environmental sensors still faces the following difficulties: (1) The complex nonlinear correlation characteristics between environmental sensor data variables lack effective expression methods, and the distribution between the data is difficult to be captured. (2) it is difficult to ensure the real-time monitoring requirements by using complex machine learning models, and the equipment cost is too high. (3) Too little sample data leads to less labeled data in supervised learning. This paper proposes an unsupervised deep learning anomaly detection system. Based on the generative adversarial network and self-attention mechanism, considering the different feature information contained in the local subsequences, it automatically learns the complex linear and nonlinear dependencies between environmental sensor variables, and uses the anomaly score calculation method combining reconstruction error and discrimination error. It can monitor the abnormal points of real sensor data with high real-time performance and can run on the intelligent satellite Internet of things system, which is suitable for the real working environment. Anomaly detection outperforms baseline methods in most cases and has good interpretability, which can be used to prevent industrial accidents and cyber-attacks for monitoring environmental sensors.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# Galileo OSNMAが最初の認証修正に時間を要した

Improving Galileo OSNMA Time To First Authenticated Fix ( http://arxiv.org/abs/2403.14739v1 )

ライセンス: Link先を確認
Aleix Galan, Ignacio Fernandez-Hernandez, Wim De Wilde, Sofie Pollin, Gonzalo Seco-Granados, (参考訳) Galileoは、Open Service Galileo Message Authentication (OSNMA)プロトコルを通じて民間の信号を認証する世界初のグローバルナビゲーション衛星システムである。 しかし、OSNMAは、最初の位置と時間修正を得るための時間を遅らせ、いわゆる Time To First Authentication Fix (TTFAF) と呼ばれる。 TTFAFを可能な限り削減することは、現在の製品にシームレスに統合する上で非常に重要です。 受信機が暗号データを既に持っている場合、いわゆるホットスタートモードとこの記事の焦点は、現在利用可能な実装では、理想環境において平均TTFAFを100秒程度達成している。 本研究は, TTFAFプロセスの解明と, TTFAF削減のための2つの主要な最適化を提案し, 実データを用いた3つのシナリオ(オープンスキー, ソフトアーバン, ハードアーバン)でベンチマークを行った。 さらに, 公式OSNMAテストベクトルからの合成シナリオを用いた最適化の評価を行った。 最適化の最初のブロックは、ページレベルで処理し、複数の衛星からの冗長なデータを組み合わせることで、壊れたサブフレームから可能な限り多くの情報を抽出することに焦点を当てている。 最適化の第2ブロックは、認証キーと同じサブフレームに属する認証タグのフィールドを使用することで、失われたナビゲーションデータを再構築することを目的としている。 両方の最適化を組み合わせることで、TTFAFは考慮されたすべてのシナリオで大幅に改善される。 テストベクトルの平均 TTFAF は 60.9 秒,オープンスキーシナリオは 68.8 秒,ベストケースは 44.0 秒 である。 同様に、都市シナリオでは、最適化されていないケースと最適化されていないケースの間に平均TTFAFが劇的に減少し、ソフトアーバンシナリオでは127.5秒から87.5秒、ハードアーバンシナリオでは266.1秒から146.1秒となる。 これらの最適化は、GitHubのオープンソースOSNMAlibライブラリの一部として利用できる。

Galileo is the first global navigation satellite system to authenticate their civilian signals through the Open Service Galileo Message Authentication (OSNMA) protocol. However, OSNMA delays the time to obtain a first position and time fix, the so-called Time To First Authentication Fix (TTFAF). Reducing the TTFAF as much as possible is crucial to integrate the technology seamlessly into the current products. In the cases where the receiver already has cryptographic data available, the so-called hot start mode and focus of this article, the currently available implementations achieve an average TTFAF of around 100 seconds in ideal environments. In this work, we dissect the TTFAF process, propose two main optimizations to reduce the TTFAF, and benchmark them in three distinct scenarios (open-sky, soft urban, and hard urban) with recorded real data. Moreover, we evaluate the optimizations using the synthetic scenario from the official OSNMA test vectors. The first block of optimizations centers on extracting as much information as possible from broken sub-frames by processing them at page level and combining redundant data from multiple satellites. The second block of optimizations aims to reconstruct missed navigation data by using fields in the authentication tags belonging to the same sub-frame as the authentication key. Combining both optimizations improves the TTFAF substantially for all considered scenarios. We obtain an average TTFAF of 60.9 and 68.8 seconds for the test vectors and the open-sky scenario, respectively, with a best-case of 44.0 seconds in both. Likewise, the urban scenarios see a drastic reduction of the average TTFAF between the non-optimized and optimized cases, from 127.5 to 87.5 seconds in the soft urban scenario and from 266.1 to 146.1 seconds in the hard urban scenario. These optimizations are available as part of the open-source OSNMAlib library on GitHub.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# 天文学的トランジェントに対する分類器に基づくマルチクラス異常検出手法

A Classifier-Based Approach to Multi-Class Anomaly Detection for Astronomical Transients ( http://arxiv.org/abs/2403.14742v1 )

ライセンス: Link先を確認
Rithwik Gupta, Daniel Muthukrishna, Michelle Lochner, (参考訳) リアルタイム異常検出の自動化は、大規模な天文学調査の時代に稀な過渡期を識別するために不可欠である。 現代のサーベイ望遠鏡は毎晩数万のアラートを発生させており、将来の望遠鏡、例えばベラ・C・ルービン天文台は、この数を劇的に増やすことを計画している。 現在、天文学的トランジェントに対するほとんどの異常検出アルゴリズムは、光曲線から抽出された手作りの特徴か、教師なし表現学習によって生成された特徴に頼っている。 本研究では,異常検出のための潜在空間としてニューラルネットワーク分類器の最後層を用いる,異常検出のための代替手法を提案する。 次に,分類器によって与えられる潜在空間表現から光曲線の異常スコアを導出するために,クラス毎に分離林を訓練する,MCIF (Multi-class isolated Forests) という新しい手法を提案する。 このアプローチは標準的な孤立林を著しく上回ります。 また,光曲線の補間を回避し,通過帯域間の関係をニューラルネットワークモデルで表現し,不規則なサンプリング処理を行う実時間過渡分類器の簡易な入力手法を用いる。 我々の異常検出パイプラインは、Zwicky Transient Facilityの光曲線をシミュレートした直後に、クルノバエ、対不安定超新星、中間光度超新星を含む希少なクラスを同定する。 自然界で予想される異常(54件の異常と12,040件の共通トランジェント)の集団と一致したシミュレーションのサンプルを用いて,上位2000件(~15%)の異常(~75%リコール)を追尾し,411\pm3$異常(~75%リコール)を検出できた。 提案手法は, リアルタイムな異常検出のために, 分類器を効果的に再利用できることを示す。

Automating real-time anomaly detection is essential for identifying rare transients in the era of large-scale astronomical surveys. Modern survey telescopes are generating tens of thousands of alerts per night, and future telescopes, such as the Vera C. Rubin Observatory, are projected to increase this number dramatically. Currently, most anomaly detection algorithms for astronomical transients rely either on hand-crafted features extracted from light curves or on features generated through unsupervised representation learning, which are then coupled with standard machine learning anomaly detection algorithms. In this work, we introduce an alternative approach to detecting anomalies: using the penultimate layer of a neural network classifier as the latent space for anomaly detection. We then propose a novel method, named Multi-Class Isolation Forests (MCIF), which trains separate isolation forests for each class to derive an anomaly score for a light curve from the latent space representation given by the classifier. This approach significantly outperforms a standard isolation forest. We also use a simpler input method for real-time transient classifiers which circumvents the need for interpolation in light curves and helps the neural network model inter-passband relationships and handle irregular sampling. Our anomaly detection pipeline identifies rare classes including kilonovae, pair-instability supernovae, and intermediate luminosity transients shortly after trigger on simulated Zwicky Transient Facility light curves. Using a sample of our simulations that matched the population of anomalies expected in nature (54 anomalies and 12,040 common transients), our method was able to discover $41\pm3$ anomalies (~75% recall) after following up the top 2000 (~15%) ranked transients. Our novel method shows that classifiers can be effectively repurposed for real-time anomaly detection.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# VURF:ビデオ理解のための汎用推論・自己組織化フレームワーク

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding ( http://arxiv.org/abs/2403.14743v1 )

ライセンス: Link先を確認
Ahmad Mahmood, Ashmal Vayani, Muzammal Naseer, Salman Khan, Fahad Khan, (参考訳) 近年の研究では、複雑なタスクをより管理可能なサブタスクに分解可能な推論モジュールとして、特に画像の視覚的推論タスクに適用する場合に、LLM(Large Language Models)の有効性が実証されている。 これとは対照的に,LLMの推論能力に基づいたビデオ理解・推論フレームワーク(VURF)を提案する。 ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。 LLMを命令のペアとそれに対応する高レベルプログラムで提示することにより、その文脈学習能力を利用して、映像理解のための実行可能なビジュアルプログラムを生成する。 プログラムの精度と堅牢性を高めるために,我々は2つの重要な戦略を実装した。 まず,GPT-3.5を用いたフィードバック生成手法を用いて,非サポート機能を利用したプログラムの誤りの修正を行う。 第2に,LLM出力の自己改善に関する最近の研究からモチベーションを得て,初期出力を生成すべき出力に整列させることにより,インコンテキストの例の構造に縛られなければ,インコンテキストの例の質を向上させるための反復的手順を導入する。 視覚的QA, 映像予測, ポーズ推定, マルチビデオQAなど, 映像に特有なタスクについて検討した。 コードとデータは公開されます。

Recent studies have demonstrated the effectiveness of Large Language Models (LLMs) as reasoning modules that can deconstruct complex tasks into more manageable sub-tasks, particularly when applied to visual reasoning tasks for images. In contrast, this paper introduces a Video Understanding and Reasoning Framework (VURF) based on the reasoning power of LLMs. Ours is a novel approach to extend the utility of LLMs in the context of video tasks, leveraging their capacity to generalize from minimal input and output demonstrations within a contextual framework. By presenting LLMs with pairs of instructions and their corresponding high-level programs, we harness their contextual learning capabilities to generate executable visual programs for video understanding. To enhance program's accuracy and robustness, we implement two important strategies. Firstly, we employ a feedback-generation approach, powered by GPT-3.5, to rectify errors in programs utilizing unsupported functions. Secondly, taking motivation from recent works on self refinement of LLM outputs, we introduce an iterative procedure for improving the quality of the in-context examples by aligning the initial outputs to the outputs that would have been generated had the LLM not been bound by the structure of the in-context examples. Our results on several video-specific tasks, including visual QA, video anticipation, pose estimation and multi-video QA illustrate the efficacy of these enhancements in improving the performance of visual programming approaches for video tasks. Our Codes and data will be publicly released.
翻訳日:2024-03-25 21:21:55 公開日:2024-03-21
# ブートストラップ浅部回路

Bootstrapping shallow circuits ( http://arxiv.org/abs/2403.14746v1 )

ライセンス: Link先を確認
Ning Bao, Gun Suer, (参考訳) 近年,局所的な逆転を学習し,アンシラ量子ビットとSWAPゲートで縫い戻すことで,$n$-qubitsに作用するユニタリ$U$の浅い表現を学習するための多項式時間古典アルゴリズムが発見されている。 本研究では、局所反転学習(LIL)をブートストラップして量子回路深度を最適化し、サブユニットの浅い表現を学習する。 再帰的に回路を切断し,LILアルゴリズムを用いてサブ回路を浅い表現に置き換える。 もしそうでなければ、浅い表現を見つけるか、一定の深さのサブ回路に到達することによって、最適化が終了するまでカットを続けます。 サブ回路を浅い表現に置き換えることで、量子回路のいくつかの圧縮を得ることを期待している。 二分探索構造のため、最適化アルゴリズムは元の回路の深さに時間複雑性の対数を持つ。

Recently, a polynomial time classical algorithm has been found for learning the shallow representation of a unitary $U$ acting on $n$-qubits, by learning local inversions and then sewing them back together with ancilla qubits and SWAP gates. In this work, we bootstrap local inversion learning (LIL) to optimize quantum circuit depth by learning shallow representations for its sub-unitaries. We recursively cut circuits and apply the LIL algorithm to replace sub-circuits with their shallow representations, if it can be found by the algorithm. If not, we keep cutting until the optimization terminates, either by finding shallow representations or by reaching constant-depth sub-circuits. By replacing sub-circuits with their shallow representations, we hope to obtain some compression of the quantum circuit. Due to the binary search structure, the optimization algorithm has time complexity logarithmic in the depth of the original given circuit.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 基本ラグランジアンからの開系力学

Open system dynamics from fundamental Lagrangian ( http://arxiv.org/abs/2403.14752v1 )

ライセンス: Link先を確認
Anirudh Gundhi, Oliviero Angeli, Angelo Bassi, (参考訳) ラグランジアンは運動方程式を変えることなく全微分によって異なることができ、したがって同じ物理を符号化する。 これは一般に古典的にも量子的にも真である。 しかしながら、オープン量子系の文脈では、全微分によって異なる2つのラグランジアンが異なる物理予測をもたらすことが示されている。 次に、そのようなラグランジュ人を選ぶための基準について議論する。 さらに、適切なQEDラグランジアンから、相互作用において熱光子と相互作用する非相対論的電子のマスター方程式を導出する。 このケーススタディは,提案した基準にさらなる現象学的支援を与える。

Lagrangians can differ by a total derivative without altering the equations of motion, thus encoding the same physics. This is in general true both classically and quantum mechanically. We show, however, that in the context of open quantum systems, two Lagrangians that differ by a total derivative can lead to different physical predictions. We then discuss the criterion that allows one to choose between such Lagrangians. Further, starting from the appropriate QED Lagrangian, we derive the master equation for the non-relativistic electron interacting with thermal photons upto second order in the interactions. This case study lends further phenomenological support to our proposed criterion.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# SASQuaTChによる学習:カーネルに基づく自己注意型変分量子トランスアーキテクチャ

Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention ( http://arxiv.org/abs/2403.14753v1 )

ライセンス: Link先を確認
Ethan N. Evans, Matthew Cook, Zachary P. Bradshaw, Margarite L. LaBorde, (参考訳) GPT(Generative Pre-trained Transformer)によって普及した広く普及しているトランスフォーマーネットワークは、テキストや画像の予測、分類、物理システムのダイナミクスに対するソリューションの予測など、適用範囲が広い。 後者の文脈では、変圧器ネットワークの中心における自己注意機構の連続的なアナログが偏微分方程式の解の学習に応用され、フーリエ変換によって活用できる畳み込み核の性質が明らかにされている。 古典的アルゴリズムの高速化を実証した多くの量子アルゴリズムが量子フーリエ変換を利用していることはよく知られている。 本研究では,カーネルベースの演算子学習の観点から,自己認識機構を効率的に表現できる量子回路について検討する。 この観点から、単純なゲート演算と多次元量子フーリエ変換を用いて、視覚トランスネットワークの深い層を表現することができる。 本稿では,SASQuaTCh(Self-Attention Sequential Quantum Transformer Channel)と呼ばれる新しい変分量子回路の計算とパラメータの複雑さを解析し,単純化された分類問題に対するその有用性を実証する。

The widely popular transformer network popularized by the generative pre-trained transformer (GPT) has a large field of applicability, including predicting text and images, classification, and even predicting solutions to the dynamics of physical systems. In the latter context, the continuous analog of the self-attention mechanism at the heart of transformer networks has been applied to learning the solutions of partial differential equations and reveals a convolution kernel nature that can be exploited by the Fourier transform. It is well known that many quantum algorithms that have provably demonstrated a speedup over classical algorithms utilize the quantum Fourier transform. In this work, we explore quantum circuits that can efficiently express a self-attention mechanism through the perspective of kernel-based operator learning. In this perspective, we are able to represent deep layers of a vision transformer network using simple gate operations and a set of multi-dimensional quantum Fourier transforms. We analyze the computational and parameter complexity of our novel variational quantum circuit, which we call Self-Attention Sequential Quantum Transformer Channel (SASQuaTCh), and demonstrate its utility on simplified classification problems.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 部分可積分モデルにおける量子多体スカーとしての一般化スピンヘリックス状態

Generalized Spin Helix States as Quantum Many-Body Scars in Partially Integrable Models ( http://arxiv.org/abs/2403.14755v1 )

ライセンス: Link先を確認
He-Ran Wang, Dong Yuan, (参考訳) 量子多体傷は、固有状態熱化仮説に違反し、熱固有状態の海に埋め込まれる非可積分ハミルトニアンの非常に励起な固有状態である。 任意に大きい局所ヒルベルト空間次元を持つ部分可積分モデルを構築するための一般的なメカニズムを提供する。 我々は、その可積分ハミルトニアンがテンパーリー-リーブ代数の生成元から成り立つような、正確に解けるいくつかのスピン鎖に対して、設計された可積分性破れ項を導入する。 これらのモデルの非可積分部分空間において、一般化されたスピンヘリックス状態は、テンパーリー・リーブ代数の非エルミート生成子の共通零空間にあり、可積分項によって消滅する、正確な量子多体傷として特別な種類の積状態を特定する。 我々の構成は積分可能性と量子多体傷の間の興味深い関係を確立する一方で、非エルミート的プロジェクターの観点から、傷付きハミルトニアンの体系的な理解を提供する。

Quantum many-body scars are highly excited eigenstates of non-integrable Hamiltonians which violate the eigenstate thermalization hypothesis and are embedded in a sea of thermal eigenstates. We provide a general mechanism to construct partially integrable models with arbitrarily large local Hilbert space dimensions, which host exact many-body scars. We introduce designed integrability-breaking terms to several exactly solvable spin chains, whose integrable Hamiltonians are composed of the generators of the Temperley-Lieb algebra. In the non-integrable subspace of these models, we identify a special kind of product states -- the generalized spin helix states as exact quantum many-body scars, which lie in the common null space of the non-Hermitian generators of the Temperley-Lieb algebra and are annihilated by the integrability-breaking terms. Our constructions establish an intriguing connection between integrability and quantum many-body scars, meanwhile provide a systematic understanding of scarred Hamiltonians from the perspective of non-Hermitian projectors.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# スピンエンタングルメントの新物理

New physics in spin entanglement ( http://arxiv.org/abs/2403.14757v1 )

ライセンス: Link先を確認
Mateusz Duch, Alessandro Strumia, Arsenii Titov, (参考訳) 本研究では, 粒子スピンの影響を受けながら, 木レベルでのスピン懸濁散乱と崩壊速度を保存できる理論を提案する。 これはローレンツ群を非局所的に破り、例えば極大部分群 SIM(2) を解き放つなど、厳密な制約を避けようとすることで達成される。 現象学的な応用として、この新しい物理学は、最高対対のスピン(その結果、その絡み合い)を、その速度に影響を与えることなく、$pp$の衝突で変化させることができる。 修正された絡み合いを持つトップクォークを含むループによって影響を受ける観測可能ないくつかは修正を受ける。

We propose a theory that preserves spin-summed scattering and decay rates at tree level while affecting particle spins. This is achieved by breaking the Lorentz group in a non-local way that tries avoiding stringent constraints, for example leaving unbroken the maximal sub-group SIM(2). As a phenomenological application, this new physics can alter the spins of top-antitop pairs (and consequently their entanglement) produced in $pp$ collisions without impacting their rates. Some observables affected by loops involving top quarks with modified entanglement receive corrections.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 3次元視覚言語モデルは自然言語を真に理解できるか?

Can 3D Vision-Language Models Truly Understand Natural Language? ( http://arxiv.org/abs/2403.14760v1 )

ライセンス: Link先を確認
Weipeng Deng, Runyu Ding, Jihan Yang, Jiahui Liu, Yijiang Li, Xiaojuan Qi, Edith Ngai, (参考訳) 3次元視覚言語(3D-VL)タスクの急速な進歩は、人間が自然言語を使ってエンボディエージェントやロボットと対話するための新たな道を開いた。 既存の3D-VLモデルは、言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。 3Dビジョン言語モデルは、自然言語を本当に理解できますか? 3D-VLモデルの言語理解性をテストするために,まず,様々なタスクにまたがって3D-VLモデルを体系的に評価する言語頑健性タスクを提案する。 重要なことに、これらの変種は、人間の言語の多様性と予測不可能さを考慮して、人間との直接の相互作用を必要とするアプリケーションでよく見られる。 本研究では,ロバストネスの体系的な研究を容易にするために,人間の言語の特徴に基づく3次元言語ロバストネスデータセットを提案する。 包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。 最先端の3D-LLMでさえ、同じ文の変種を理解することができない。 さらに詳細な分析では、既存のモデルには、既存のデータセットの多様性が低いことから生じる、脆弱でバイアスの多い融合モジュールがあることが示唆されている。 最後に,LLMにより駆動される学習自由モジュールを提案する。 データセットとコードはgithub.comで入手できる。

Rapid advancements in 3D vision-language (3D-VL) tasks have opened up new avenues for human interaction with embodied agents or robots using natural language. Despite this progress, we find a notable limitation: existing 3D-VL models exhibit sensitivity to the styles of language input, struggling to understand sentences with the same semantic meaning but written in different variants. This observation raises a critical question: Can 3D vision-language models truly understand natural language? To test the language understandability of 3D-VL models, we first propose a language robustness task for systematically assessing 3D-VL models across various tasks, benchmarking their performance when presented with different language style variants. Importantly, these variants are commonly encountered in applications requiring direct interaction with humans, such as embodied robotics, given the diversity and unpredictability of human language. We propose a 3D Language Robustness Dataset, designed based on the characteristics of human language, to facilitate the systematic study of robustness. Our comprehensive evaluation uncovers a significant drop in the performance of all existing models across various 3D-VL tasks. Even the state-of-the-art 3D-LLM fails to understand some variants of the same sentences. Further in-depth analysis suggests that the existing models have a fragile and biased fusion module, which stems from the low diversity of the existing dataset. Finally, we propose a training-free module driven by LLM, which improves language robustness. Datasets and code will be available at github.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# カルマンフィルタと測定に基づくフィードバックによるノイズ原子磁気計測

Noisy atomic magnetometry with Kalman filtering and measurement-based feedback ( http://arxiv.org/abs/2403.14764v1 )

ライセンス: Link先を確認
Julia Amoros-Binefa, Jan Kolodynski, (参考訳) 原子磁気センサでリアルタイムに磁場を追跡することは、主にセンサの非線形性、ノイズの存在、単発推定の必要性など、重大な課題を示す。 これらの課題に対処するために、計測、推定、制御戦略を統合する包括的なアプローチを提案する。 具体的には、原子アンサンブルの連続的な光伝搬に基づく量子非破壊測定を実装することを含む。 得られた光電流は拡張カルマンフィルタに向けられ、システムの動的パラメータを瞬時に推定する。 これらの推定値は、フィードバックループを通じて出力をシステムに戻す線形擬似レギュレータによって利用される。 この手順は自動的に原子アンサンブルをスピンスクイーズ状態にし、精度の量子増強をもたらす。 さらに、提案したフィードバックにより、測定データが破棄された場合でも、原子は絡み合いを示す。 本手法が現実シナリオにおける最適戦略を構成することを証明するため,局所的および集団的デコヒーレンスの存在下で適用可能な推定誤差の究極的境界を導出し,これらが実際に達成されていることを示す。 さらに、大規模なアンサンブルに対して、EKFはリアルタイムに自己推定誤差を確実に予測するだけでなく、短時間でスピンスクイーズを正確に推定することを示した。

Tracking a magnetic field in real-time with an atomic magnetometer presents significant challenges, primarily due to sensor non-linearity, the presence of noise, and the need for one-shot estimation. To address these challenges, we propose a comprehensive approach that integrates measurement, estimation and control strategies. Specifically, this involves implementing a quantum non-demolition measurement based on continuous light-probing of the atomic ensemble. The resulting photocurrent is then directed into an Extended Kalman Filter to produce instantaneous estimates of the system's dynamical parameters. These estimates, in turn, are utilised by a Linear Quadratic Regulator, whose output is applied back to the system through a feedback loop. This procedure automatically steers the atomic ensemble into a spin-squeezed state, yielding a quantum enhancement in precision. Furthermore, thanks to the feedback proposed, the atoms exhibit entanglement even when the measurement data is discarded. To prove that our approach constitutes the optimal strategy in realistic scenarios, we derive ultimate bounds on the estimation error applicable in the presence of both local and collective decoherence, and show that these are indeed attained. Additionally, we demonstrate for large ensembles that the EKF not only reliably predicts its own estimation error in real time, but also accurately estimates spin-squeezing at short timescales.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 大規模オープン量子系における最適制御--トランモン読み出しとリセットの場合

Optimal control in large open quantum systems: the case of transmon readout and reset ( http://arxiv.org/abs/2403.14765v1 )

ライセンス: Link先を確認
Ronan Gautier, Élie Genois, Alexandre Blais, (参考訳) 本稿では, 共役状態法と逆時間バックプロパゲーションを組み合わせたフレームワークを提案する。 我々のアプローチは、リンドブラッドマスター方程式によって記述された大きな開量子系に完全に一般化された制御を施した任意のコスト関数の最適化を可能にする。 スケーラブルで、計算効率が良く、メモリフットプリントも低い。 超伝導量子ビットにおける2つの本質的に散逸する演算を、他のユニタリ演算に比べて忠実さと持続時間で遅れる2つの本質的に散逸する演算を最適化するために、本枠組みを適用した。 この結果から, 制御パルスの定式化により, 両操作の忠実度と持続時間の2倍の改善が期待できることがわかった。 我々の手法は、貯水池工学、自律型量子誤り訂正、漏れ低減ユニットなど、幅広い応用において量子制御の最適化に容易に適用できる。

We present a framework that combines the adjoint state method together with reverse-time back-propagation to solve otherwise prohibitively large open-system quantum control problems. Our approach enables the optimization of arbitrary cost functions with fully general controls applied on large open quantum systems described by a Lindblad master equation. It is scalable, computationally efficient, and has a low memory footprint. We apply this framework to optimize two inherently dissipative operations in superconducting qubits which lag behind in terms of fidelity and duration compared to other unitary operations: the dispersive readout and all-microwave reset of a transmon qubit. Our results show that, given a fixed set of system parameters, shaping the control pulses can yield 2x improvements in the fidelity and duration for both of these operations compared to standard strategies. Our approach can readily be applied to optimize quantum controls in a vast range of applications such as reservoir engineering, autonomous quantum error correction, and leakage-reduction units.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 不均一な自由フェルミオンに対する絡み合いハミルトニアン

Entanglement Hamiltonian for inhomogeneous free fermions ( http://arxiv.org/abs/2403.14766v1 )

ライセンス: Link先を確認
Riccarda Bonsignori, Viktor Eisler, (参考訳) 非均一な化学ポテンシャルの存在下での1次元自由フェルミオンの基底状態に対するハミルトニアンの絡み合いについて検討する。 特に、線形な格子と二次ポテンシャルを持つ連続系を考える。 どちらのモデルに対しても、共形体論は半無限系の有接ハミルトニアンに対してビソニャーノ・ヴィヒマン形式を予測することが示されている。 さらに、非相対論的であるにも拘わらず、この結果はハミルトニアン交絡と正確に可換である作用素の形で、我々のモデルによって継承される。 適切な再スケーリングを行った後、エンタングルメントスペクトルの優れた近似も得られ、これは捕獲されたフェルミガスの大部分に漸近的に正確に現れる。 しかし、勾配鎖の場合、コンフォメーション結果は適切な連続極限を取るとのみ回復する。

We study the entanglement Hamiltonian for the ground state of one-dimensional free fermions in the presence of an inhomogeneous chemical potential. In particular, we consider a lattice with a linear, as well as a continuum system with a quadratic potential. It is shown that, for both models, conformal field theory predicts a Bisognano-Wichmann form for the entangement Hamiltonian of a half-infinite system. Furthermore, despite being nonrelativistic, this result is inherited by our models in the form of operators that commute exactly with the entanglement Hamiltonian. After appropriate rescaling, they also yield an excellent approximation of the entanglement spectra, which becomes asymptotically exact in the bulk of the trapped Fermi gas. For the gradient chain, however, the conformal result is recovered only after taking a proper continuum limit.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# スパース符号化アーキテクチャによるモデル反転攻撃に対するロバスト性の改善

Improving Robustness to Model Inversion Attacks via Sparse Coding Architectures ( http://arxiv.org/abs/2403.14772v1 )

ライセンス: Link先を確認
Sayanton V. Dibbo, Adam Breuer, Juston Moore, Michael Teti, (参考訳) 最近のモデル反転攻撃アルゴリズムでは、ニューラルネットワークのプライベートトレーニングデータを繰り返しクエリして出力を検査するだけで、敵が再構築することができる。 本研究では,この攻撃に対してより優れたロバスト性を得るために,スパース符号化層を利用した新しいネットワークアーキテクチャを開発する。 30年にわたるコンピュータサイエンス研究は、画像の認識、オブジェクト認識、および敵対的誤分類設定という文脈でスパースコーディングを研究してきたが、私たちの知る限りでは、最先端のプライバシー脆弱性への関連性はまだ研究されていない。 しかし、スパース符号化アーキテクチャは、トレーニング中に効率的に計算でき、分類精度にほとんど影響を与えない方法で、ネットワークの中間表現に符号化された無関係なプライベート情報の量を制御できるので、モデル反転攻撃に対して防御する有利な手段を示唆している。 具体的には、さまざまな最先端防衛で訓練されたネットワークと比較して、スパースコーディングアーキテクチャは、様々な再構築品質指標(PSNR、SSIM、FID)で1.1~18.3の要因で、最先端のトレーニングデータ再構成を劣化させながら、同等またはそれ以上の分類精度を維持している。 このパフォーマンス上のアドバンテージは、CelebAの顔から医療画像、CIFAR-10まで、5つのデータセットにまたがる。 我々はクラスタ対応のPyTorchコードベースを提供し、研究を促進し、防衛評価を標準化する。

Recent model inversion attack algorithms permit adversaries to reconstruct a neural network's private training data just by repeatedly querying the network and inspecting its outputs. In this work, we develop a novel network architecture that leverages sparse-coding layers to obtain superior robustness to this class of attacks. Three decades of computer science research has studied sparse coding in the context of image denoising, object recognition, and adversarial misclassification settings, but to the best of our knowledge, its connection to state-of-the-art privacy vulnerabilities remains unstudied. However, sparse coding architectures suggest an advantageous means to defend against model inversion attacks because they allow us to control the amount of irrelevant private information encoded in a network's intermediate representations in a manner that can be computed efficiently during training and that is known to have little effect on classification accuracy. Specifically, compared to networks trained with a variety of state-of-the-art defenses, our sparse-coding architectures maintain comparable or higher classification accuracy while degrading state-of-the-art training data reconstructions by factors of 1.1 to 18.3 across a variety of reconstruction quality metrics (PSNR, SSIM, FID). This performance advantage holds across 5 datasets ranging from CelebA faces to medical images and CIFAR-10, and across various state-of-the-art SGD-based and GAN-based inversion attacks, including Plug-&-Play attacks. We provide a cluster-ready PyTorch codebase to promote research and standardize defense evaluations.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# StreamingT2V: テキストからの一貫性、動的、拡張可能なロングビデオ生成

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text ( http://arxiv.org/abs/2403.14773v1 )

ライセンス: Link先を確認
Roberto Henschel, Levon Khachatryan, Daniil Hayrapetyan, Hayk Poghosyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi, (参考訳) テキストからビデオへの拡散モデルにより、テキストの指示に従う高品質なビデオを生成することができ、多種多様な個別のコンテンツを簡単に作成できる。 しかし、既存のアプローチは主に高品質のショートビデオ生成(典型的には16フレームか24フレーム)に重点を置いており、長いビデオ合成の場合に鼻で拡張するとハードカットとなる。 この制限を克服するために,80,240,600,1200以上のフレームをスムーズな遷移で生成する,自動回帰方式のStreamingT2Vを導入する。 主な構成要素は次のとおりである。 (i)コンディショナルアテンションモジュール(CAM)と呼ばれる短期記憶ブロックで、注意機構を介して前のチャンクから抽出した特徴の現在の生成を条件付けし、一貫したチャンク遷移を引き起こす。 二 外観保存モジュールという長期記憶ブロックであって、第1のビデオチャンクから高レベルなシーンやオブジェクトの特徴を抽出して、モデルが初期シーンを忘れないようにすること。 三 チャンク間の矛盾なく無限長ビデオに自動回帰的にビデオエンハンサーを適用することを可能とするランダム化ブレンディング手法。 実験により、StreamingT2Vは高い運動量を生成することが示された。 対照的に、競合する画像とビデオの手法は、自己回帰的に適用する場合、ビデオの停滞がちである。 そこで我々はStreamingT2Vを提案する。これは高品質なテキスト・ツー・ロングビデオ・ジェネレータで、コンペティタを一貫性と動作で上回っている。 私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2Vで利用可能になります。

Text-to-video diffusion models enable the generation of high-quality videos that follow text instructions, making it easy to create diverse and individual content. However, existing approaches mostly focus on high-quality short video generation (typically 16 or 24 frames), ending up with hard-cuts when naively extended to the case of long video synthesis. To overcome these limitations, we introduce StreamingT2V, an autoregressive approach for long video generation of 80, 240, 600, 1200 or more frames with smooth transitions. The key components are:(i) a short-term memory block called conditional attention module (CAM), which conditions the current generation on the features extracted from the previous chunk via an attentional mechanism, leading to consistent chunk transitions, (ii) a long-term memory block called appearance preservation module, which extracts high-level scene and object features from the first video chunk to prevent the model from forgetting the initial scene, and (iii) a randomized blending approach that enables to apply a video enhancer autoregressively for infinitely long videos without inconsistencies between chunks. Experiments show that StreamingT2V generates high motion amount. In contrast, all competing image-to-video methods are prone to video stagnation when applied naively in an autoregressive manner. Thus, we propose with StreamingT2V a high-quality seamless text-to-long video generator that outperforms competitors with consistency and motion. Our code will be available at: https://github.com/Picsart-AI-Research/StreamingT2V
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# ビジョン・ランゲージモデルに基づく少数のショット対向的プロンプト学習

Few-Shot Adversarial Prompt Learning on Vision-Language Models ( http://arxiv.org/abs/2403.14774v1 )

ライセンス: Link先を確認
Yiwei Zhou, Xiaobo Xia, Zhiwei Lin, Bo Han, Tongliang Liu, (参考訳) 知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。 視覚言語基盤モデルの成功に触発されて、それまでの努力は、相手の視覚的特徴とテキストの監督とを合わせることで、ゼロショットの敵の堅牢性を達成した。 しかし、実際には、重い適応コスト、最適テキスト監督、制御されていない自然一般化能力など、いくつかの問題のために、まだ満足できない。 本稿では、これらの問題に対処するために、限られたデータで入力シーケンスを適応させることで、対角性を大幅に向上させる、数ショットの対角プロンプトフレームワークを提案する。 具体的には、敵対的な例から学習したエンドツーエンドのテキスト管理を逆相関で提供することで、これを実現する。 また,マルチモーダルな特徴の整合性を高めつつ,自然な例と逆例を区別した単モーダルな特徴を奨励する新たな学習目標を提案する。 提案するフレームワークは, 学習用対角テキストの監視を行うことができ, クロスモーダルな対角アライメントを提供し, 最先端のゼロショット対角ロバスト性と1%のトレーニングデータとを一致させる。

The vulnerability of deep neural networks to imperceptible adversarial perturbations has attracted widespread attention. Inspired by the success of vision-language foundation models, previous efforts achieved zero-shot adversarial robustness by aligning adversarial visual features with text supervision. However, in practice, they are still unsatisfactory due to several issues, including heavy adaptation cost, suboptimal text supervision, and uncontrolled natural generalization capacity. In this paper, to address these issues, we propose a few-shot adversarial prompt framework where adapting input sequences with limited data makes significant adversarial robustness improvement. Specifically, we achieve this by providing adversarially correlated text supervision that is end-to-end learned from adversarial examples. We also propose a novel training objective that enhances the consistency of multi-modal features while encourages differentiated uni-modal features between natural and adversarial examples. The proposed framework gives access to learn adversarial text supervision, which provides superior cross-modal adversarial alignment and matches state-of-the-art zero-shot adversarial robustness with only 1% training data.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 拡散攻撃:自然主義的画像攻撃のための安定拡散の活用

Diffusion Attack: Leveraging Stable Diffusion for Naturalistic Image Attacking ( http://arxiv.org/abs/2403.14778v1 )

ライセンス: Link先を確認
Qianyu Guo, Jiaming Fu, Yawen Lu, Dongming Gan, (参考訳) VR(Virtual Reality)では、敵の攻撃は依然として重大なセキュリティ上の脅威である。 身体的およびデジタル的敵攻撃の深層学習に基づくほとんどの手法は、人間の観察者が識別し易い大きな印刷可能な歪みを含む敵の例を作成することによって、攻撃性能を向上させることに焦点を当てている。 しかし、攻撃者は生成した攻撃画像の自然さと快適さに制限を課すことは滅多になく、顕著で不自然な攻撃をもたらす。 この課題に対処するため,我々は,より優れた攻撃能力を維持しつつ,最小限の検知性と最大限の自然外観を示す自然スタイルの逆入力にスタイル転送を組み込む枠組みを提案する。

In Virtual Reality (VR), adversarial attack remains a significant security threat. Most deep learning-based methods for physical and digital adversarial attacks focus on enhancing attack performance by crafting adversarial examples that contain large printable distortions that are easy for human observers to identify. However, attackers rarely impose limitations on the naturalness and comfort of the appearance of the generated attack image, resulting in a noticeable and unnatural attack. To address this challenge, we propose a framework to incorporate style transfer to craft adversarial inputs of natural styles that exhibit minimal detectability and maximum natural appearance, while maintaining superior attack capabilities.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# シャン:3次元パラメトリック誘導による制御可能で一貫性のある人間の画像アニメーション

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance ( http://arxiv.org/abs/2403.14781v1 )

ライセンス: Link先を確認
Shenhao Zhu, Junming Leo Chen, Zuozhuo Dai, Yinghui Xu, Xun Cao, Yao Yao, Hao Zhu, Siyu Zhu, (参考訳) 本研究では,3次元人間のパラメトリックモデルを潜伏拡散フレームワーク内で活用し,カーレントヒト生成技術における形状アライメントと動き誘導を強化することにより,人間の画像アニメーションの方法論を提案する。 この手法は、SMPL(Skinned Multi-Person Linear)モデルを3次元人間のパラメトリックモデルとして利用し、身体形状とポーズの統一表現を確立する。 これにより、ソースビデオから複雑な人間の幾何学的特徴と運動特性を正確に捉えることができる。 具体的には,SMPL配列から得られた描画深度画像,正規マップ,意味マップを骨格に基づく動作誘導とともに組み込んで,包括的3次元形状と詳細なポーズ特性を持つ潜伏拡散モデルへの条件を充実させる。 自己アテンション機構を統合した多層移動融合モジュールを用いて空間領域における形状と動き潜伏表現を融合する。 人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。 ベンチマークデータセットで実施された実験的評価は、ポーズと形状のバリエーションを正確にキャプチャする高品質な人間のアニメーションを生成する方法の優れた能力を示している。 さらに,本手法は,提案した野生データセットに対して優れた一般化能力を示す。 プロジェクトページ: https://fudan-generative-vision.github.io/champ.com

In this study, we introduce a methodology for human image animation by leveraging a 3D human parametric model within a latent diffusion framework to enhance shape alignment and motion guidance in curernt human generative techniques. The methodology utilizes the SMPL(Skinned Multi-Person Linear) model as the 3D human parametric model to establish a unified representation of body shape and pose. This facilitates the accurate capture of intricate human geometry and motion characteristics from source videos. Specifically, we incorporate rendered depth images, normal maps, and semantic maps obtained from SMPL sequences, alongside skeleton-based motion guidance, to enrich the conditions to the latent diffusion model with comprehensive 3D shape and detailed pose attributes. A multi-layer motion fusion module, integrating self-attention mechanisms, is employed to fuse the shape and motion latent representations in the spatial domain. By representing the 3D human parametric model as the motion guidance, we can perform parametric shape alignment of the human body between the reference image and the source video motion. Experimental evaluations conducted on benchmark datasets demonstrate the methodology's superior ability to generate high-quality human animations that accurately capture both pose and shape variations. Furthermore, our approach also exhibits superior generalization capabilities on the proposed wild dataset. Project page: https://fudan-generative-vision.github.io/champ.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# Multi-Agent VQA:Zero-Shot Visual Question AnsweringにおけるMulti-Agent Foundation Modelの探索

Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering ( http://arxiv.org/abs/2403.14783v1 )

ライセンス: Link先を確認
Bowen Jiang, Zhijun Zhuang, Shreyas S. Shivakumar, Dan Roth, Camillo J. Taylor, (参考訳) 本稿では,Visual Question Answering (VQA)タスクにおける基礎モデルのゼロショット機能について検討する。 本稿では,多エージェントVQA(Multi-Agent VQA)と呼ばれる適応型マルチエージェントシステムを提案する。 既存のアプローチとは異なり、本研究では、特定のVQAデータセットを微調整することなく、システムのパフォーマンスに重点を置いているため、オープンな世界ではより実用的で堅牢である。 ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。

This work explores the zero-shot capabilities of foundation models in Visual Question Answering (VQA) tasks. We propose an adaptive multi-agent system, named Multi-Agent VQA, to overcome the limitations of foundation models in object detection and counting by using specialized agents as tools. Unlike existing approaches, our study focuses on the system's performance without fine-tuning it on specific VQA datasets, making it more practical and robust in the open world. We present preliminary experimental results under zero-shot scenarios and highlight some failure cases, offering new directions for future research.
翻訳日:2024-03-25 19:26:17 公開日:2024-03-21
# 信頼できないデバイスによる共同測定性と量子通信

Joint-measurability and quantum communication with untrusted devices ( http://arxiv.org/abs/2403.14785v1 )

ライセンス: Link先を確認
Michele Masini, Marie Ioannou, Nicolas Brunner, Stefano Pironio, Pavel Sekatski, (参考訳) 光子損失は、デバイス非依存(DI)やセミDIアプローチなど、信頼できないデバイスで量子通信プロトコルを実装する上で大きな課題である。 臨界損失閾値の決定は通常ケース・バイ・ケース・スタディで行われる。 本研究では,信頼できない測定装置を用いた幅広いシナリオやプロトコルにおいて,許容レベルの損失とノイズを特徴付けるための一般的なフレームワークを開発する。 特に、セミDIアプローチのための準備・測定プロトコルや、DIプロトコルのためのベル試験に適用できる一般的な境界について述べる。 我々の研究における重要なステップは、信頼できない測定装置による量子プロトコルと、量子情報の通信と測定の基本的な側面を捉えたチャネル拡張性と結合可測性の基本概念との一般的な接続を確立することである。 特に、量子暗号の中で自然に発生する部分的な関節測定可能性の概念を導入することに繋がる。

Photon loss represents a major challenge for the implementation of quantum communication protocols with untrusted devices, e.g. in the device-independent (DI) or semi-DI approaches. Determining critical loss thresholds is usually done in case-by-case studies. In the present work, we develop a general framework for characterizing the admissible levels of loss and noise in a wide range of scenarios and protocols with untrusted measurement devices. In particular, we present general bounds that apply to prepare-and-measure protocols for the semi-DI approach, as well as to Bell tests for DI protocols. A key step in our work is to establish a general connection between quantum protocols with untrusted measurement devices and the fundamental notions of channel extendibility and joint-measurability, which capture essential aspects of the communication and measurement of quantum information. In particular, this leads us to introduce the notion of partial joint-measurability, which naturally arises within quantum cryptography.
翻訳日:2024-03-25 19:16:33 公開日:2024-03-21
# 収穫検知器におけるDCT統計の活用について

On the exploitation of DCT statistics for cropping detectors ( http://arxiv.org/abs/2403.14789v1 )

ライセンス: Link先を確認
Claudio Vittorio Ragaglia, Francesco Guarnera, Sebastiano Battiato, (参考訳) 離散コサイン変換(DCT)から派生した周波数成分の研究は画像解析に広く用いられている。 近年、画像のライフサイクルについて重要な情報が外挿できることが観察されているが、画像間の分析と画像のソース解像度についての研究は行われていない。 本研究では,DCT統計を用いた画像分解能分類器について,画像の本来の分解能を検出する目的で検討した。 画像全体の機械学習(ML)分類器(トリミングではない)をトレーニングすると、生成されたモデルは、この情報を利用してトリミングを検出することができる。 その結果, 収穫画像と収穫画像の区別における分類器の信頼性が示され, 元の分解能の信頼性が評価された。 この進歩は、画像操作を検出し、定性的画像評価を強化する新しいツールを提供することにより、デジタルセキュリティ、認証検証、視覚的品質分析を含む画像処理アプリケーションに重大な影響を与える。 この研究は、複数の領域にわたる画像解析と使用法を変換する可能性を持つ、この分野における新しい視点を開放する。 ※

{The study of frequency components derived from Discrete Cosine Transform (DCT) has been widely used in image analysis. In recent years it has been observed that significant information can be extrapolated from them about the lifecycle of the image, but no study has focused on the analysis between them and the source resolution of the image. In this work, we investigated a novel image resolution classifier that employs DCT statistics with the goal to detect the original resolution of images; in particular the insight was exploited to address the challenge of identifying cropped images. Training a Machine Learning (ML) classifier on entire images (not cropped), the generated model can leverage this information to detect cropping. The results demonstrate the classifier's reliability in distinguishing between cropped and not cropped images, providing a dependable estimation of their original resolution. This advancement has significant implications for image processing applications, including digital security, authenticity verification, and visual quality analysis, by offering a new tool for detecting image manipulations and enhancing qualitative image assessment. This work opens new perspectives in the field, with potential to transform image analysis and usage across multiple domains.}
翻訳日:2024-03-25 19:16:33 公開日:2024-03-21
# 属性保存画像匿名化のための潜時拡散モデル

Latent Diffusion Models for Attribute-Preserving Image Anonymization ( http://arxiv.org/abs/2403.14790v1 )

ライセンス: Link先を確認
Luca Piano, Pietro Basci, Fabrizio Lamberti, Lia Morra, (参考訳) 画像匿名化のための生成技術は、高データの忠実さと有用性を達成しつつ、画像に描かれた人々のプライバシを保護するデータセットを生成する大きな可能性を秘めている。 既存の方法は顔の特徴の保存に大きく焦点を合わせてきたが、そのシーンと背景を匿名化プロセスに考慮するより包括的な視点は受け入れられなかった。 本稿では,Latent Diffusion Models (LDMs) に基づく画像匿名化への最初のアプローチについて述べる。 シーンの各要素は同じ意味を伝えるために維持されるが、再識別を困難にする方法で操作される。 この目的のために、CAMOUFLaGE-Baseは、事前訓練された制御ネットと、実際の画像と匿名画像との距離を増大させるように設計された新しい制御機構を組み合わせた2つのLCMを提案する。 CAMOFULaGE-LightはAdapterの技術に基づいており、シーン内の異なる人の属性を効率的に表現するためのエンコーディングと組み合わせている。 前者のソリューションは、ほとんどのメトリクスとベンチマークで優れたパフォーマンスを実現し、後者は、軽量モジュールを微調整するコストで推論時間を半分に削減します。 提案手法は,画像のオリジナルコンテンツを保存し,現在の解決に失敗した未解決課題に対処しつつ,アイデンティティの難読化に関する最先端技術と競合することを示す。

Generative techniques for image anonymization have great potential to generate datasets that protect the privacy of those depicted in the images, while achieving high data fidelity and utility. Existing methods have focused extensively on preserving facial attributes, but failed to embrace a more comprehensive perspective that considers the scene and background into the anonymization process. This paper presents, to the best of our knowledge, the first approach to image anonymization based on Latent Diffusion Models (LDMs). Every element of a scene is maintained to convey the same meaning, yet manipulated in a way that makes re-identification difficult. We propose two LDMs for this purpose: CAMOUFLaGE-Base exploits a combination of pre-trained ControlNets, and a new controlling mechanism designed to increase the distance between the real and anonymized images. CAMOFULaGE-Light is based on the Adapter technique, coupled with an encoding designed to efficiently represent the attributes of different persons in a scene. The former solution achieves superior performance on most metrics and benchmarks, while the latter cuts the inference time in half at the cost of fine-tuning a lightweight module. We show through extensive experimental comparison that the proposed method is competitive with the state-of-the-art concerning identity obfuscation whilst better preserving the original content of the image and tackling unresolved challenges that current solutions fail to address.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# Particip-AI: 将来のAIユースケース、ハーム、利益を予測するための民主党調査フレームワーク

Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits ( http://arxiv.org/abs/2403.14791v1 )

ライセンス: Link先を確認
Jimin Mun, Liwei Jiang, Jenny Liang, Inyoung Cheong, Nicole DeCario, Yejin Choi, Tadayoshi Kohno, Maarten Sap, (参考訳) ChatGPTのような汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を減らしたようだ。 しかし、AIのガバナンスと開発は依然として少数の人の手に委ねられており、開発ペースはリスクの適切な評価なしに加速している。 AIの民主的ガバナンスとリスクアセスメントへの第一歩として、現在および将来のAIユースケースと、非専門家からの損害と利益を収集するフレームワークであるParticip-AIを紹介します。 我々のフレームワークは、ユースケースの収集、代替シナリオ(ユースケースの開発と開発)によるリスクアセスメントによる多様な害の顕在化、そしてその開発を決定づけることによるAI開発に対する緊張感の顕在化を通じて、AIに関するよりニュアンスで詳細な世論の研究を可能にします。 民主的なAIを導くためのフレームワークの約束を示すために、295人の人口統計学的に多様な参加者からの回答を集めます。 参加者の回答は、現在のAI開発のビジネス焦点とは対照的に、個人生活や社会への応用を強調している。 これは、専門家の評価を補完する様々な害が直面する価値を示している。 さらに,AI利用事例が開発されるべきかどうかの参加者の判断を予測し,技術問題解決に対する一般ユーザの懸念を浮き彫りにした。 私たちは、Particip-AIのようなフレームワークが、民主的なAIガバナンスと規制をさらにガイドする方法についての議論で締めくくります。

General purpose AI, such as ChatGPT, seems to have lowered the barriers for the public to use AI and harness its power. However, the governance and development of AI still remain in the hands of a few, and the pace of development is accelerating without proper assessment of risks. As a first step towards democratic governance and risk assessment of AI, we introduce Particip-AI, a framework to gather current and future AI use cases and their harms and benefits from non-expert public. Our framework allows us to study more nuanced and detailed public opinions on AI through collecting use cases, surfacing diverse harms through risk assessment under alternate scenarios (i.e., developing and not developing a use case), and illuminating tensions over AI development through making a concluding choice on its development. To showcase the promise of our framework towards guiding democratic AI, we gather responses from 295 demographically diverse participants. We find that participants' responses emphasize applications for personal life and society, contrasting with most current AI development's business focus. This shows the value of surfacing diverse harms that are complementary to expert assessments. Furthermore, we found that perceived impact of not developing use cases predicted participants' judgements of whether AI use cases should be developed, and highlighted lay users' concerns of techno-solutionism. We conclude with a discussion on how frameworks like Particip-AI can further guide democratic AI governance and regulation.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 時計のひねりにかかわる計画と行動

Planning and Acting While the Clock Ticks ( http://arxiv.org/abs/2403.14796v1 )

ライセンス: Link先を確認
Andrew Coles, Erez Karpas, Andrey Lavrinenko, Wheeler Ruml, Solomon Eyal Shimony, Shahaf Shperberg, (参考訳) 標準的な時間計画では、プランニングはオフラインで行われ、実行は0時に始まると仮定する。 近年,計画開始時刻0から開始し,計画終了後の実行が可能な時間計画が導入された。 仮設の時間計画は、計画中に時間が経過するより現実的なシナリオを反映している。 しかし、場所の時間的計画では、完全な計画が実行前に作成されなければならない。 時間的プレッシャーのある問題では、最初のアクションを実行する前に、タイミングが厳しすぎて計画が完了できない。 例えば、トラックが車に向かっている自動運転車は、おそらく今から出て行き、あとで目的地に着く計画を立てるべきだろう。 本稿では,計画終了前に行動の発送(実行)が可能な並列計画と実行という,新たな問題設定を提案する。 計画と実行に関する以前の作業とは異なり、完全な計画が見つかる前にディスパッチアクションをサポートする一方で、アクションの適用性と目標達成に影響を及ぼす壁時計の期限を処理する必要があります。 我々は、新しい設定のためのアルゴリズムを開発するために、時間的位置計画のためのメタレゾン化に関する以前の研究を拡張した。 我々の経験的評価は、強い時間的プレッシャーがある場合、我々のアプローチは時間的計画よりも優れていることを示している。

Standard temporal planning assumes that planning takes place offline and then execution starts at time 0. Recently, situated temporal planning was introduced, where planning starts at time 0 and execution occurs after planning terminates. Situated temporal planning reflects a more realistic scenario where time passes during planning. However, in situated temporal planning a complete plan must be generated before any action is executed. In some problems with time pressure, timing is too tight to complete planning before the first action must be executed. For example, an autonomous car that has a truck backing towards it should probably move out of the way now and plan how to get to its destination later. In this paper, we propose a new problem setting: concurrent planning and execution, in which actions can be dispatched (executed) before planning terminates. Unlike previous work on planning and execution, we must handle wall clock deadlines that affect action applicability and goal achievement (as in situated planning) while also supporting dispatching actions before a complete plan has been found. We extend previous work on metareasoning for situated temporal planning to develop an algorithm for this new setting. Our empirical evaluation shows that when there is strong time pressure, our approach outperforms situated temporal planning.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 連続検出における記憶ネットワークによる破滅的偽造防止

Preventing Catastrophic Forgetting through Memory Networks in Continuous Detection ( http://arxiv.org/abs/2403.14797v1 )

ライセンス: Link先を確認
Gaurav Bhatt, James Ross, Leonid Sigal, (参考訳) 現代の事前訓練されたアーキテクチャは、新しいタスクを継続的に微調整しながら、以前の情報を維持するのに苦労している。 連続的な分類の顕著な進歩にもかかわらず、検出やセグメンテーションのような複雑な視覚タスク用に設計されたシステムは、良好な性能を達成するのに苦戦している。 本研究では,メモリベースの検出トランスフォーマアーキテクチャを導入し,事前学習したDETR型検出器を新しいタスクに適用し,従来のタスクからの知識を保存した。 本稿では,メモリ単位からの効率的な情報検索のための新しい局所化クエリ関数を提案する。 さらに、バックグラウンドレグレゲーションと呼ばれる連続検出における根本的な課題を同定する。 これは、過去のタスクからのオブジェクトカテゴリが、ラベルなしで、潜在的に将来のタスクで再び現れて、暗黙的にバックグラウンドとして扱われるときに発生する。 これは連続検出やセグメンテーションでは避けられない問題である。 連続最適化技術の導入は、この課題に効果的に取り組む。 最後に,提案システムの性能を連続検出ベンチマークで評価し,提案手法が既存の最先端技術よりも優れていることを示し,MS-COCOとPASCAL-VOCを連続検出タスクで5-7%改善した。

Modern pre-trained architectures struggle to retain previous information while undergoing continuous fine-tuning on new tasks. Despite notable progress in continual classification, systems designed for complex vision tasks such as detection or segmentation still struggle to attain satisfactory performance. In this work, we introduce a memory-based detection transformer architecture to adapt a pre-trained DETR-style detector to new tasks while preserving knowledge from previous tasks. We propose a novel localized query function for efficient information retrieval from memory units, aiming to minimize forgetting. Furthermore, we identify a fundamental challenge in continual detection referred to as background relegation. This arises when object categories from earlier tasks reappear in future tasks, potentially without labels, leading them to be implicitly treated as background. This is an inevitable issue in continual detection or segmentation. The introduced continual optimization technique effectively tackles this challenge. Finally, we assess the performance of our proposed system on continual detection benchmarks and demonstrate that our approach surpasses the performance of existing state-of-the-art resulting in 5-7% improvements on MS-COCO and PASCAL-VOC on the task of continual detection.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# Deep Active Learning: 現実的なチェック

Deep Active Learning: A Reality Check ( http://arxiv.org/abs/2403.14800v1 )

ライセンス: Link先を確認
Edrina Gashi, Jiankang Deng, Ismail Elezi, (参考訳) 我々は最先端の深層学習手法の総合的な評価を行う。 驚くべきことに、一般的な設定下では、単一モデル法はエントロピーに基づくアクティブラーニングを決定的に上回り、ランダムサンプリングに不足するものもある。 予算の開始、予算のステップ、プレトレーニングの影響など、見落とされがちな側面を掘り下げ、優れた結果を達成する上での彼らの重要性を明らかにします。 さらに,評価を他のタスクに拡張し,半教師付き学習とオブジェクト検出を組み合わせた能動的学習の有効性を探究する。 本実験は,今後のアクティブラーニング研究に有用な洞察と具体的な勧告を提供する。 現在の手法の限界を明らかにし、異なる実験環境の影響を理解することで、アノテーション予算の制限のある現実シナリオにおけるディープラーニングモデルのより効率的なトレーニングを刺激することを目指している。 この研究は、深層学習におけるアクティブラーニングの有効性の向上に寄与し、アクティブラーニングをタスクに適用する際、研究者にインフォームド・ディベロップメントを行う権限を与える。

We conduct a comprehensive evaluation of state-of-the-art deep active learning methods. Surprisingly, under general settings, no single-model method decisively outperforms entropy-based active learning, and some even fall short of random sampling. We delve into overlooked aspects like starting budget, budget step, and pretraining's impact, revealing their significance in achieving superior results. Additionally, we extend our evaluation to other tasks, exploring the active learning effectiveness in combination with semi-supervised learning, and object detection. Our experiments provide valuable insights and concrete recommendations for future active learning studies. By uncovering the limitations of current methods and understanding the impact of different experimental settings, we aim to inspire more efficient training of deep learning models in real-world scenarios with limited annotation budgets. This work contributes to advancing active learning's efficacy in deep learning and empowers researchers to make informed decisions when applying active learning to their tasks.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 量子回路における排他的マルコフダイナミクス

Exact Markovian Dynamics in Quantum Circuits ( http://arxiv.org/abs/2403.14807v1 )

ライセンス: Link先を確認
He-Ran Wang, Xiao-Yang Yang, Zhong Wang, (参考訳) 量子多体系における非平衡力学を特徴づけることは物理学の挑戦的なフロンティアである。 本研究では,マルコフ部分系力学を正確に表現する可解可積分量子回路を体系的に構築する。 これにより、任意の進化時間で局所観測可能量を正確に計算することができる。 影響行列法を用いて, 時間進化した大局系が有限サブシステムに与える影響を, サブシステム境界に作用する逐次的, 時間局所量子チャネルによって解析的に説明できることを示す。 正確なマルコフ特性の実現は、量子回路の基底となる2つのサイトゲート上の可解条件によって促進される。 さらに、我々のアプローチを実証するために、局所ヒルベルト空間次元の異なるいくつかの具体例を示す。

Characterizing non-equilibrium dynamics in quantum many-body systems is a challenging frontier of physics. In this work, we systematically construct solvable non-integrable quantum circuits that exhibit exact Markovian subsystem dynamics. This feature thus enables accurately calculating local observables for arbitrary evolution time. Utilizing the influence matrix method, we show that the effect of the time-evolved global system on a finite subsystem can be analytically described by sequential, time-local quantum channels acting on the subsystem boundary. The realization of exact Markovian property is facilitated by a solvable condition on the underlying two-site gates in the quantum circuit. We further present several concrete examples with varying local Hilbert space dimensions to demonstrate our approach.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 音声対話における実用的類似性判断の収集

A Collection of Pragmatic-Similarity Judgments over Spoken Dialog Utterances ( http://arxiv.org/abs/2403.14808v1 )

ライセンス: Link先を確認
Nigel G. Ward, Divette Marco, (参考訳) 発話間の類似度の自動測定は、音声合成器の訓練、機械翻訳の評価、学習者生成の評価に有用である。 意味的類似性や韻律的類似性に関する尺度は存在するが、実用的類似性については未だ存在しない。 このような対策の訓練を可能にするために,発話対の実用的類似性の人的判断の最初のコレクションを開発した。 各ペアは、記録されたダイアログから抽出された発話と、その発話の再現からなる。 再現は様々な条件の下で行われ、様々な類似性を生み出した。 各ペアは6から9人の審査員によって連続的に評価された。 ジャッジ間の平均相関は英語が0.72、スペイン語が0.66であった。 このデータはhttps://github.com/divettemarco/PragSimで公開しています。

Automatic measures of similarity between utterances are invaluable for training speech synthesizers, evaluating machine translation, and assessing learner productions. While there exist measures for semantic similarity and prosodic similarity, there are as yet none for pragmatic similarity. To enable the training of such measures, we developed the first collection of human judgments of pragmatic similarity between utterance pairs. Each pair consisting of an utterance extracted from a recorded dialog and a re-enactment of that utterance. Re-enactments were done under various conditions designed to create a variety of degrees of similarity. Each pair was rated on a continuous scale by 6 to 9 judges. The average inter-judge correlation was as high as 0.72 for English and 0.66 for Spanish. We make this data available at https://github.com/divettemarco/PragSim .
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 核融合型量子コンピューティングアーキテクチャにおける光損失閾値の解析

Analysis of optical loss thresholds in the fusion-based quantum computing architecture ( http://arxiv.org/abs/2403.14811v1 )

ライセンス: Link先を確認
Aleksandr Melkozerov, Ashot Avanesov, Ivan Dyakonov, Stanislav Straupe, (参考訳) ベル状態測定(BSM)は、量子情報や量子コンピューティング、特に融合ベースの量子コンピューティング(FBQC)において重要な役割を果たす。 FBQCモデルは、小さな絡み合ったリソース状態の量子ビット上で、核融合と呼ばれるエンタングリング測定を行うことができるような、普遍的な量子コンピューティングのためのフレームワークである。 ここでは、FBQCスキームにおける融合として異なる線形光学BSM回路を用いて解析し、このフレームワークにおけるフォールトトレランスのハードウェア要件を数値的に評価する。 いくつかのBSM回路の性能と各種の追加資源の比較を行い、これらの損失による融合ネットワークの誤差を補正できる核融合の線形光学的実現の全てのコンポーネントの損失に対する要求を見積もる。 以上の結果から,FBQCモデルにおけるフォールトトレラント量子コンピューティングは,統合フォトニック実装において現在達成可能なレベルの光学損失を伴って実現可能であることを示し,資源状態の単一光子を0.973以上の完全限界効率で生成・検出できることが示唆された。

Bell state measurements (BSM) play a significant role in quantum information and quantum computing, in particular, in fusion-based quantum computing (FBQC). The FBQC model is a framework for universal quantum computing provided that we are able to perform entangling measurements, called fusions, on qubits within small entangled resource states. Here we analyse the usage of different linear-optical BSM circuits as fusions in the FBQC schemes and numerically evaluate hardware requirements for fault-tolerance in this framework. We examine and compare the performance of several BSM circuits with varying additional resources and estimate the requirements on losses for every component of the linear-optical realization of fusions under which errors in fusion networks caused by these losses can be corrected. Our results show that fault-tolerant quantum computing in the FBQC model is possible with currently achievable levels of optical losses in an integrated photonic implementation, provided that we can create and detect single photons of the resource states with a total marginal efficiency higher than 0.973.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# 曲率強化マニフォールド埋め込みと学習

Curvature Augmented Manifold Embedding and Learning ( http://arxiv.org/abs/2403.14813v1 )

ライセンス: Link先を確認
Yongming Liu, (参考訳) CAMEL(Curvature-Augmented Manifold Embedding and Learning)を提案する。 重要な新しい貢献は、DR問題を力学・物理モデルとして定式化し、ノード間の力場(データポイント)を用いてデータセットのn次元多様体表現を求めることである。 従来の誘引力に基づく多くの手法と比較して,提案手法の独特な貢献は,非対角力を含むことである。 格子粒子物理学における多体ポテンシャルとトポロジーにおけるリーマン曲率から着想を得た新しい力場モデルが導入された。 CAMELには曲率増強力が含まれている。 次に、教師なし学習、教師なし学習、半教師付き学習/メトリック学習、逆学習のためのCAMELの定式化を行う。 次に、CAMELは、tSNE、UMAP、TRIMAP、PacMapといった既存のモデルを比較することで、多くのベンチマークデータセットに適用される。 視覚的比較とメトリクスに基づく評価がそれぞれ実施される。 包括的な比較のために14のオープン文献と自己提案メトリクスが採用されている。 結論と今後の研究は、現在の調査に基づいて提案されている。 関連コードとデモはhttps://github.com/ymlasu/CAMELで公開されている。

A new dimensional reduction (DR) and data visualization method, Curvature-Augmented Manifold Embedding and Learning (CAMEL), is proposed. The key novel contribution is to formulate the DR problem as a mechanistic/physics model, where the force field among nodes (data points) is used to find an n-dimensional manifold representation of the data sets. Compared with many existing attractive-repulsive force-based methods, one unique contribution of the proposed method is to include a non-pairwise force. A new force field model is introduced and discussed, inspired by the multi-body potential in lattice-particle physics and Riemann curvature in topology. A curvature-augmented force is included in CAMEL. Following this, CAMEL formulation for unsupervised learning, supervised learning, semi-supervised learning/metric learning, and inverse learning are provided. Next, CAMEL is applied to many benchmark datasets by comparing existing models, such as tSNE, UMAP, TRIMAP, and PacMap. Both visual comparison and metrics-based evaluation are performed. 14 open literature and self-proposed metrics are employed for a comprehensive comparison. Conclusions and future work are suggested based on the current investigation. Related code and demonstration are available on https://github.com/ymlasu/CAMEL for interested readers to reproduce the results and other applications.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# メンタルヘルスにおける大規模言語モデルの可能性とリスク

The opportunities and risks of large language models in mental health ( http://arxiv.org/abs/2403.14814v1 )

ライセンス: Link先を確認
Hannah R. Lawrence, Renee A. Schneider, Susan B. Rubin, Maja J. Mataric, Daniel J. McDuff, Megan Jones Bell, (参考訳) メンタルヘルスの国際レートは上昇しており、既存のメンタルヘルスのモデルが需要を満たすために適切に拡大しないという認識が高まっている。 大規模言語モデル(LLM)の出現は、メンタルヘルスをサポートする新しい大規模ソリューションを作成するという彼らの約束に関して、非常に楽観的になっている。 ナッセンスにもかかわらず、LSMはメンタルヘルス関連のタスクにすでに適用されている。 本稿では, LLMを用いたメンタルヘルス教育, 評価, 介入のための取り組みについて, 現状の文献を要約し, 地域ごとのポジティブな影響を浮き彫りにしている。 次に、LLMのメンタルヘルスへの応用に関連するリスクを強調し、これらのリスクを軽減するための戦略の導入を奨励する。 メンタルヘルス支援に対する緊急の要求は、メンタルヘルス LLM の開発、テスト、展開の責任とバランスをとらなければならない。 特に重要なのは、メンタルヘルスのLLMが、メンタルヘルスのために微調整され、メンタルヘルスのエクイティが向上し、倫理基準に準拠し、メンタルヘルスに関する経験を持つ人々を含む人々が、開発からデプロイメントまでのあらゆる段階に関わっていることを保証することである。 これらの努力の優先順位付けは、メンタルヘルスに対する潜在的な害を最小限に抑え、LLMが世界中のメンタルヘルスに肯定的な影響を与える可能性を最大化する。

Global rates of mental health concerns are rising and there is increasing realization that existing models of mental healthcare will not adequately expand to meet the demand. With the emergence of large language models (LLMs) has come great optimism regarding their promise to create novel, large-scale solutions to support mental health. Despite their nascence, LLMs have already been applied to mental health-related tasks. In this review, we summarize the extant literature on efforts to use LLMs to provide mental health education, assessment, and intervention and highlight key opportunities for positive impact in each area. We then highlight risks associated with LLMs application to mental health and encourage adoption of strategies to mitigate these risks. The urgent need for mental health support must be balanced with responsible development, testing, and deployment of mental health LLMs. Especially critical is ensuring that mental health LLMs are fine-tuned for mental health, enhance mental health equity, adhere to ethical standards, and that people, including those with lived experience with mental health concerns, are involved in all stages from development through deployment. Prioritizing these efforts will minimize potential harms to mental health and maximize the likelihood that LLMs will positively impact mental health globally.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# クラウドソーシングによる多言語音声明瞭度テスト

Crowdsourced Multilingual Speech Intelligibility Testing ( http://arxiv.org/abs/2403.14817v1 )

ライセンス: Link先を確認
Laura Lechler, Kamil Wojcicki, (参考訳) 生成的音声特徴の出現に伴い、音声の可聴性に対する影響を迅速に評価する必要性が高まっている。 費用がかかりスケールが不十分な既存の実験室対策以外にも,クラウドソーシングによるインテリジェンスの評価は比較的少ない。 標準と勧告はまだ定義されておらず、公開されている多言語テスト材料は不足している。 この課題に対して,クラウドソーシングによるインテリジェンス評価のためのアプローチを提案する。 テスト設計、多言語音声データの収集と公開、および初期の実験結果について詳述する。

With the advent of generative audio features, there is an increasing need for rapid evaluation of their impact on speech intelligibility. Beyond the existing laboratory measures, which are expensive and do not scale well, there has been comparatively little work on crowdsourced assessment of intelligibility. Standards and recommendations are yet to be defined, and publicly available multilingual test materials are lacking. In response to this challenge, we propose an approach for a crowdsourced intelligibility assessment. We detail the test design, the collection and public release of the multilingual speech data, and the results of our early experiments.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# アイフィクス予測のためのガウス表現の学習

Learning Gaussian Representation for Eye Fixation Prediction ( http://arxiv.org/abs/2403.14821v1 )

ライセンス: Link先を確認
Peipei Song, Jing Zhang, Piotr Koniusz, Nick Barnes, (参考訳) 既存のアイ固定予測方法は、入力画像から原固定点から生成された対応する濃密な固定マップへのマッピングを行う。 しかしながら、人間の固定の確率的な性質のため、生成された密集した固定マップは人間の固定の理想的な表現ではないかもしれない。 頑健な固定モデルを実現するために,眼球固定モデルのためのガウス表現を導入する。 具体的には、眼球固定図を確率分布の混合、すなわちガウス混合モデルとしてモデル化することを提案する。 この表現では、与えられた固定写像の代替としていくつかのガウス分布成分を使用し、固定のランダム性に対してモデルをより堅牢にする。 一方、リアルタイムな修正予測を実現するために、軽量なバックボーンに基づいてフレームワークを設計する。 3つの公開固定予測データセット(SALICON, MIT1003, TORONTO)の実験結果から,本手法が高速かつ効果的であることを示す。

Existing eye fixation prediction methods perform the mapping from input images to the corresponding dense fixation maps generated from raw fixation points. However, due to the stochastic nature of human fixation, the generated dense fixation maps may be a less-than-ideal representation of human fixation. To provide a robust fixation model, we introduce Gaussian Representation for eye fixation modeling. Specifically, we propose to model the eye fixation map as a mixture of probability distributions, namely a Gaussian Mixture Model. In this new representation, we use several Gaussian distribution components as an alternative to the provided fixation map, which makes the model more robust to the randomness of fixation. Meanwhile, we design our framework upon some lightweight backbones to achieve real-time fixation prediction. Experimental results on three public fixation prediction datasets (SALICON, MIT1003, TORONTO) demonstrate that our method is fast and effective.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# シンクホーン不確かさ集合を用いた非凸ロバスト仮説の検証

Non-Convex Robust Hypothesis Testing using Sinkhorn Uncertainty Sets ( http://arxiv.org/abs/2403.14822v1 )

ライセンス: Link先を確認
Jie Wang, Rui Gao, Yao Xie, (参考訳) 本稿では,非凸頑健な仮説テスト問題に対処する新しい枠組みを提案する。このフレームワークの目的は,最悪のケースタイプIとタイプIIのリスク関数の最大値を最小限に抑える最適な検出方法を求めることである。 分布の不確実性集合はシンクホーンの差分に基づくサンプルから得られた経験的分布を中心に構成される。 目的が非凸で非滑らかな確率関数で、最適化に難渋することが多いことを考えると、既存の手法は正確な解ではなく近似に頼っている。 この課題に対処するために、我々は、適度な量の入力データで大域最適に解ける、正確な混合整数指数的円錐変換を導入する。 その後,文献における現在の最先端方法論よりも優れていることを示す凸近似を提案する。 さらに、ロバスト仮説テストと非ロバストリスク関数の規則化された定式化の関連性を確立し、洞察に富んだ解釈を提供する。 本研究は,提案フレームワークの良好なテスト性能と計算効率について述べる。

We present a new framework to address the non-convex robust hypothesis testing problem, wherein the goal is to seek the optimal detector that minimizes the maximum of worst-case type-I and type-II risk functions. The distributional uncertainty sets are constructed to center around the empirical distribution derived from samples based on Sinkhorn discrepancy. Given that the objective involves non-convex, non-smooth probabilistic functions that are often intractable to optimize, existing methods resort to approximations rather than exact solutions. To tackle the challenge, we introduce an exact mixed-integer exponential conic reformulation of the problem, which can be solved into a global optimum with a moderate amount of input data. Subsequently, we propose a convex approximation, demonstrating its superiority over current state-of-the-art methodologies in literature. Furthermore, we establish connections between robust hypothesis testing and regularized formulations of non-robust risk functions, offering insightful interpretations. Our numerical study highlights the satisfactory testing performance and computational efficiency of the proposed framework.
翻訳日:2024-03-25 19:16:32 公開日:2024-03-21
# ファッション画像編集のためのマルチモーダル・コンディション付き潜時拡散モデル

Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing ( http://arxiv.org/abs/2403.14828v1 )

ライセンス: Link先を確認
Alberto Baldrati, Davide Morelli, Marcella Cornia, Marco Bertini, Rita Cucchiara, (参考訳) ファッションイラストレーションは、デザイナーが創造的なビジョンを伝え、デザイン概念を、衣服と人間の身体の間の相互作用を示す有形表現に変換するための重要な媒体である。 ファッションデザインの文脈では、コンピュータビジョン技術はデザインプロセスの強化と合理化の可能性を秘めている。 本稿では,主に仮想試行に焦点を当てた先行研究とは別に,マルチモーダルなファッション画像編集の課題に取り組む。 本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。 この問題に対処するため,複数のモードを組み込むために潜在拡散モデルを拡張し,マルチモーダルプロンプトを入力としてデノナイジングネットワークの構造を変更することを提案する。 本研究では,テクスチャのテクスチャを規定するために,テクスチャのテクスチャのテクスチャを規定するために,テクスチャとテクスチャの情報に多彩なクロスアテンション層を対応させて,異なる粒度条件の詳細を組み込む。 タスクにデータセットがないので、Dress CodeとVITON-HDという2つの既存のファッションデータセットをマルチモーダルアノテーションで拡張します。 実験により,提案手法の有効性を,提供されたマルチモーダル入力に対するリアリズムとコヒーレンスの観点から検証した。

Fashion illustration is a crucial medium for designers to convey their creative vision and transform design concepts into tangible representations that showcase the interplay between clothing and the human body. In the context of fashion design, computer vision techniques have the potential to enhance and streamline the design process. Departing from prior research primarily focused on virtual try-on, this paper tackles the task of multimodal-conditioned fashion image editing. Our approach aims to generate human-centric fashion images guided by multimodal prompts, including text, human body poses, garment sketches, and fabric textures. To address this problem, we propose extending latent diffusion models to incorporate these multiple modalities and modifying the structure of the denoising network, taking multimodal prompts as input. To condition the proposed architecture on fabric textures, we employ textual inversion techniques and let diverse cross-attention layers of the denoising network attend to textual and texture information, thus incorporating different granularity conditioning details. Given the lack of datasets for the task, we extend two existing fashion datasets, Dress Code and VITON-HD, with multimodal annotations. Experimental evaluations demonstrate the effectiveness of our proposed approach in terms of realism and coherence concerning the provided multimodal inputs.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# ロジスティック関数の双曲的セキュア表現:CT頭蓋内出血検出における確率論的多段階学習への応用

Hyperbolic Secant representation of the logistic function: Application to probabilistic Multiple Instance Learning for CT intracranial hemorrhage detection ( http://arxiv.org/abs/2403.14829v1 )

ライセンス: Link先を確認
F. M. Castro-Macías, P. Morales-Álvarez, Y. Wu, R. Molina, A. K. Katsaggelos, (参考訳) マルチ・インスタンス・ラーニング(MIL)は、様々な科学的分野にうまく適用され、医用画像に特に適している弱い教師付きパラダイムである。 確率的MIL法、具体的にはガウス過程(GP)は高い表現性と不確かさの定量化能力によって優れた結果を得た。 最も成功したGPベースのMIL手法の1つであるVGPMILは、ロジスティック関数の難易度を扱うために変分境界を利用する。 ここでは、P\'olya-Gammaランダム変数を用いてVGPMILを定式化する。 このアプローチは元のVGPMILと同じ変分後近似をもたらすが、これは双曲型Secant分布が許容する2つの表現の結果である。 そこで我々は,ハイパーボリック・セカント以外の分布を単純に活用することで,異なる形式をとる汎用GPベースのMIL法を提案する。 Gammaディストリビューションを使うことで、競争力あるいは優れた予測性能と効率を得る新しいアプローチにたどり着きます。 これは、合成MILデータセット1つ、よく知られたMILベンチマーク2つ、現実世界の医療問題を含む総合的な実験で検証されている。 この分野のさらなる研究を促進するために,本研究がMIL以外の有用なアイデアを提供することを期待している。

Multiple Instance Learning (MIL) is a weakly supervised paradigm that has been successfully applied to many different scientific areas and is particularly well suited to medical imaging. Probabilistic MIL methods, and more specifically Gaussian Processes (GPs), have achieved excellent results due to their high expressiveness and uncertainty quantification capabilities. One of the most successful GP-based MIL methods, VGPMIL, resorts to a variational bound to handle the intractability of the logistic function. Here, we formulate VGPMIL using P\'olya-Gamma random variables. This approach yields the same variational posterior approximations as the original VGPMIL, which is a consequence of the two representations that the Hyperbolic Secant distribution admits. This leads us to propose a general GP-based MIL method that takes different forms by simply leveraging distributions other than the Hyperbolic Secant one. Using the Gamma distribution we arrive at a new approach that obtains competitive or superior predictive performance and efficiency. This is validated in a comprehensive experimental study including one synthetic MIL dataset, two well-known MIL benchmarks, and a real-world medical problem. We expect that this work provides useful ideas beyond MIL that can foster further research in the field.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# ディープクラスタリング評価 - 内部クラスタリング検証の検証方法

Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures ( http://arxiv.org/abs/2403.14830v1 )

ライセンス: Link先を確認
Zeya Wang, Chenglong Ye, (参考訳) ディープ・クラスタリング(Deep Clustering)は、ディープ・ニューラルネットワークを用いて複雑な高次元データを分割する手法であり、ユニークな評価課題を提示している。 低次元空間用に設計された従来のクラスタリング検証は、分割前の低次元埋め込みにデータを投影するディープクラスタリングに問題がある。 主な問題は2つある。 1)これらの措置を生データに適用する際の次元の呪い 2) 異なる埋め込み空間におけるクラスタリング結果の信頼性の低い比較は, 異なるクラスタリングモデルにおけるトレーニング手順やパラメータ設定の違いに起因する。 本稿では、ディープラーニングにおけるクラスタリング品質の評価におけるこれらの課題に対処する。 本稿では,生データおよび組込みデータに対する内部検証尺度を用いた結果から生じる非効率性を明らかにするための理論的枠組みを提案し,クラスタリングの妥当性指標を深層クラスタリングの文脈に適用するための体系的アプローチを提案する。 実験により、このフレームワークは外部の検証指標と整合し、ディープラーニングにおけるクラスタリング妥当性指標の不正使用による誤用を効果的に軽減することが示された。

Deep clustering, a method for partitioning complex, high-dimensional data using deep neural networks, presents unique evaluation challenges. Traditional clustering validation measures, designed for low-dimensional spaces, are problematic for deep clustering, which involves projecting data into lower-dimensional embeddings before partitioning. Two key issues are identified: 1) the curse of dimensionality when applying these measures to raw data, and 2) the unreliable comparison of clustering results across different embedding spaces stemming from variations in training procedures and parameter settings in different clustering models. This paper addresses these challenges in evaluating clustering quality in deep learning. We present a theoretical framework to highlight ineffectiveness arising from using internal validation measures on raw and embedded data and propose a systematic approach to applying clustering validity indices in deep clustering contexts. Experiments show that this framework aligns better with external validation measures, effectively reducing the misguidance from the improper use of clustering validity indices in deep learning.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 深部構造状態空間モデルのモデル次数削減:システム理論的アプローチ

Model order reduction of deep structured state-space models: A system-theoretic approach ( http://arxiv.org/abs/2403.14833v1 )

ライセンス: Link先を確認
Marco Forgione, Manas Mejari, Dario Piga, (参考訳) 制御設計の目的に特に重点を置いているため、パラメトリックなシステム識別において、複雑度に制限のある正確なシステムモデリングを実現することが重要である。 最近導入されたDeep Structured State-space Model (SSM)は、線形動的ブロックをキーコンポーネントとして特徴付け、高い予測性能を提供する。 しかし、学習された表現は、しばしば非常に大きなモデル順序に悩まされるため、制御設計の目的には適さない。 本稿では,SSMの線形動的ブロックを対象とするシステム理論モデルオーダー削減手法を用いて,この問題に対処する。 モデルの整合性を改善するためにトレーニング損失に組み込むことのできる2つの正規化項を導入する。 特に、モダル $\ell_1$ とハンケル核ノルムの正則化を考慮し、精度を犠牲にすることなく、関連する状態のみを保持することができる。 提示された正則化器は、同相表現と、縮小順序モデルによるより高速な推論という観点で利点をもたらす。 本手法の有効性を,航空機の地上振動データを用いて実証した。

With a specific emphasis on control design objectives, achieving accurate system modeling with limited complexity is crucial in parametric system identification. The recently introduced deep structured state-space models (SSM), which feature linear dynamical blocks as key constituent components, offer high predictive performance. However, the learned representations often suffer from excessively large model orders, which render them unsuitable for control design purposes. The current paper addresses this challenge by means of system-theoretic model order reduction techniques that target the linear dynamical blocks of SSMs. We introduce two regularization terms which can be incorporated into the training loss for improved model order reduction. In particular, we consider modal $\ell_1$ and Hankel nuclear norm regularization to promote sparsity, allowing one to retain only the relevant states without sacrificing accuracy. The presented regularizers lead to advantages in terms of parsimonious representations and faster inference resulting from the reduced order models. The effectiveness of the proposed methodology is demonstrated using real-world ground vibration data from an aircraft.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# ケーラー媒質中を4波混合する光子強度プロファイル

Photon Intensity Profiles for Four-Wave Mixing through a Kerr Medium ( http://arxiv.org/abs/2403.14835v1 )

ライセンス: Link先を確認
P Moodley, S Roux, (参考訳) 誘電体媒質中の4つの波動混合について検討し, スクリーン上に着地した信号およびアイドラー光子の検出確率を算出した。 外部の光子は理論的によく特徴付けられており、実験的研究のプローブとして利用することができる。 強度プロットは実験結果とよく比較できる。

We study four wave mixing in a dielectric medium and calculate the detection probability of signal and idler photons landing on a screen. The outgoing photons are theoretically well characterized and can be used as probes for experimental investigations. The intensity plots are presented which compare well with experimental results.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 室内照明解析におけるパノラマ3次元推定の評価

Evaluating Panoramic 3D Estimation in Indoor Lighting Analysis ( http://arxiv.org/abs/2403.14836v1 )

ライセンス: Link先を確認
Zining Cheng, Guanzhou Ji, (参考訳) 本稿では, 照明シミュレーションにおけるパノラマ3次元推定の利用について述べる。 従来の照明シミュレーションでは、詳細なモデリングを入力として必要としており、かなりの労力と時間的コストがかかる。 この3次元レイアウト推定法は,1つのパノラマを直接入力とし,室内形状と窓開口を有する照明シミュレーションモデルを生成する。 本研究では, 現場高ダイナミックレンジ(HDR)写真, 3次元推定モデル, パノラマ表現の詳細なモデルと魚眼視点の輝度誤差を比較し, シミュレーション結果を評価した。 選択したシーンから, 推定室内配置が照明シミュレーションに信頼性があることを実証した。

This paper presents the use of panoramic 3D estimation in lighting simulation. Conventional lighting simulation necessitates detailed modeling as input, resulting in significant labor effort and time cost. The 3D layout estimation method directly takes a single panorama as input and generates a lighting simulation model with room geometry and window aperture. We evaluate the simulation results by comparing the luminance errors between on-site High Dynamic Range (HDR) photographs, 3D estimation model, and detailed model in panoramic representation and fisheye perspective. Given the selected scene, the results demonstrate the estimated room layout is reliable for lighting simulation.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 浸透症:水中画像復元に先立つRGBD拡散

Osmosis: RGBD Diffusion Prior for Underwater Image Restoration ( http://arxiv.org/abs/2403.14837v1 )

ライセンス: Link先を確認
Opher Bar Nathan, Deborah Levy, Tali Treibitz, Dan Rosenbaum, (参考訳) 水中画像の復元は、遠隔地で劇的に増加する強い水の影響のため、困難な作業である。 これは、水のないきれいな風景の真実データがないために悪化する。 拡散の前兆は、強いイメージ復元の前兆として現れている。 しかし、それらはしばしば、望まれる復元された出力のデータセットで訓練される。 この重要な課題を克服するために,水中修復のための拡散先行訓練に空中画像を活用する方法を示す。 また,色データのみが不十分であること,深度チャネルによる事前の増大も観察した。 大気中の自然の屋外シーンの標準RGBDデータセットを用いて、色と深さの結合空間に先立って無条件拡散モデルを訓練する。 水中画像形成モデルに基づく新しいガイダンス手法と組み合わせて, クリーン画像の後部サンプルを生成し, 水の影響を除去する。 トレーニング中に水中画像は見つからなかったが、我々の手法は、非常に困難な場面で画像復元のための最先端のベースラインを上回った。 データ、モデル、コードはプロジェクトページで公開されています。

Underwater image restoration is a challenging task because of strong water effects that increase dramatically with distance. This is worsened by lack of ground truth data of clean scenes without water. Diffusion priors have emerged as strong image restoration priors. However, they are often trained with a dataset of the desired restored output, which is not available in our case. To overcome this critical issue, we show how to leverage in-air images to train diffusion priors for underwater restoration. We also observe that only color data is insufficient, and augment the prior with a depth channel. We train an unconditional diffusion model prior on the joint space of color and depth, using standard RGBD datasets of natural outdoor scenes in air. Using this prior together with a novel guidance method based on the underwater image formation model, we generate posterior samples of clean images, removing the water effects. Even though our prior did not see any underwater images during training, our method outperforms state-of-the-art baselines for image restoration on very challenging scenes. Data, models and code are published in the project page.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 進化的多目的最適化における分布指標の優先性の解析

An Analysis of the Preferences of Distribution Indicators in Evolutionary Multi-Objective Optimization ( http://arxiv.org/abs/2403.14838v1 )

ライセンス: Link先を確認
Jesús Guillermo Falcón-Cardona, Mahboubeh Nezhadmoghaddam, Emilio Bernal-Zubieta, (参考訳) パレートフロント近似(PFA)における対象ベクトルの分布は、関連する多様体を正確に表現するために重要である。 分布指標(DI)は、距離計算、生物多様性、エントロピー、ポテンシャルエネルギー、クラスタリングといった概念を利用して、PFAの分布を数値的に評価する。 DIの多様性にもかかわらず、評価シナリオ間の長所と短所は十分に理解されていない。 本稿では,DI分類のための分類法を紹介し,9つのDIの選好分析を行い,それぞれが分類のカテゴリを表す。 制御シナリオ下での様々なPFA(カバレッジの欠如、均一性の喪失、病理分布)を考慮すると、いくつかのDIが誤解を招く可能性があり、慎重な使用が必要であることが判明した。 さらに、生物多様性とポテンシャルエネルギーに基づくDIは、多目的進化アルゴリズムのPFA評価と比較を約束する。

The distribution of objective vectors in a Pareto Front Approximation (PFA) is crucial for representing the associated manifold accurately. Distribution Indicators (DIs) assess the distribution of a PFA numerically, utilizing concepts like distance calculation, Biodiversity, Entropy, Potential Energy, or Clustering. Despite the diversity of DIs, their strengths and weaknesses across assessment scenarios are not well-understood. This paper introduces a taxonomy for classifying DIs, followed by a preference analysis of nine DIs, each representing a category in the taxonomy. Experimental results, considering various PFAs under controlled scenarios (loss of coverage, loss of uniformity, pathological distributions), reveal that some DIs can be misleading and need cautious use. Additionally, DIs based on Biodiversity and Potential Energy show promise for PFA evaluation and comparison of Multi-Objective Evolutionary Algorithms.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# ハイパースペクトル神経放射場

Hyperspectral Neural Radiance Fields ( http://arxiv.org/abs/2403.14839v1 )

ライセンス: Link先を確認
Gerry Chen, Sunil Kumar Narayanan, Thomas Gautier Ottou, Benjamin Missaoui, Harsh Muriki, Cédric Pradalier, Yongsheng Chen, (参考訳) ハイパースペクトル画像(HSI)は、試料の材料および/または化学組成を非破壊的に決定する多くの用途で使用されている。 空間情報とスペクトル情報の両方を提供するとともに、非ランベルト面や半透明物体のような一般的なHSI課題を緩和する3次元ハイパースペクトル再構成への関心が高まっている。 しかし,HSIを用いた従来の3次元再構成はハイパースペクトルカメラの技術的限界のため困難である。 近年、Neural Radiance Fields (NeRF) は、様々なカメラモデルによって撮影されるシーンの高品質なボリューム3D表現の作成に広く成功している。 近年のNeRFの進歩を生かして、空間と視野方向のすべての点が波長依存性の放射光と透過スペクトルによって特徴づけられる超スペクトル3次元再構成の計算を提案する。 このアプローチを評価するために,8つのシーンと2つのカメラに2000近いハイパースペクトル画像を含むデータセットを収集した。 我々は従来のRGB NeRFベースラインとの比較を行い、代替スペクトル表現を用いたアブレーション試験を適用した。 最後に,ハイパースペクトル超解像・撮像センサシミュレーションにおけるハイパースペクトルNeRFの可能性を示す。 提案手法により,高速かつ高精度な3次元ハイパースペクトルシーンの創出が可能となり,新たな応用と今後の研究領域の実現が期待できる。

Hyperspectral Imagery (HSI) has been used in many applications to non-destructively determine the material and/or chemical compositions of samples. There is growing interest in creating 3D hyperspectral reconstructions, which could provide both spatial and spectral information while also mitigating common HSI challenges such as non-Lambertian surfaces and translucent objects. However, traditional 3D reconstruction with HSI is difficult due to technological limitations of hyperspectral cameras. In recent years, Neural Radiance Fields (NeRFs) have seen widespread success in creating high quality volumetric 3D representations of scenes captured by a variety of camera models. Leveraging recent advances in NeRFs, we propose computing a hyperspectral 3D reconstruction in which every point in space and view direction is characterized by wavelength-dependent radiance and transmittance spectra. To evaluate our approach, a dataset containing nearly 2000 hyperspectral images across 8 scenes and 2 cameras was collected. We perform comparisons against traditional RGB NeRF baselines and apply ablation testing with alternative spectra representations. Finally, we demonstrate the potential of hyperspectral NeRFs for hyperspectral super-resolution and imaging sensor simulation. We show that our hyperspectral NeRF approach enables creating fast, accurate volumetric 3D hyperspectral scenes and enables several new applications and areas for future study.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# TAMS:翻訳支援形態分類

TAMS: Translation-Assisted Morphological Segmentation ( http://arxiv.org/abs/2403.14840v1 )

ライセンス: Link先を確認
Enora Rice, Ali Marashian, Luke Gessler, Alexis Palmer, Katharina von der Wense, (参考訳) カノニカル・モルフォロジー・セグメンテーション(Canonical morphological segmentation)は、単語をその構成形態の標準形(または基盤形)に分析する過程である。 これは言語ドキュメントの中核的なタスクであり、NLPシステムは、このプロセスを劇的にスピードアップする可能性がある。 しかし、一般的な言語文書設定では、標準形態素セグメンテーションのためのトレーニングデータが不足しており、高品質なモデルのトレーニングが困難である。 しかし、翻訳データはより豊富であり、本研究では、このデータを標準セグメント化タスクで活用しようとする手法を提案する。 本稿では,事前学習した高音源単言語モデルから得られた翻訳の表現を付加信号として組み込んだ文字レベルのシーケンス・ツー・シーケンスモデルを提案する。 我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。 高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。

Canonical morphological segmentation is the process of analyzing words into the standard (aka underlying) forms of their constituent morphemes. This is a core task in language documentation, and NLP systems have the potential to dramatically speed up this process. But in typical language documentation settings, training data for canonical morpheme segmentation is scarce, making it difficult to train high quality models. However, translation data is often much more abundant, and, in this work, we present a method that attempts to leverage this data in the canonical segmentation task. We propose a character-level sequence-to-sequence model that incorporates representations of translations obtained from pretrained high-resource monolingual language models as an additional signal. Our model outperforms the baseline in a super-low resource setting but yields mixed results on training splits with more data. While further work is needed to make translations useful in higher-resource settings, our model shows promise in severely resource-constrained settings.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 線形非ガウスサイクルモデルによる局所因果発見

Local Causal Discovery with Linear non-Gaussian Cyclic Models ( http://arxiv.org/abs/2403.14843v1 )

ライセンス: Link先を確認
Haoyue Dai, Ignavier Ng, Yujia Zheng, Zhengqing Gao, Kun Zhang, (参考訳) 局所因果関係の発見は、大域因果関係の発見が不要な状況がしばしばあり、その関心は単一の対象変数にのみ依存する。 既存のほとんどの局所的な手法は条件付き独立関係を利用し、部分的に向き付けられたグラフのみを提供し、実世界のシナリオではフィードバック機構のようなサイクルが伴うにもかかわらず、基底構造に対する非周期性を仮定する。 本研究では, 線形非ガウスモデルを用いた一般化された局所因果探索法を提案する。 我々は,グローバルコンテキストから独立部分空間解析への独立成分分析の適用を拡大し,対象変数のマルコフ毛布から等価局所指向構造と因果強度の正確な同定を可能にする。 また, 特定の非循環シナリオにおいて, 回帰に基づく代替手法を提案する。 我々の識別可能性は、人工と実世界の両方のデータセットを用いて実証的に検証される。

Local causal discovery is of great practical significance, as there are often situations where the discovery of the global causal structure is unnecessary, and the interest lies solely on a single target variable. Most existing local methods utilize conditional independence relations, providing only a partially directed graph, and assume acyclicity for the ground-truth structure, even though real-world scenarios often involve cycles like feedback mechanisms. In this work, we present a general, unified local causal discovery method with linear non-Gaussian models, whether they are cyclic or acyclic. We extend the application of independent component analysis from the global context to independent subspace analysis, enabling the exact identification of the equivalent local directed structures and causal strengths from the Markov blanket of the target variable. We also propose an alternative regression-based method in the particular acyclic scenarios. Our identifiability results are empirically validated using both synthetic and real-world datasets.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 保全法則を解くエントロピー安定スキームのためのWENO学習

Learning WENO for entropy stable schemes to solve conservation laws ( http://arxiv.org/abs/2403.14848v1 )

ライセンス: Link先を確認
Philip Charles, Deep Ray, (参考訳) エントロピー条件は、保存法則の体系に対する物理的に関係のある解の抽出において重要な役割を担い、したがってそのような条件の離散的な類似を満たすエントロピー安定スキームの構築を動機付けている。 TeCNOスキーム (Fjordholm et al 2012) は任意の高次エントロピー安定有限差分分解器のクラスを形成し、各セル界面における符号特性を満たす特別な再構成アルゴリズムを必要とする。 最近,SP-WENO (Fjordholm and Ray, 2016) とSP-WENOc (Ray, 2018) と呼ばれる3次のWENOスキームが設計されている。 しかし、これらのWENOアルゴリズムは、大きなスパイラルな振動を示す数値解を伴って、非常に近い衝撃を受けることができる。 本研究では,DSP-WENO(Deep Sign-Preserving WENO)と呼ばれるSP-WENOの変種を提案する。 WENO重み選択領域を凸多角形に制約するアルゴリズムにおいて、符号特性と3次精度を強く課す。 その後、ニューラルネットワークは、滑らかな領域における収束率を犠牲にすることなく、衝撃捕捉能力を向上させることを目的として、この凸領域からWENO重みを選択するように訓練される。 提案した相乗的手法は,TECNO方式の数学的枠組みを維持しつつ,深層学習を統合してWENOに基づく再構成の計算問題を修復する。 本研究では,DSP-WENOの符号特性を満たすWENOの既存変種に対して,DSP-WENOの大幅な改善を示す数値実験を行った。

Entropy conditions play a crucial role in the extraction of a physically relevant solution for a system of conservation laws, thus motivating the construction of entropy stable schemes that satisfy a discrete analogue of such conditions. TeCNO schemes (Fjordholm et al. 2012) form a class of arbitrary high-order entropy stable finite difference solvers, which require specialized reconstruction algorithms satisfying the sign property at each cell interface. Recently, third-order WENO schemes called SP-WENO (Fjordholm and Ray, 2016) and SP-WENOc (Ray, 2018) have been designed to satisfy the sign property. However, these WENO algorithms can perform poorly near shocks, with the numerical solutions exhibiting large spurious oscillations. In the present work, we propose a variant of the SP-WENO, termed as Deep Sign-Preserving WENO (DSP-WENO), where a neural network is trained to learn the WENO weighting strategy. The sign property and third-order accuracy are strongly imposed in the algorithm, which constrains the WENO weight selection region to a convex polygon. Thereafter, a neural network is trained to select the WENO weights from this convex region with the goal of improving the shock-capturing capabilities without sacrificing the rate of convergence in smooth regions. The proposed synergistic approach retains the mathematical framework of the TeCNO scheme while integrating deep learning to remedy the computational issues of the WENO-based reconstruction. We present several numerical experiments to demonstrate the significant improvement with DSP-WENO over the existing variants of WENO satisfying the sign property.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 出力制約された損失源符号化とレート歪み知覚理論への応用

Output-Constrained Lossy Source Coding With Application to Rate-Distortion-Perception Theory ( http://arxiv.org/abs/2403.14849v1 )

ライセンス: Link先を確認
Li Xie, Liangyan Li, Jun Chen, Zhongshan Zhang, (参考訳) 二乗誤差歪み測定の特別な場合において, 共通乱数に制限のある出力制約付き損失音源符号化の歪み速度関数を解析した。 ソース分布と再構成分布の両方がガウス分布であるときに明示的な表現が得られる。 このことはさらに、クルバック・リーブラーの発散または2乗二次ワッサーシュタイン距離によって与えられる知覚測度を用いて、二次ガウスの速度-歪み-知覚符号化の情報-理論的限界を部分的に特徴づける。

The distortion-rate function of output-constrained lossy source coding with limited common randomness is analyzed for the special case of squared error distortion measure. An explicit expression is obtained when both source and reconstruction distributions are Gaussian. This further leads to a partial characterization of the information-theoretic limit of quadratic Gaussian rate-distortion-perception coding with the perception measure given by Kullback-Leibler divergence or squared quadratic Wasserstein distance.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# 顔認識のためのキーポイント相対位置符号化

KeyPoint Relative Position Encoding for Face Recognition ( http://arxiv.org/abs/2403.14852v1 )

ライセンス: Link先を確認
Minchul Kim, Yiyang Su, Feng Liu, Anil Jain, Xiaoming Liu, (参考訳) 本稿では,ViTモデルをアフィン変換に対してより堅牢にすることの課題に対処する。 このような堅牢性は、画像アライメント障害が発生したときの顔認識などの様々な認識タスクで有用になる。 KP-RPEと呼ばれる新しい手法を提案し、キーポイント(例えば、顔のランドマーク)を活用して、ViTをスケール、翻訳、ポーズのバリエーションに対してより弾力性を持たせる。 まず、相対位置符号化(RPE)は、アフィン変換の一般化をViTにもたらす良い方法である、という観察から始める。 しかし、RPEは、近くのピクセルが遠方のピクセルよりも重要であるという事前の知識でしかモデルを注入できない。 キーポイントRPE(Keypoint RPE, KP-RPE)は、この原理を拡張したもので、画素の重要度は、その近接位置だけでなく、画像内の特定のキーポイントに対する相対位置によっても決定される。 キーポイント周辺における画素の意義を固定することにより、アフィン変換によってそれらの関係が破壊される場合でも、モデルがより効果的に空間的関係を維持することができる。 顔と歩行の認識におけるKP-RPEの有用性を示す。 実験により,低画質画像,特にアライメントが故障しやすい画像から顔の認識性能を向上させる効果が示された。 コードと事前訓練されたモデルが利用可能である。

In this paper, we address the challenge of making ViT models more robust to unseen affine transformations. Such robustness becomes useful in various recognition tasks such as face recognition when image alignment failures occur. We propose a novel method called KP-RPE, which leverages key points (e.g.~facial landmarks) to make ViT more resilient to scale, translation, and pose variations. We begin with the observation that Relative Position Encoding (RPE) is a good way to bring affine transform generalization to ViTs. RPE, however, can only inject the model with prior knowledge that nearby pixels are more important than far pixels. Keypoint RPE (KP-RPE) is an extension of this principle, where the significance of pixels is not solely dictated by their proximity but also by their relative positions to specific keypoints within the image. By anchoring the significance of pixels around keypoints, the model can more effectively retain spatial relationships, even when those relationships are disrupted by affine transformations. We show the merit of KP-RPE in face and gait recognition. The experimental results demonstrate the effectiveness in improving face recognition performance from low-quality images, particularly where alignment is prone to failure. Code and pre-trained models are available.
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# iSpLib: 自動調整スパース操作によるグラフニューラルネットワークの高速化ライブラリ

iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations ( http://arxiv.org/abs/2403.14853v1 )

ライセンス: Link先を確認
Md Saidul Hoque Anik, Pranav Badhe, Rohit Gampa, Ariful Azad, (参考訳) グラフニューラルネットワーク(GNN)のトレーニングと推論におけるコア計算はしばしばスパース・デンス行列乗算(SpMM)のようなスパース行列演算にマッピングされる。 これらのスパース演算は、入力グラフ、GNNモデル、およびコンピューティングプラットフォームの範囲に大きく依存するため、手動チューニングによる最適化が困難である。 この課題に対処するために、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリであるiSpLibを紹介する。 iSpLibは、キャッシュ可能なバックプロパゲーションでGNNトレーニングを高速化し、中間行列をローカルキャッシュに格納する。 このライブラリは、ユーザが最適化されたPyTorch操作を、人気のあるGNN(Graph Convolution Network、GraphSAGE、Graph Inference Networkなど)の既存の線形代数ベースのPyTorch実装に対して、わずか2行のコードで利用できる、ユーザフレンドリなPythonプラグインを提供する。 iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。 私たちのライブラリはhttps://github.com/HipGraph/iSpLib (https://doi.org/10.5281/zenodo.10806511)で公開されています。

Core computations in Graph Neural Network (GNN) training and inference are often mapped to sparse matrix operations such as sparse-dense matrix multiplication (SpMM). These sparse operations are harder to optimize by manual tuning because their performance depends significantly on the sparsity of input graphs, GNN models, and computing platforms. To address this challenge, we present iSpLib, a PyTorch-based C++ library equipped with auto-tuned sparse operations. iSpLib expedites GNN training with a cache-enabled backpropagation that stores intermediate matrices in local caches. The library offers a user-friendly Python plug-in that allows users to take advantage of our optimized PyTorch operations out-of-the-box for any existing linear algebra-based PyTorch implementation of popular GNNs (Graph Convolution Network, GraphSAGE, Graph Inference Network, etc.) with only two lines of additional code. We demonstrate that iSpLib obtains up to 27x overall training speedup compared to the equivalent PyTorch 2.1.0 and PyTorch Geometric 2.4.0 implementations on the CPU. Our library is publicly available at https://github.com/HipGraph/iSpLib (https://doi.org/10.5281/zenodo.10806511).
翻訳日:2024-03-25 19:06:46 公開日:2024-03-21
# ベースモデルと命令型大規模言語モデルにおける可塑性推定値の比較

Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models ( http://arxiv.org/abs/2403.14859v1 )

ライセンス: Link先を確認
Carina Kauf, Emmanuele Chersoni, Alessandro Lenci, Evelina Fedorenko, Anna A. Ivanova, (参考訳) インストラクションチューニングされたLLMはプロンプトとして定式化された明示的なクエリに応答できるため、人間のユーザとのインタラクションが大幅に容易になる。 しかし、プロンプトベースのアプローチは、事前学習中にLLMが獲得した暗黙の知識の富を常に活用できるとは限らない。 本稿では,LLMにおける意味的妥当性を評価するための総合的研究について述べる。 英語文の可読性タスクにおけるベースと命令調整型LLMの性能の比較を行う。 a) 明示的な促しと指示 (b)確率モデルの直接読み出しによる暗黙的な推定は文字列に割り当てる。 実験1は、モデルアーキテクチャと可視性データセットをまたいだものである。 i) log chance$\textit{LL}$) scores is the most reliable indicator of sentence plausibility, with zero-shot prompting yield inconsistent and typical poor results。 (ii) $\textit{LL}$-basedパフォーマンスは、人間のパフォーマンスにはまだ劣っている。 (iii)命令チューニングモデルでは、ベースモデルよりも$\textit{LL}$ベースのパフォーマンスが悪くなります。 実験2では、モデル間の$\textit{LL}$スコアが、期待通りにコンテキストによって変調されることを示し、文脈に敏感な3つの指標に対して高い性能を示し、明示的な人間の可視性判断に直接的な一致を提供する。 全体として、$\textit{LL}$ 推定は直接的プロンプトよりも LLM の可算性の信頼性の高い尺度である。

Instruction-tuned LLMs can respond to explicit queries formulated as prompts, which greatly facilitates interaction with human users. However, prompt-based approaches might not always be able to tap into the wealth of implicit knowledge acquired by LLMs during pre-training. This paper presents a comprehensive study of ways to evaluate semantic plausibility in LLMs. We compare base and instruction-tuned LLM performance on an English sentence plausibility task via (a) explicit prompting and (b) implicit estimation via direct readout of the probabilities models assign to strings. Experiment 1 shows that, across model architectures and plausibility datasets, (i) log likelihood ($\textit{LL}$) scores are the most reliable indicator of sentence plausibility, with zero-shot prompting yielding inconsistent and typically poor results; (ii) $\textit{LL}$-based performance is still inferior to human performance; (iii) instruction-tuned models have worse $\textit{LL}$-based performance than base models. In Experiment 2, we show that $\textit{LL}$ scores across models are modulated by context in the expected way, showing high performance on three metrics of context-sensitive plausibility and providing a direct match to explicit human plausibility judgments. Overall, $\textit{LL}$ estimates remain a more reliable measure of plausibility in LLMs than direct prompting.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# $\mathcal{L}_1$適応制御を用いたロバストモデルに基づく強化学習

Robust Model Based Reinforcement Learning Using $\mathcal{L}_1$ Adaptive Control ( http://arxiv.org/abs/2403.14860v1 )

ライセンス: Link先を確認
Minjun Sung, Sambhu H. Karumanchi, Aditya Gahlawat, Naira Hovakimyan, (参考訳) モデルベース強化学習(MBRL)アルゴリズムの制御理論拡張スキームである$\mathcal{L}_1$-MBRLを導入する。 モデルフリーアプローチとは異なり、MBRLアルゴリズムはデータを用いて遷移関数のモデルを学び、制御入力を設計する。 提案法則に従って,本手法は学習遷移関数の近似制御-アフィンモデルを生成する。 近似モデルを用いて、基礎となるMBRLによって生成された制御入力は、不確実性に対するシステムの堅牢性を高めるために、$\mathcal{L}_1$適応制御によって摂動される。 重要なことに、このアプローチはMBRLアルゴリズムの選択に非依存であり、様々なMBRLアルゴリズムによるスキームの使用を可能にする。 $\mathcal{L}_1$ augmentation の MBRL アルゴリズムは、複数の MuJoCo 環境にまたがる性能とサンプル効率を向上し、システムのノイズを伴わずに元の MBRL アルゴリズムより優れていた。

We introduce $\mathcal{L}_1$-MBRL, a control-theoretic augmentation scheme for Model-Based Reinforcement Learning (MBRL) algorithms. Unlike model-free approaches, MBRL algorithms learn a model of the transition function using data and use it to design a control input. Our approach generates a series of approximate control-affine models of the learned transition function according to the proposed switching law. Using the approximate model, control input produced by the underlying MBRL is perturbed by the $\mathcal{L}_1$ adaptive control, which is designed to enhance the robustness of the system against uncertainties. Importantly, this approach is agnostic to the choice of MBRL algorithm, enabling the use of the scheme with various MBRL algorithms. MBRL algorithms with $\mathcal{L}_1$ augmentation exhibit enhanced performance and sample efficiency across multiple MuJoCo environments, outperforming the original MBRL algorithms, both with and without system noise.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# 分布インフォームドおよび波長フレキシブルデータ駆動型光音響オキシメトリー

Distribution-informed and wavelength-flexible data-driven photoacoustic oximetry ( http://arxiv.org/abs/2403.14863v1 )

ライセンス: Link先を確認
Janek Gröhl, Kylie Yeung, Kevin Gu, Thomas R. Else, Monika Golinska, Ellie V. Bunce, Lina Hacker, Sarah E. Bohndiek, (参考訳) 意義:光音響イメージング(PAI)は空間分解された酸素飽和度を測定することを約束するが、この約束を実現するための正確で堅牢なスペクトルアンミックス法が欠如している。 正確な血液酸素濃度推定は、がんの検出から炎症の定量化に至るまで、重要な臨床応用となる可能性がある。 Aim: 本研究は, 繰り返しニューラルネットワークアーキテクチャを導入することにより, PAI内の酸素濃度を推定する既存のデータ駆動手法の柔軟性に対処する。 アプローチ: ニューラルネットワークの性能を評価するために、25のシミュレーショントレーニングデータセットを作成した。 我々は、波長フレキシブルネットワークアーキテクチャを実装するために、長期間のメモリネットワークを使用し、最も適切なトレーニングデータセットを予測するために、Jensen-Shannon分散を提案した。 結果: ネットワークアーキテクチャは任意の入力波長を処理し, 線形アンミックス法と従来提案されていたスペクトル復調法より優れる。 トレーニングデータの小さな変更は,本手法の精度に大きく影響するが,Jensen-Shannon分散は推定誤差と相関し,任意のアプリケーションに対して最適なトレーニングデータセットを予測するのに適している。 結論: 最高のトレーニングデータセットを予測するためのJensen-Shannon Divergenceと組み合わせたフレキシブルなデータ駆動ネットワークアーキテクチャは、臨床ユースケースにおいて堅牢なデータ駆動型光音響オキシメトリーを可能にする、有望な方向を提供する。

Significance: Photoacoustic imaging (PAI) promises to measure spatially-resolved blood oxygen saturation, but suffers from a lack of accurate and robust spectral unmixing methods to deliver on this promise. Accurate blood oxygenation estimation could have important clinical applications, from cancer detection to quantifying inflammation. Aim: This study addresses the inflexibility of existing data-driven methods for estimating blood oxygenation in PAI by introducing a recurrent neural network architecture. Approach: We created 25 simulated training dataset variations to assess neural network performance. We used a long short-term memory network to implement a wavelength-flexible network architecture and proposed the Jensen-Shannon divergence to predict the most suitable training dataset. Results: The network architecture can handle arbitrary input wavelengths and outperforms linear unmixing and the previously proposed learned spectral decolouring method. Small changes in the training data significantly affect the accuracy of our method, but we find that the Jensen-Shannon divergence correlates with the estimation error and is thus suitable for predicting the most appropriate training datasets for any given application. Conclusions: A flexible data-driven network architecture combined with the Jensen-Shannon Divergence to predict the best training data set provides a promising direction that might enable robust data-driven photoacoustic oximetry for clinical use cases.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# 微分可能シミュレーションによる四足歩行の学習

Learning Quadruped Locomotion Using Differentiable Simulation ( http://arxiv.org/abs/2403.14864v1 )

ライセンス: Link先を確認
Yunlong Song, Sangbae Kim, Davide Scaramuzza, (参考訳) 近年の脚付きロボット制御の進歩はモデルレス強化学習によって促進されているが、我々は微分可能シミュレーションの可能性を探る。 ロボットモデルを用いた低変量1次勾配の計算により、より高速な収束とより安定した訓練を約束するが、これまでは脚付きロボット制御の使用はシミュレーションに限られていた。 微分可能シミュレーションの主な課題は、接触の多い環境、例えば四足歩行における不連続性によるロボットタスクの複雑な最適化環境にある。 この研究は、これらの課題を克服するための、新しい、微分可能なシミュレーションフレームワークを提案する。 鍵となる考え方は、接触による不連続性を示す複雑な全身シミュレーションを2つの別々の連続領域に分離することである。 その後、単純化されたモデルから得られたロボット状態を、より正確で微分不可能なシミュレータと整合させ、十分なシミュレーション精度を維持する。 本フレームワークは,並列化を伴わない単一シミュレーションロボットを用いて,四足歩行を数分で学習することを可能にする。 われわれのアプローチでは、GPUの並列化で強化された場合、四足歩行ロボットは、トロット、ペース、バウンド、ガロップといった多様な移動スキルを数分で挑戦的な地形で習得することができる。 さらに,実世界のゼロショットにおけるロコモーション性能も向上する。 我々の知る限りでは、本研究は実際の四足歩行ロボットを制御するために微分可能シミュレーションを使用した最初の実演である。 この研究は、実世界における足の移動に微分可能なシミュレーションを使用するための重要な洞察を提供する。

While most recent advancements in legged robot control have been driven by model-free reinforcement learning, we explore the potential of differentiable simulation. Differentiable simulation promises faster convergence and more stable training by computing low-variant first-order gradients using the robot model, but so far, its use for legged robot control has remained limited to simulation. The main challenge with differentiable simulation lies in the complex optimization landscape of robotic tasks due to discontinuities in contact-rich environments, e.g., quadruped locomotion. This work proposes a new, differentiable simulation framework to overcome these challenges. The key idea involves decoupling the complex whole-body simulation, which may exhibit discontinuities due to contact, into two separate continuous domains. Subsequently, we align the robot state resulting from the simplified model with a more precise, non-differentiable simulator to maintain sufficient simulation accuracy. Our framework enables learning quadruped walking in minutes using a single simulated robot without any parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills, including trot, pace, bound, and gallop, on challenging terrains in minutes. Additionally, our policy achieves robust locomotion performance in the real world zero-shot. To the best of our knowledge, this work represents the first demonstration of using differentiable simulation for controlling a real quadruped robot. This work provides several important insights into using differentiable simulations for legged locomotion in the real world.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# VidLA: 大規模ビデオ言語アライメント

VidLA: Video-Language Alignment at Scale ( http://arxiv.org/abs/2403.14870v1 )

ライセンス: Link先を確認
Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi, (参考訳) 本稿では,大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。 従来のビデオ言語アライメントアプローチには2つの大きな制限がある。 まず、短い範囲と長い範囲の時間的依存関係をキャプチャせず、通常、既存のトレーニング済みイメージテキスト基盤モデルとの統合が難しい複雑な階層的なディープネットワークアーキテクチャを使用する。 この制限を効果的に解決するために、ネットワークアーキテクチャをシンプルに保ち、ビデオの時間的階層的な性質を考慮し、異なる時間的解像度で動作する一連のデータトークンを使用する。 単純な2towerアーキテクチャを用いることで、事前訓練された画像テキスト基盤モデルでビデオ言語モデルの初期化が可能になり、最終的なパフォーマンスが向上する。 第二に、既存のビデオ言語アライメントは、意味的に整合した大規模なトレーニングデータがないために困難である。 そのために、最近のLCMを活用して、これまでで最大のビデオ言語データセットを、より優れたビジュアルグラウンドでキュレートする。 さらに、短いクリップしか含まない既存のビデオテキストデータセットとは異なり、我々のデータセットは、時間的な階層的なデータトークンが時間的なスケールでより良い表現を抽出するのを助けるために、様々な期間の動画クリップが豊富である。 実験の結果,提案手法は,複数の検索ベンチマーク,特に長編ビデオにおいて最先端の手法を超越し,分類ベンチマークにおいて競争力を発揮することがわかった。

In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# カオスの構築 - UMLクラスモデルによる小規模ビジネスサイバーセキュリティリスクとアセットのモデル化

Structuring the Chaos: Enabling Small Business Cyber-Security Risks & Assets Modelling with a UML Class Model ( http://arxiv.org/abs/2403.14872v1 )

ライセンス: Link先を確認
Tracy Tam, Asha Rao, Joanne Hall, (参考訳) 中小企業はITの採用をますます増加させており、その結果、サイバー事故に対する脆弱化が進んでいる。 中小企業はサイバーセキュリティのリスクに気づいているが、多くの企業は軽減策の実施に苦労している。 これらのいくつかは、現代のサイバーセキュリティソリューションが広く展開されている中小企業と大企業の基本的な違いに遡ることができる。 小規模のサイバーセキュリティツールが必要である。 現在利用可能なサイバーセキュリティツールと標準は、しばしば中小企業にとって実用的ではない技術と時間資源を前提としている。 サイバーセキュリティは、中小企業のオーナーが引き受ける役割、例えばクリーニング、販売などと競合する。 技術的ではなく、すべての利害関係者の継続的な参加を促進するために、単純化された非特殊主義の用語とプレゼンテーションを備えた小さなビジネスモデル、健全で、大規模に実装できる。 我々は,小規模企業のサイバーセキュリティへの最初の進出において,しばしば混乱する情報収集フェーズをサポートする新しいUMLクラス(Small IT Data (SITD))を提案する。 SITDモデルは、小規模ビジネスが技術的なソリューションを実装するのを助けるためにUML形式で設計されています。 SITDモデル構造は、技術や環境の変化とともに進化するジェネリッククラスと構造を使用することによって、関連性を維持している。 SITDモデルは、ビジネス戦略タスクとITインフラストラクチャの関係を強調することで、セキュリティ決定をビジネスに比例させます。 私たちは、小さなビジネスサイバーセキュリティのニーズに対応するために、一連の設計原則を構築します。 モデルコンポーネントはこれらのニーズに応じて設計されます。 SITDモデルの使用が実証され、実際の小さなビジネス運用とIT情報のケーススタディを調べることによって、設計原則が検証される。 SITDモデルは、NotPetyaインシデントを使用して、違反情報を説明する能力も示している。

Small businesses are increasingly adopting IT, and consequently becoming more vulnerable to cyber-incidents. Whilst small businesses are aware of the cyber-security risks, many struggle with implementing mitigations. Some of these can be traced to fundamental differences in the characteristics of small business versus large enterprises where modern cyber-security solutions are widely deployed. Small business specific cyber-security tools are needed. Currently available cyber-security tools and standards assume technical expertise and time resources often not practical for small businesses. Cyber-security competes with other roles that small business owners take on, e.g. cleaning, sales etc. A small business model, salient and implementable at-scale, with simplified non-specialist terminologies and presentation is needed to encourage sustained participation of all stakeholders, not just technical ones. We propose a new UML class (Small IT Data (SITD)) model to support the often chaotic information-gathering phase of a small business' first foray into cyber-security. The SITD model is designed in the UML format to help small business implement technical solutions. The SITD model structure stays relevant by using generic classes and structures that evolve with technology and environmental changes. The SITD model keeps security decisions proportionate to the business by highlighting relationships between business strategy tasks and IT infrastructure. We construct a set of design principles to address small business cyber-security needs. Model components are designed in response to these needs. The uses of the SITD model are then demonstrated and design principles validated by examining a case study of a real small business operational and IT information. The SITD model's ability to illustrate breach information is also demonstrated using the NotPetya incident.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# WeatherProof: 逆気象におけるセマンティックセグメンテーションのための言語ガイダンス

WeatherProof: Leveraging Language Guidance for Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2403.14874v1 )

ライセンス: Link先を確認
Blake Gella, Howard Zhang, Rishi Upadhyay, Tiffany Chang, Nathan Wei, Matthew Waliman, Yunhao Bao, Celso de Melo, Alex Wong, Achuta Kadambi, (参考訳) 本研究では,悪天候下で撮影された画像からセマンティックセグメンテーションマップを推定する方法を提案する。 まず、雨や霧、雪などの気象条件によって劣化した画像の既存のモデルを調べ、晴れた天候下で撮影されたものに比べて大きな性能低下を示すことを示した。 シーン構造の変化を制御するために,背景となるシーンを共有する正確な明瞭で有害な気象画像対を持つ,最初のセマンティックセグメンテーションデータセットであるWeatherProofを提案する。 このデータセットを用いて、既存のモデルにおけるエラーモードを分析し、キャプチャ中に画像に誘導される異なる気象効果の非常に複雑な組み合わせに敏感であることが判明した。 本研究では, 悪天候条件の寄与を識別し, それを「側情報」として注入することで, 言語をガイダンスとして活用する方法を提案する。 我々の言語指導を用いてトレーニングされたモデルは、WeatherProof上でのmIoUで最大10.2%、標準トレーニング手法と比較して広く使われているACDCデータセットで最大8.44%、ACDCデータセットで最大6.21%のパフォーマンス向上を示す。

We propose a method to infer semantic segmentation maps from images captured under adverse weather conditions. We begin by examining existing models on images degraded by weather conditions such as rain, fog, or snow, and found that they exhibit a large performance drop as compared to those captured under clear weather. To control for changes in scene structures, we propose WeatherProof, the first semantic segmentation dataset with accurate clear and adverse weather image pairs that share an underlying scene. Through this dataset, we analyze the error modes in existing models and found that they were sensitive to the highly complex combination of different weather effects induced on the image during capture. To improve robustness, we propose a way to use language as guidance by identifying contributions of adverse weather conditions and injecting that as "side information". Models trained using our language guidance exhibit performance gains by up to 10.2% in mIoU on WeatherProof, up to 8.44% in mIoU on the widely used ACDC dataset compared to standard training techniques, and up to 6.21% in mIoU on the ACDC dataset as compared to previous SOTA methods.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# ペアワイズ比較法におけるリーダーの確立

Establishing a leader in a pairwise comparisons method ( http://arxiv.org/abs/2403.14885v1 )

ライセンス: Link先を確認
Jacek Szybowski, Konrad Kułakowski, Jiri Mazurek, Sebastian Ernst, (参考訳) 要約 選挙制度と同様に、意思決定手法は意思決定者による操作にも脆弱である。 このような脅威に対して効果的に防御する能力は、操作メカニズムの徹底的な理解からしか得られない。 本稿では,操作攻撃の開始に使用できる2つのアルゴリズムについて述べる。 2つの選択された選択肢の重み付けをペア比較法で行うことができ、その結果、リーダーを選択することができる。 理論的考察には,PC行列のサイズ,不整合度,操作容易性の関係を示すモンテカルロシミュレーションが伴っている。 この研究は、論文で発表されたこれまでの研究の継続である(Szybowski et al , 2023)。

Abstract Like electoral systems, decision-making methods are also vulnerable to manipulation by decision-makers. The ability to effectively defend against such threats can only come from thoroughly understanding the manipulation mechanisms. In the presented article, we show two algorithms that can be used to launch a manipulation attack. They allow for equating the weights of two selected alternatives in the pairwise comparison method and, consequently, choosing a leader. The theoretical considerations are accompanied by a Monte Carlo simulation showing the relationship between the size of the PC matrix, the degree of inconsistency, and the ease of manipulation. This work is a continuation of our previous research published in the paper (Szybowski et al., 2023)
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# DSGG:Dense Relation Transformer for a End-to-end Scene Graph Generation

DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation ( http://arxiv.org/abs/2403.14886v1 )

ライセンス: Link先を確認
Zeeshan Hayder, Xuming He, (参考訳) シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的関係をキャプチャすることを目的としており、これは不完全なラベル付け、長い尾関係のカテゴリ、関係的な意味的重複によって困難である。 既存のTransformerベースの手法では、オブジェクトに対して異なるクエリを使用し、述語をするか、関係三重項に対して全体的なクエリを利用するかのいずれかで、低周波関係を学習する際の限られた能力に悩まされることが多い。 本稿では,DSGGと呼ばれるトランスフォーマーに基づく新しい手法を提案する。 特に、各グラフ対応クエリは、トレーニングプロセス中に緩和されたサブグラフマッチングを利用して取得された、ノードとグラフ内のすべての関係のコンパクトな表現を符号化する。 さらに,関係意味的重複の問題に対処するために,関係性関係の複数のインスタンスを効率的に学習することを目的として,関係性蒸留の戦略を利用する。 VGとPSGデータセットの大規模な実験により、我々のモデルは最先端の結果を達成し、シーングラフ生成タスクではmR@50の3.5倍と6.7倍、シーングラフ生成タスクではmR@100の8.5倍と10.3倍の10.3倍、パンプトグラフ生成タスクではmR@50とmR@100の3.5倍と6.7倍の大幅な改善を示した。 コードは \url{https://github.com/zeeshanhayder/DSGG} で入手できる。

Scene graph generation aims to capture detailed spatial and semantic relationships between objects in an image, which is challenging due to incomplete labelling, long-tailed relationship categories, and relational semantic overlap. Existing Transformer-based methods either employ distinct queries for objects and predicates or utilize holistic queries for relation triplets and hence often suffer from limited capacity in learning low-frequency relationships. In this paper, we present a new Transformer-based method, called DSGG, that views scene graph detection as a direct graph prediction problem based on a unique set of graph-aware queries. In particular, each graph-aware query encodes a compact representation of both the node and all of its relations in the graph, acquired through the utilization of a relaxed sub-graph matching during the training process. Moreover, to address the problem of relational semantic overlap, we utilize a strategy for relation distillation, aiming to efficiently learn multiple instances of semantic relationships. Extensive experiments on the VG and the PSG datasets show that our model achieves state-of-the-art results, showing a significant improvement of 3.5\% and 6.7\% in mR@50 and mR@100 for the scene-graph generation task and achieves an even more substantial improvement of 8.5\% and 10.3\% in mR@50 and mR@100 for the panoptic scene graph generation task. Code is available at \url{https://github.com/zeeshanhayder/DSGG}.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# AutoRE:大規模言語モデルを用いた文書レベル関係抽出

AutoRE: Document-Level Relation Extraction with Large Language Models ( http://arxiv.org/abs/2403.14888v1 )

ライセンス: Link先を確認
Xue Lilong, Zhang Dan, Dong Yuxiao, Tang Jie, (参考訳) 大規模言語モデル(LLM)は、テキストの理解と生成において例外的な能力を示しており、関係抽出(RE)を含む情報抽出(IE)の目的のために多くの研究者がそれらを利用する動機となっている。 しかしながら、既存のほとんどの手法は文レベルの関係抽出(SentRE)タスクのために設計されている。 さらに、いくつかのアプローチでは、関係をプロンプトテンプレートに統合した候補選択として扱うことで、ドキュメント・レベル関係抽出(DocRE)タスクに対処する際の非効率な処理と準最適性能を実現している。 これらの制限を克服するために、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンドツーエンドのDocREモデルであるAutoREを紹介する。 既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。 さらに,パラメータ・エフェクト・ファイン・チューニング(PEFT)アルゴリズム(QLoRA)を用いて,容易に拡張可能なREフレームワークを開発した。 RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果を達成し、それぞれ開発セットとテストセットでTAGを10.03%、テストセットを9.03%上回った。

Large Language Models (LLMs) have demonstrated exceptional abilities in comprehending and generating text, motivating numerous researchers to utilize them for Information Extraction (IE) purposes, including Relation Extraction (RE). Nonetheless, most existing methods are predominantly designed for Sentence-level Relation Extraction (SentRE) tasks, which typically encompass a restricted set of relations and triplet facts within a single sentence. Furthermore, certain approaches resort to treating relations as candidate choices integrated into prompt templates, leading to inefficient processing and suboptimal performance when tackling Document-Level Relation Extraction (DocRE) tasks, which entail handling multiple relations and triplet facts distributed across a given document, posing distinct challenges. To overcome these limitations, we introduce AutoRE, an end-to-end DocRE model that adopts a novel RE extraction paradigm named RHF (Relation-Head-Facts). Unlike existing approaches, AutoRE does not rely on the assumption of known relation options, making it more reflective of real-world scenarios. Additionally, we have developed an easily extensible RE framework using a Parameters Efficient Fine Tuning (PEFT) algorithm (QLoRA). Our experiments on the RE-DocRED dataset showcase AutoRE's best performance, achieving state-of-the-art results, surpassing TAG by 10.03% and 9.03% respectively on the dev and test set.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-21
# Tur[k]ingBench: Webエージェントのチャレンジベンチマーク

Tur[k]ingBench: A Challenge Benchmark for Web Agents ( http://arxiv.org/abs/2403.11905v2 )

ライセンス: Link先を確認
Kevin Xu, Yeganeh Kordi, Kate Sanders, Yizhong Wang, Adam Byerly, Jack Zhang, Benjamin Van Durme, Daniel Khashabi, (参考訳) 最近のチャットボットは、生のテキスト形式で理解し、コミュニケーションする能力を発揮している。 しかし、世界は原文以上のものが存在する。 例えば、人間が長い時間をウェブページで過ごし、そこではテキストが他のモダリティと連動し、タスクは様々な複雑な相互作用の形で達成される。 最先端のマルチモーダルモデルはそのような複雑な領域に一般化できるのか? この問題に対処するために、TurkingBenchという、マルチモーダルコンテキストによるテキスト命令を含むWebページとして定式化されたタスクのベンチマークを導入する。 人工的に合成されたWebページを利用する既存の作業とは異なり、ここでは、さまざまなアノテーションのために、もともとクラウドソーシングワーカーのために設計された、自然なHTMLページを使用します。 各タスクのHTML命令は、さまざまな値(クラウドソーシングタスクから得られる)でインスタンス化され、タスクの新しいインスタンスを形成します。 このベンチマークには158タスクに分散した32.2Kインスタンスが含まれている。 さらに,TurkingBenchの評価を容易にするために,チャットボットの応答をWebページの修正(テキストボックスの変更,ラジオの確認など)に結びつける評価フレームワークを開発した。 本ベンチマークでは,言語のみ,視覚のみ,レイアウトのみ,およびそれらの組み合わせを含む最先端モデルの性能を評価する。 以上の結果から,これらのモデルではランダムな確率よりもはるかに優れた性能が得られたが,改善の余地は十分にあることがわかった。 このベンチマークによって、Webベースのエージェントの評価と開発が促進されることを願っています。

Recent chatbots have demonstrated impressive ability to understand and communicate in raw-text form. However, there is more to the world than raw text. For example, humans spend long hours of their time on web pages, where text is intertwined with other modalities and tasks are accomplished in the form of various complex interactions. Can state-of-the-art multi-modal models generalize to such complex domains? To address this question, we introduce TurkingBench, a benchmark of tasks formulated as web pages containing textual instructions with multi-modal context. Unlike existing work which employs artificially synthesized web pages, here we use natural HTML pages that were originally designed for crowdsourcing workers for various annotation purposes. The HTML instructions of each task are also instantiated with various values (obtained from the crowdsourcing tasks) to form new instances of the task. This benchmark contains 32.2K instances distributed across 158 tasks. Additionally, to facilitate the evaluation on TurkingBench, we develop an evaluation framework that connects the responses of chatbots to modifications on web pages (modifying a text box, checking a radio, etc.). We evaluate the performance of state-of-the-art models, including language-only, vision-only, and layout-only models, and their combinations, on this benchmark. Our findings reveal that these models perform significantly better than random chance, yet considerable room exists for improvement. We hope this benchmark will help facilitate the evaluation and development of web-based agents.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-21
# 大規模言語モデルとリアルボットアカウントを用いたソーシャルメディアプラットフォームにおけるニュース消費のインセンティブ

Incentivizing News Consumption on Social Media Platforms Using Large Language Models and Realistic Bot Accounts ( http://arxiv.org/abs/2403.13362v2 )

ライセンス: Link先を確認
Hadi Askari, Anshuman Chhabra, Bernhard Clemm von Hohenberg, Michael Heseltine, Magdalena Wojcieszak, (参考訳) 偏極化、信頼の低下、民主的規範に対する波及的な支持は、アメリカの民主主義への脅威を迫っている。 検証済みで質の高いニュースへの暴露は、これらの脅威に対する個人の感受性を低下させ、市民が誤情報、ポピュリズム、超党派レトリックに対してより弾力的になる可能性がある。 本研究は, 実証およびイデオロギー的にバランスの取れたニュースを, 生態学的に妥当な環境で利用者の露出とエンゲージメントを高める方法について検討する。 28,457人のTwitterユーザーを対象に,大規模な2週間のフィールド実験(1/19/2023から2/3/2023まで)を実施しています。 私たちは、スポーツ、エンターテイメント、ライフスタイルについてツイートするユーザーに対して、質の高いニュース機関のトピック関連セクションのURLと、Twitterアカウントのフォローを奨励する2つのハードコードされた要素を含むコンテキスト応答で、GPT-2を利用した28のボットを作成しました。 ボットの性別による差分効果を更にテストするために、治療対象のユーザはランダムに、女性または男性として提示されたボットの応答を受信するように割り当てられた。 我々は、我々の残業介入が、ニュースメディア組織、ニュースコンテンツの共有と好意、政治に関するつぶやき、政治コンテンツの好意を後押しするかどうかを検討する。 治療を受けたユーザーは、より多くのニュースアカウントをフォローし、女性のボット治療を受けたユーザーは、コントロールよりもニュースコンテンツを好む傾向にあった。 しかし、これらの結果の大部分は規模が小さく、すでに政治的に興味を持つTwitterユーザーに限定されていた。 これらの発見は、ソーシャルメディアやニュース組織に影響を及ぼし、また、大規模言語モデルやその他の計算介入が、質の高いニュースや公務に対する個人のプラットフォーム上でのエンゲージメントを効果的に向上させる方法について、今後の研究の方向性を提供する。

Polarization, declining trust, and wavering support for democratic norms are pressing threats to U.S. democracy. Exposure to verified and quality news may lower individual susceptibility to these threats and make citizens more resilient to misinformation, populism, and hyperpartisan rhetoric. This project examines how to enhance users' exposure to and engagement with verified and ideologically balanced news in an ecologically valid setting. We rely on a large-scale two-week long field experiment (from 1/19/2023 to 2/3/2023) on 28,457 Twitter users. We created 28 bots utilizing GPT-2 that replied to users tweeting about sports, entertainment, or lifestyle with a contextual reply containing two hardcoded elements: a URL to the topic-relevant section of quality news organization and an encouragement to follow its Twitter account. To further test differential effects by gender of the bots, treated users were randomly assigned to receive responses by bots presented as female or male. We examine whether our over-time intervention enhances the following of news media organization, the sharing and the liking of news content and the tweeting about politics and the liking of political content. We find that the treated users followed more news accounts and the users in the female bot treatment were more likely to like news content than the control. Most of these results, however, were small in magnitude and confined to the already politically interested Twitter users, as indicated by their pre-treatment tweeting about politics. These findings have implications for social media and news organizations, and also offer direction for future work on how Large Language Models and other computational interventions can effectively enhance individual on-platform engagement with quality news and public affairs.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-21
# モデルオープンネスフレームワーク:AIにおける再現性、透明性、ユーザビリティのための完全性とオープン性を促進する

The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI ( http://arxiv.org/abs/2403.13784v2 )

ライセンス: Link先を確認
Matt White, Ibrahim Haddad, Cailean Osborne, Xiao-Yang, Liu, Ahmed Abdelmonsef, Sachin Varghese, (参考訳) 生成AI(GAI)は前例のない可能性を提供するが、その商業化は透明性、再現性、バイアス、安全性に関する懸念を提起している。 多くの「オープンソース」GAIモデルは、完全な理解と再現に必要なコンポーネントを欠いている。 オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に従って、その完全性とオープン性に基づいて機械学習モデルを評価するランキング分類システムであるモデルオープンネスフレームワーク(MOF)を提案する。 MOFは、適切なオープンライセンスの下で、モデル開発ライフサイクルの特定のコンポーネントを含め、リリースする必要がある。 このフレームワークは、オープンであると主張するモデルの誤表現を防止することを目的としており、研究者や開発者は、許容ライセンス下ですべてのモデルコンポーネントを提供することを指導し、企業、アカデミア、ホビイストが制限なく安全に採用できるモデルを識別する手助けをする。 MOFの広範な採用により、よりオープンなAIエコシステムが育まれ、研究、イノベーション、採用が加速する。

Generative AI (GAI) offers unprecedented possibilities but its commercialization has raised concerns about transparency, reproducibility, bias, and safety. Many "open-source" GAI models lack the necessary components for full understanding and reproduction, and some use restrictive licenses, a practice known as "openwashing." We propose the Model Openness Framework (MOF), a ranked classification system that rates machine learning models based on their completeness and openness, following principles of open science, open source, open data, and open access. The MOF requires specific components of the model development lifecycle to be included and released under appropriate open licenses. This framework aims to prevent misrepresentation of models claiming to be open, guide researchers and developers in providing all model components under permissive licenses, and help companies, academia, and hobbyists identify models that can be safely adopted without restrictions. Wide adoption of the MOF will foster a more open AI ecosystem, accelerating research, innovation, and adoption.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-21
# BARTを用いたつぶやきからの感情句の抽出

Extracting Emotion Phrases from Tweets using BART ( http://arxiv.org/abs/2403.14050v1 )

ライセンス: Link先を確認
Mahdi Rezapour, (参考訳) 感性分析は、テキストの感情的側面を特定し、抽出することを目的とした自然言語処理タスクである。 しかし、既存の感情分析手法の多くは、感情を伝える特定のフレーズを見渡すことによって、テキストの全体極性を主に分類している。 本稿では,質問応答の枠組みに基づく感情分析にアプローチを適用した。 提案手法は、事前訓練されたシーケンス・ツー・シーケンスモデルである双方向自己回帰変換器(BART)のパワーを利用して、与えられた感情極性を増幅する与えられたテキストからフレーズを抽出する。 我々は、抽出する特定の感情を識別する自然言語質問を作成し、BARTにテキスト中の関連する感情的手がかりに注意を払うよう誘導する。 BART内の分類器を用いて、テキスト内の回答の開始位置と終了位置を予測し、抽出した感情句の正確な境界を識別する。 我々のアプローチは、テキストの完全な文脈と意味を捉え、意図された感情を強調する正確なトークンスパンを抽出するなど、ほとんどの感情分析研究に対していくつかの利点を提供している。 最終損失は87%、Jaccardスコアは0.61でした。

Sentiment analysis is a natural language processing task that aims to identify and extract the emotional aspects of a text. However, many existing sentiment analysis methods primarily classify the overall polarity of a text, overlooking the specific phrases that convey sentiment. In this paper, we applied an approach to sentiment analysis based on a question-answering framework. Our approach leverages the power of Bidirectional Autoregressive Transformer (BART), a pre-trained sequence-to-sequence model, to extract a phrase from a given text that amplifies a given sentiment polarity. We create a natural language question that identifies the specific emotion to extract and then guide BART to pay attention to the relevant emotional cues in the text. We use a classifier within BART to predict the start and end positions of the answer span within the text, which helps to identify the precise boundaries of the extracted emotion phrase. Our approach offers several advantages over most sentiment analysis studies, including capturing the complete context and meaning of the text and extracting precise token spans that highlight the intended sentiment. We achieved an end loss of 87% and Jaccard score of 0.61.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-21
# 安全な仮想選挙に向けて:秩序に基づく投票規則の多党計算

Towards Secure Virtual Elections: Multiparty Computation of Order Based Voting Rules ( http://arxiv.org/abs/2205.10580v4 )

ライセンス: Link先を確認
Tamir Tassa, Lihi Dery, (参考訳) 電子投票システムは仮想選挙に欠かせないシステムであり、新型コロナウイルスのパンデミックやそれが課す社会的距離により、このようなシステムの必要性が高まっている。 電子投票システムにおける大きな課題の1つは、投票プロセスの確保である。すなわち、計算された結果が鋳造投票と一致していること、有権者のプライバシーが保存されていることを保証することである。 本稿では,秩序に基づく投票規則によって規制される選挙のためのセキュアな投票プロトコルを提案する。 我々のプロトコルは、必要な出力だけを発行するという意味で、完璧な投票秘密を提供するが、キャスト投票に関する他の情報は明らかにしない。 このような完全機密性は、セキュアなマルチパーティ計算ツールを利用することで達成され、有権者の自信を高め、その結果、真の好みに応じて投票することを奨励する。 プロトコルの計算コストの評価は、軽量であり、現実の電子選挙において容易に実装可能であることを証明している。

Electronic voting systems are essential for holding virtual elections, and the need for such systems increases due to the COVID-19 pandemic and the social distancing that it mandates. One of the main challenges in e-voting systems is to secure the voting process: namely, to certify that the computed results are consistent with the cast ballots, and that the privacy of the voters is preserved. We propose herein a secure voting protocol for elections that are governed by order-based voting rules. Our protocol offers perfect ballot secrecy, in the sense that it issues only the required output, while no other information on the cast ballots is revealed. Such perfect secrecy, which is achieved by employing secure multiparty computation tools, may increase the voters' confidence and, consequently, encourage them to vote according to their true preferences. Evaluation of the protocol's computational costs establishes that it is lightweight and can be readily implemented in real-life electronic elections.
翻訳日:2024-03-23 02:40:38 公開日:2024-03-21
# TD-MPC2:継続的制御のためのスケーラブルでロバストな世界モデル

TD-MPC2: Scalable, Robust World Models for Continuous Control ( http://arxiv.org/abs/2310.16828v2 )

ライセンス: Link先を確認
Nicklas Hansen, Hao Su, Xiaolong Wang, (参考訳) TD-MPCは、学習された暗黙(デコーダなし)世界モデルの潜在空間において局所軌道最適化を行うモデルベース強化学習(RL)アルゴリズムである。 本稿では,TD-MPCアルゴリズムを改良したTD-MPC2を提案する。 我々は,TD-MPC2が4つのタスク領域にまたがる104のオンラインRLタスクのベースラインを大幅に改善し,一組のハイパーパラメータで一貫した結果が得られることを示した。 さらに,モデルやデータサイズによってエージェント能力が向上し,複数のタスク領域,実施形態,行動空間にまたがる80のタスクを実行するために,単一の317Mパラメータエージェントをトレーニングすることに成功していることを示す。 我々は,大規模なTD-MPC2エージェントに関連する教訓,機会,リスクについて考察した。 https://tdmpc2.comでビデオ、モデル、データ、コードなどを探る

TD-MPC is a model-based reinforcement learning (RL) algorithm that performs local trajectory optimization in the latent space of a learned implicit (decoder-free) world model. In this work, we present TD-MPC2: a series of improvements upon the TD-MPC algorithm. We demonstrate that TD-MPC2 improves significantly over baselines across 104 online RL tasks spanning 4 diverse task domains, achieving consistently strong results with a single set of hyperparameters. We further show that agent capabilities increase with model and data size, and successfully train a single 317M parameter agent to perform 80 tasks across multiple task domains, embodiments, and action spaces. We conclude with an account of lessons, opportunities, and risks associated with large TD-MPC2 agents. Explore videos, models, data, code, and more at https://tdmpc2.com
翻訳日:2024-03-23 00:46:29 公開日:2024-03-21
# ソフトラベル無名胃X線画像蒸留

Soft-Label Anonymous Gastric X-ray Image Distillation ( http://arxiv.org/abs/2104.02857v2 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama, (参考訳) 本稿では,勾配降下法に基づく軟式ラベル匿名胃X線画像蒸留法を提案する。 医療データの共有は、コンピュータ支援診断(CAD)システムを構築するために要求される。 しかし、医療データセットの大規模化とプライバシ保護は、CADシステムの研究を妨げる医療データ共有に問題を残している。 蒸留法の目的は,医療データセットの有効情報を抽出し,異なるデータ分布を持つ小さな蒸留データセットを生成することである。 本手法は, モデル蒸留と異なり, 最適な蒸留画像, 蒸留ラベル, 最適化学習率を求める。 実験の結果,提案手法は医療データセットを効果的に圧縮するだけでなく,患者の個人情報を保護するために医療画像の匿名化も可能であることがわかった。 提案手法は医療データ共有の効率性と安全性を向上させることができる。

This paper presents a soft-label anonymous gastric X-ray image distillation method based on a gradient descent approach. The sharing of medical data is demanded to construct high-accuracy computer-aided diagnosis (CAD) systems. However, the large size of the medical dataset and privacy protection are remaining problems in medical data sharing, which hindered the research of CAD systems. The idea of our distillation method is to extract the valid information of the medical dataset and generate a tiny distilled dataset that has a different data distribution. Different from model distillation, our method aims to find the optimal distilled images, distilled labels and the optimized learning rate. Experimental results show that the proposed method can not only effectively compress the medical dataset but also anonymize medical images to protect the patient's private information. The proposed approach can improve the efficiency and security of medical data sharing.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-21
# 安全財産としてのスタック安全の形式化

Formalizing Stack Safety as a Security Property ( http://arxiv.org/abs/2105.00417v4 )

ライセンス: Link先を確認
Sean Noble Anderson, Roberto Blanco, Leonidas Lampropoulos, Benjamin C. Pierce, Andrew Tolmach, (参考訳) スタック安全性という用語は、スタックメモリを保護する様々なコンパイラ、実行時、ハードウェアメカニズムを記述するために使われる。 異なるコンパイラは、広範囲の言語から手続き的および機能的抽象化メカニズムをサポートするために、異なる方法でそれを使用する。 このプロテア的な性質は、スタックの安全性を正しく強制することの意味を断ち切るのを難しくする。 言語に基づくセキュリティの概念を用いて,スタック安全性の新たな形式的特徴付けを提案する。 スタックの安全性をモノリシックなプロパティとして扱うのではなく、呼び出し側と呼び出し側それぞれに対して、整合性プロパティと機密性プロパティに分解します。 この定式化は、Roessler と DeHon が研究した "lazy" stack safety micro-policies という、特定の種類の執行機構によって動機付けられている。 スタック安全性の既存の特徴は、このタイプの安全性をキャプチャするものではなく、システムの観測可能な振る舞いの観点から、私たちの特性を記述することによって、これをキャプチャします。 私たちのプロパティは、スタックの安全性、呼び出し元と呼び出し元が保存したレジスタのサポート、スタックに渡された引数、末尾呼び出しの削除といった、以前の公式定義よりもさらに進んでいます。 プロパティベースのランダムテストを用いて,Roessler と DeHon のマイクロポリスの正しい実装と不正確な実装を区別するために,それらの特性を検証した。 私たちのテストハーネスは、RoesslerやDeHonの遅延ポリシーなど、いくつかの壊れた亜種をうまく識別します。

The term stack safety is used to describe a variety of compiler, run-time, and hardware mechanisms for protecting stack memory. Unlike "the heap," the ISA-level stack does not correspond to a single high-level language concept: different compilers use it in different ways to support procedural and functional abstraction mechanisms from a wide range of languages. This protean nature makes it difficult to nail down what it means to correctly enforce stack safety. We propose a new formal characterization of stack safety using concepts from language-based security. Rather than treating stack safety as a monolithic property, we decompose it into an integrity property and a confidentiality property for each of the caller and the callee, plus a control-flow property: five properties in all. This formulation is motivated by a particular class of enforcement mechanisms, the "lazy" stack safety micro-policies studied by Roessler and DeHon, which permit functions to write into one another's frames but taint the changed locations so that the frame's owner cannot access them. No existing characterization of stack safety captures this style of safety; we capture it here by stating our properties in terms of the observable behavior of the system. Our properties go further than previous formal definitions of stack safety, supporting caller- and callee-saved registers, arguments passed on the stack, and tail-call elimination. We validate the properties by using them to distinguish between correct and incorrect implementations of Roessler and DeHon's micro-policies using property-based random testing. Our test harness successfully identifies several broken variants, including Roessler and DeHon's lazy policy; a repaired version of their policy passes our tests.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-21
# ドメイン固有の不均一な知識を統一表現に組み込んだ事前学習言語モデル

Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation ( http://arxiv.org/abs/2109.01048v3 )

ライセンス: Link先を確認
Hongyin Zhu, Hao Peng, Zhiheng Lyu, Lei Hou, Juanzi Li, Jinghui Xiao, (参考訳) 既存の技術は、BERTを異なる視点から拡張し、例えば、異なる事前トレーニングタスク、異なるセマンティックな粒度、異なるモデルアーキテクチャを設計する。 BERTを異なるテキストフォーマットから拡張することを検討するモデルはほとんどない。 本稿では、構造化されていないテキスト、半構造化されたテキスト、構造化されたテキストを含むあらゆる形式のテキストに対して、統一された事前学習された言語モデル(PLM)である異種知識言語モデル(\textbf{HKLM})を提案する。 これらの多形式知識間の対応関係を捉えるため,本手法では,単語知識の学習にマスク付き言語モデルの対象を用い,三重分類対象とタイトルマッチング対象を用いて,エンティティ知識とトピック知識をそれぞれ学習する。 上記の多形式テキストを得るため,観光領域にコーパスを構築し,観光NLPデータセット5種について実験を行った。 その結果,本手法はデータの1/4のみを用いて,プレーンテキストの事前学習よりも優れていた。 ドメインに依存しないHKLMをさらに事前トレーニングし、XNLIデータセットの性能向上を達成する。

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities, and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (\textbf{HKLM}), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text, and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. We further pre-train the domain-agnostic HKLM and achieve performance gains on the XNLI dataset.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-21
# PGCN:時空間交通予測のためのプログレッシブグラフ畳み込みネットワーク

PGCN: Progressive Graph Convolutional Networks for Spatial-Temporal Traffic Forecasting ( http://arxiv.org/abs/2202.08982v3 )

ライセンス: Link先を確認
Yuyol Shin, Yoonjin Yoon, (参考訳) 交通ネットワークにおける複雑な時空間相関は、交通予測問題を困難にしている。 輸送システムは本質的にグラフ構造を持っているため、多くの研究がグラフニューラルネットワークで行われている。 近年、データに対する適応グラフの構築は、単一の静的グラフ構造に依存するモデルに対して有望な結果を示している。 しかし、グラフ適応はトレーニングフェーズで適用され、テストフェーズで使用されるデータを反映しない。 このような欠点は、特に交通データが時系列の予期せぬ変化や不規則に悩まされるため、交通予測において問題となる可能性がある。 本研究では,PGCN(Progressive Graph Convolutional Network)と呼ばれる新しいトラフィック予測フレームワークを提案する。 PGCNは、トレーニングおよびテストフェーズ中にオンライン入力データに段階的に適応することで、グラフのセットを構築する。 具体的には,グラフノード間の傾向類似性を学習することで,進行的隣接行列を構築するモデルを実装した。 そして、拡張因果畳み込みとゲート活性化ユニットと組み合わせて時間的特徴を抽出する。 残差接続とスキップ接続により、PGCNはトラフィック予測を行う。 多様な幾何学的性質を持つ7つの実世界のトラフィックデータセットに適用すると、提案モデルはすべてのデータセットで一貫性のある最先端のパフォーマンスを達成する。 我々は、PGCNが入力データに徐々に適応する能力により、頑健な異なる研究現場でモデルを一般化することができると結論付けた。

The complex spatial-temporal correlations in transportation networks make the traffic forecasting problem challenging. Since transportation system inherently possesses graph structures, many research efforts have been put with graph neural networks. Recently, constructing adaptive graphs to the data has shown promising results over the models relying on a single static graph structure. However, the graph adaptations are applied during the training phases and do not reflect the data used during the testing phases. Such shortcomings can be problematic especially in traffic forecasting since the traffic data often suffer from unexpected changes and irregularities in the time series. In this study, we propose a novel traffic forecasting framework called Progressive Graph Convolutional Network (PGCN). PGCN constructs a set of graphs by progressively adapting to online input data during the training and testing phases. Specifically, we implemented the model to construct progressive adjacency matrices by learning trend similarities among graph nodes. Then, the model is combined with the dilated causal convolution and gated activation unit to extract temporal features. With residual and skip connections, PGCN performs the traffic prediction. When applied to seven real-world traffic datasets of diverse geometric nature, the proposed model achieves state-of-the-art performance with consistency in all datasets. We conclude that the ability of PGCN to progressively adapt to input data enables the model to generalize in different study sites with robustness.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-21
# U(1)$保存電流演算子を含む二重トレース変形によるトラバーサブルワームホール

Traversable wormholes via a double trace deformation involving $U(1)$ conserved current operators ( http://arxiv.org/abs/2206.03434v4 )

ライセンス: Link先を確認
Byoungjoon Ahn, Sang-Eon Bak, Viktor Jahnke, Keun-Young Kim, (参考訳) 本研究では, 二重トレース変形によりトラバース可能なワームホールに対する保存法則の影響について検討した。 最大拡大された$(d+1)$次元黒ブレーン幾何学の2つの漸近境界と保存された電流作用素とを結合した後、流体力学極限における対応するバルクゲージ場の量子物質応力-エネルギーテンソルが平均零エネルギー条件(ANEC)に反し、ワームホールは可逆となる。 この結果を陽イオン二面ブラックホール解に適用し、ワームホール開口が電荷拡散定数に依存するか、ワームホールを通して送信できる情報の量にどのように影響するか、そして保存電流演算子を含む多体量子テレポーテーションプロトコルに影響を及ぼす可能性について論じる。

We study the effects of conservation laws on wormholes that are made traversable by a double trace deformation. After coupling the two asymptotic boundaries of a maximally extended $(d+1)$ dimensional black brane geometry with $U(1)$ conserved current operators, we find that the quantum matter stress-energy tensor of the corresponding bulk gauge fields in the hydrodynamic limit violates the averaged null energy condition (ANEC), rendering the wormhole traversable. Applying our results to axionic two-sided black hole solutions, we discuss how the wormhole opening depends on the charge diffusion constant, how this affects the amount of information that can be sent through the wormhole, and possible implications for many-body quantum teleportation protocols involving conserved current operators.
翻訳日:2024-03-22 20:55:19 公開日:2024-03-21
# 部分分散フィードバックを持つ差分プライベート線形帯域

Differentially Private Linear Bandits with Partial Distributed Feedback ( http://arxiv.org/abs/2207.05827v2 )

ライセンス: Link先を確認
Fengjiao Li, Xingyu Zhou, Bo Ji, (参考訳) 本稿では,部分分散フィードバックのみを用いた大域的報酬最大化の問題について検討する。 この問題は、複数の実世界のアプリケーション(例えば、セルラーネットワークの構成、動的価格設定、ポリシー選択)によって動機付けられ、中央のエンティティによって取られたアクションが、グローバルな報酬に寄与する大集団に影響を与える。 しかし、このような報奨のフィードバックを全人口から収集することは、違法に高いコストを発生させるだけでなく、しばしばプライバシーの懸念につながる。 この問題に対処するために,本研究では,学習プロセスに参加するために,人口のごく一部(クライアントと呼ぶ)のみが選択され,中央サーバは,これらのクライアントの局所的なフィードバックを段階的に個別に収集することで,このような部分的なフィードバックからグローバルモデルを学習する,差分プライベートな分散線形バンドレットについて検討する。 そこで我々は,分散分散位相除去(DP-DPE)と呼ばれる一元的アルゴリズム学習フレームワークを提案し,このフレームワークを一般の差分プライバシー(DP)モデル(中央DP,局所DP,シャッフルDPを含む)と自然に統合することができる。 さらに,DP-DPEがサブリニア・後悔とサブリニア・コミュニケーションの両コストを実現することを証明する。 興味深いことに、DP-DPEはプライバシー保証による追加コストが低次の追加用語であるという意味で、プライバシ保護の ``for free'' も達成している。 また,本手法の副産物として,標準的にプライベートな線形包帯に対して,'free'プライバシーの同じ結果が得られる。 最後に,理論結果の相関をシミュレーションし,DP-DPEの有効性を実証する。

In this paper, we study the problem of global reward maximization with only partial distributed feedback. This problem is motivated by several real-world applications (e.g., cellular network configuration, dynamic pricing, and policy selection) where an action taken by a central entity influences a large population that contributes to the global reward. However, collecting such reward feedback from the entire population not only incurs a prohibitively high cost but often leads to privacy concerns. To tackle this problem, we consider differentially private distributed linear bandits, where only a subset of users from the population are selected (called clients) to participate in the learning process and the central server learns the global model from such partial feedback by iteratively aggregating these clients' local feedback in a differentially private fashion. We then propose a unified algorithmic learning framework, called differentially private distributed phased elimination (DP-DPE), which can be naturally integrated with popular differential privacy (DP) models (including central DP, local DP, and shuffle DP). Furthermore, we prove that DP-DPE achieves both sublinear regret and sublinear communication cost. Interestingly, DP-DPE also achieves privacy protection ``for free'' in the sense that the additional cost due to privacy guarantees is a lower-order additive term. In addition, as a by-product of our techniques, the same results of ``free" privacy can also be achieved for the standard differentially private linear bandits. Finally, we conduct simulations to corroborate our theoretical results and demonstrate the effectiveness of DP-DPE.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# 経験過程に対するインスタンス依存的一様尾辺

Instance-dependent uniform tail bounds for empirical processes ( http://arxiv.org/abs/2209.10053v5 )

ライセンス: Link先を確認
Sohail Bahmani, (参考訳) 検討されたクラスにおける最悪のケース偏差ではなく、関数の個々の偏差の観点から、関数のクラスによってインデックス付けされた経験的過程の均一なテールを定式化する。 テールバウンドは、標準のジェネリックチェイン引数に最初の"デフレ"ステップを導入することで確立される。 結果として生じる尾境界は、タラグランドの$\gamma$関数の一般化の言葉で「膨らませられた函数類」の複雑さの和であり、関数のインスタンスの偏差は、対応するcram\'{e}r関数によって誘導される自然な半ノルムに基づいて定式化される。 また、関数クラスが与えられた(指数型)オルリッツ空間にあるとき、上記の半ノルムに対してある種の近似を与える。

We formulate a uniform tail bound for empirical processes indexed by a class of functions, in terms of the individual deviations of the functions rather than the worst-case deviation in the considered class. The tail bound is established by introducing an initial "deflation" step to the standard generic chaining argument. The resulting tail bound is the sum of the complexity of the "deflated function class" in terms of a generalization of Talagrand's $\gamma$ functional, and the deviation of the function instance, both of which are formulated based on the natural seminorm induced by the corresponding Cram\'{e}r functions. We also provide certain approximations for the mentioned seminorm when the function class lies in a given (exponential type) Orlicz space, that can be used to make the complexity term and the deviation term more explicit.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# セキュアな計算結果からの情報開示を理解する:平均給与計算の検討

Understanding Information Disclosure from Secure Computation Output: A Study of Average Salary Computation ( http://arxiv.org/abs/2209.10457v2 )

ライセンス: Link先を確認
Alessandro Baccarini, Marina Blanton, Shaofeng Zou, (参考訳) セキュアなマルチパーティ計算は近年、大幅にパフォーマンスが向上し、商用製品での利用も増えている。 標準的なセキュリティモデル下での効率向上に多大な労力が費やされたが、脅威モデルでは、安全な機能評価の出力からの情報漏洩を考慮していない。 この研究の主題は、個人の入力に関する情報開示を、機能の結果を観察することから定量化することである。 本研究は,ボストン市における男女賃金格差調査に動機付けられ,給与の平均値の計算に焦点をあて,情報理論手法を用いて1人以上の参加者(対象)の個人的入力に関する情報開示を定量化する。 典型的には給与のモデル化に使用されるログ正規化を含む,多数の分布について検討する。 その結果,複数回実行されたボストンのジェンダーペイスタディで実施されたように,重なり合う入力に対する平均関数の繰り返し評価後の情報開示を評価し,セキュアな計算アプリケーションにおける和関数と平均関数の使用を推奨する。 我々のゴールは、参加者の入力に関する情報開示を所望のレベルに減らし、現実世界で安全な評価を行うためのガイドラインを提供することである。

Secure multi-party computation has seen substantial performance improvements in recent years and is being increasingly used in commercial products. While a significant amount of work was dedicated to improving its efficiency under standard security models, the threat models do not account for information leakage from the output of secure function evaluation. Quantifying information disclosure about private inputs from observing the function outcome is the subject of this work. Motivated by the City of Boston gender pay gap studies, in this work we focus on the computation of the average of salaries and quantify information disclosure about private inputs of one or more participants (the target) to an adversary via information-theoretic techniques. We study a number of distributions including log-normal, which is typically used for modeling salaries. We consequently evaluate information disclosure after repeated evaluation of the average function on overlapping inputs, as was done in the Boston gender pay study that ran multiple times, and provide recommendations for using the sum and average functions in secure computation applications. Our goal is to develop mechanisms that lower information disclosure about participants' inputs to a desired level and provide guidelines for setting up real-world secure evaluation of this function.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# AI-KD:自己知識蒸留のための逆学習と命令正規化

AI-KD: Adversarial learning and Implicit regularization for self-Knowledge Distillation ( http://arxiv.org/abs/2211.10938v2 )

ライセンス: Link先を確認
Hyungmin Kim, Sungho Suh, Sunghyun Baek, Daehwan Kim, Daun Jeong, Hansang Cho, Junmo Kim, (参考訳) 本稿では, 自己知識蒸留法(AI-KD)について, 対人学習と暗黙の蒸留によるトレーニング手順を規則化する, 対人学習と暗黙の正則化という新しい自己知識蒸留法を提案する。 我々のモデルは,事前学習と過去の予測確率から得られた決定論的および進歩的知識を蒸留するだけでなく,逆学習を用いて決定論的予測分布の知識を伝達する。 動機は、自己知識蒸留法が予測確率をソフトターゲットで規則化するが、正確な分布は予測が難しいことである。 本手法では,事前学習したモデルと学生モデルとの分布を識別するために識別器を配置し,学生モデルが訓練された手順で識別器を騙すように訓練する。 このように、学生モデルは、事前訓練されたモデルの予測確率を学習できるだけでなく、事前訓練されたモデルと学生モデルの分布を調整できる。 提案手法の有効性を実証し,提案手法が最先端手法よりも優れた性能を実現することを示す。

We present a novel adversarial penalized self-knowledge distillation method, named adversarial learning and implicit regularization for self-knowledge distillation (AI-KD), which regularizes the training procedure by adversarial learning and implicit distillations. Our model not only distills the deterministic and progressive knowledge which are from the pre-trained and previous epoch predictive probabilities but also transfers the knowledge of the deterministic predictive distributions using adversarial learning. The motivation is that the self-knowledge distillation methods regularize the predictive probabilities with soft targets, but the exact distributions may be hard to predict. Our method deploys a discriminator to distinguish the distributions between the pre-trained and student models while the student model is trained to fool the discriminator in the trained procedure. Thus, the student model not only can learn the pre-trained model's predictive probabilities but also align the distributions between the pre-trained and student models. We demonstrate the effectiveness of the proposed method with network architectures on multiple datasets and show the proposed method achieves better performance than state-of-the-art methods.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# ComCLIP: 学習不要なコンポジションイメージとテキストマッチング

ComCLIP: Training-Free Compositional Image and Text Matching ( http://arxiv.org/abs/2211.13854v4 )

ライセンス: Link先を確認
Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang, (参考訳) Contrastive Language- Image Pretraining (CLIP) は画像とテキストのマッチングに優れたゼロショット性能を示した。 しかし、CLIPのような事前訓練済みの視覚言語モデルをコンポジションイメージやテキストマッチングに適応させることは、依然として困難である。 本稿では、ゼロショット画像とテキストマッチングにおけるより優れた合成一般化に向けて、因果的観点から問題を考察する。 そこで本研究では,新しいCLIPモデル(ComCLIP)を提案する。 ComCLIPは、入力された画像を被写体、オブジェクト、アクションサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成し、合成テキスト埋め込みとサブイメージ埋め込みに対して進化するマッチングを実行する。 このようにして、ComCLIPは、事前訓練されたCLIPモデルによって導入された急激な相関を緩和し、各コンポーネントの重要性を動的に評価することができる。 SVO, ComVG, Winoground, VL-checklistの4つの合成画像テキストマッチングデータセットと, Flick30K, MSCOCOの2つの一般的な画像テキスト検索データセットについて実験を行った。 私たちのコードはhttps://github.com/eric-ai-lab/ComCLIPで参照できます。

Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for matching images and text. However, it is still challenging to adapt vision-lanaguage pretrained models like CLIP to compositional image and text matching -- a more challenging image and text matching task requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel \textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP's vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically evaluate the importance of each component. Experiments on four compositional image-text matching datasets: SVO, ComVG, Winoground, and VL-checklist, and two general image-text retrieval datasets: Flick30K, and MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even without further training or fine-tuning. Our codes can be found at https://github.com/eric-ai-lab/ComCLIP.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# 実運用課題を考慮した時間同期フルシステム状態推定

Time-Synchronized Full System State Estimation Considering Practical Implementation Challenges ( http://arxiv.org/abs/2212.01729v3 )

ライセンス: Link先を確認
Antos Cheeramban Varghese, Hritik Shah, Behrouz Azimian, Anamitra Pal, Evangelos Farantatos, (参考訳) ファサー測定ユニット(PMU)の配置問題にはコスト対効果のトレードオフが伴うため、より高い電圧バスにより多くのPMUが配置される。 しかし、これはバルク電力システムの低電圧レベルの多くがPMUによって観測されない原因となる。 この可視性の欠如は、完全なシステムの時間同期状態推定を困難な問題にする。 この問題を解決するために,Deep Neural Network-based State Estimator (DeNSE)を提案する。 DeNSEは、遅延時間スケールから引き出された推論と広範囲の監視制御とデータ取得(SCADA)データを高速時間スケールで間接的に組み合わせ、PMUデータを選択してシステム全体のサブ秒の状況認識を実現する。 提案手法の実用性は, トポロジー変化, 非ガウス計測ノイズ, 悪いデータ検出と補正を考慮することで実証される。 IEEE 118-busシステムを用いて得られた結果は、純粋にSCADA状態推定器とPMUのみの線形状態推定器よりもDeNSEの優位性を示す。 最後に、DeNSEのスケーラビリティは、大規模で現実的な2000-bus Synthetic Texasシステムの状態を推定することで証明されている。

As the phasor measurement unit (PMU) placement problem involves a cost-benefit trade-off, more PMUs get placed on the higher voltage buses. However, this causes many of the lower voltage levels of the bulk power system to not be observed by PMUs. This lack of visibility then makes time-synchronized state estimation of the full system a challenging problem. We propose a Deep Neural network-based State Estimator (DeNSE) to overcome this problem. The DeNSE employs a Bayesian framework to indirectly combine inferences drawn from slow timescale but widespread supervisory control and data acquisition (SCADA) data with fast timescale but select PMU data to attain sub-second situational awareness of the entire system. The practical utility of the proposed approach is demonstrated by considering topology changes, non-Gaussian measurement noise, and bad data detection and correction. The results obtained using the IEEE 118-bus system show the superiority of the DeNSE over a purely SCADA state estimator and a PMU-only linear state estimator from a techno-economic viability perspective. Lastly, scalability of the DeNSE is proven by estimating the states of a large and realistic 2000-bus Synthetic Texas system.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# CBNet: セグメンテーションに基づくシーンテキスト検出のためのプラグイン・アンド・プレイネットワーク

CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection ( http://arxiv.org/abs/2212.02340v3 )

ライセンス: Link先を確認
Xi Zhao, Wei Feng, Zheng Zhang, Jingjing Lv, Xin Zhu, Zhangang Lin, Jinghe Hu, Jingping Shao, (参考訳) 近年,シーンテキスト検出では,主にテキストカーネルのセグメンテーションと拡張の2段階を含むセグメンテーションベースの手法が広く普及している。 しかし、分割処理は各画素を独立に考慮し、拡張処理は良好な精度と速度のトレードオフを達成するのが困難である。 本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。 CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。 そこで本稿では,グローバルなコンテキストとローカルなコンテキストの両方を考慮し,テキストカーネルの特徴表現を強化するコンテキスト認識モジュールを提案する。 最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張可能な境界誘導モジュールを導入し,テキスト境界を正確に取得するだけでなく,特に高解像度の出力マップ上で高速に保持する。 特に、軽量なバックボーンを用いて、提案したCBNを用いた基本検出器は、いくつかの一般的なベンチマークで最先端の結果を得ることができ、提案したCBNは、いくつかのセグメンテーションベースの方法にプラグインすることができる。 コードはhttps://github.com/XiiZhao/cbn.pytorch.comで入手できる。

Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code is available at https://github.com/XiiZhao/cbn.pytorch.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# トランスモン量子コンピュータの準周期パターンの摂動解析:多体局在の強化

Perturbative Analysis of Quasi-periodic Patterning of Transmon Quantum Computers: Enhancement of Many-Body Localization ( http://arxiv.org/abs/2212.03805v2 )

ライセンス: Link先を確認
Evangelos Varvelis, David P. DiVincenzo, (参考訳) 近年、トランスモン量子ビットアーキテクチャは、多体局在化と量子カオス相の遷移を経験していることが示されている。 系が局所的な状態にあることは量子計算にとって重要であるが、これを達成するための最も一般的な方法はジョセフソン接合パラメータの障害に依存している。 本稿では、乱数障害の代用としてパラメータの準周期パターン化を提案する。 我々は、Walsh-Hadamard診断を用いて、準周期性は局所化を達成する障害よりも効果的であることを示した。 大規模で実験的なシステムサイズに対する新しいハミルトン系の局所化特性を研究するために、多体相互作用に関する2つの補摂動理論スキームと、自由ハミルトンのホッピングパラメータに関する2つの補摂動理論を用いる。

Recently it has been shown that transmon qubit architectures experience a transition between a many-body localized and a quantum chaotic phase. While it is crucial for quantum computation that the system remains in the localized regime, the most common way to achieve this has relied on disorder in Josephson junction parameters. Here we propose a quasi-periodic patterning of parameters as a substitute for random disorder. We demonstrate, using the Walsh-Hadamard diagnostic, that quasiperiodicity is more effective than disorder for achieving localization. In order to study the localizing properties of our new Hamiltonian for large, experimentally relevant system sizes, we use two complementary perturbation-theory schemes, one with respect to the many-body interactions and one with respect to hopping parameter of the free Hamiltonian.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# MicroRes: Degradation Dissemination IndexingによるマイクロサービスのVersatile Resilience Profiling

MicroRes: Versatile Resilience Profiling in Microservices via Degradation Dissemination Indexing ( http://arxiv.org/abs/2212.12850v3 )

ライセンス: Link先を確認
Tianyi Yang, Cheryl Lee, Jiacheng Shen, Yuxin Su, Yongqiang Yang, Michael R. Lyu, (参考訳) マイクロサービスのレジリエンス — 障害から回復し、信頼性と応答性を備えたサービスの提供を継続する能力 — は、クラウドベンダにとって極めて重要です。 しかしながら、現在のプラクティスは、特定のマイクロサービスシステムに特有の手動で設定されたルールに依存しているため、マイクロサービスの大規模かつ高ダイナミック性を考えれば、労働インテンシティと柔軟性の問題が発生します。 より労働効率が高く、多目的なソリューションが望まれます。 私たちの洞察では、レジリエントなデプロイメントは、システムパフォーマンスメトリクスからユーザ対応メトリクスへの劣化を効果的に防止し、後者はサービス品質に直接影響を与えます。 言い換えれば、非レジリエントなデプロイメントにおける障害は、両方のタイプのメトリクスに影響し、ユーザの不満を招きます。 このことを念頭に置いて、分解拡散インデックスによるマイクロサービスのための初の汎用レジリエンスプロファイリングフレームワークであるMicroResを提案する。 MicroResはまずマイクロサービスに障害を注入し、利用可能な監視メトリクスを収集します。 そして、全体的なサービス劣化へのコントリビューションに応じてメトリクスをランク付けします。 システムパフォーマンスのメトリクスからユーザ対応のメトリクスまで、どの程度の劣化が分散しているかによって、レジリエンスの指標を生成する。 高い劣化拡散は、レジリエンスの低下を示す。 2つのオープンソースと1つの産業用マイクロサービスシステム上でMicroResを評価する。 実験では、マイクロサービスの効率よく効果的なレジリエンスプロファイリングが示されている。 MicroResの実用的利用についても紹介する。

Microservice resilience, the ability of microservices to recover from failures and continue providing reliable and responsive services, is crucial for cloud vendors. However, the current practice relies on manually configured rules specific to a certain microservice system, resulting in labor-intensity and flexibility issues, given the large scale and high dynamics of microservices. A more labor-efficient and versatile solution is desired. Our insight is that resilient deployment can effectively prevent the dissemination of degradation from system performance metrics to user-aware metrics, and the latter directly affects service quality. In other words, failures in a non-resilient deployment can impact both types of metrics, leading to user dissatisfaction. With this in mind, we propose MicroRes, the first versatile resilience profiling framework for microservices via degradation dissemination indexing. MicroRes first injects failures into microservices and collects available monitoring metrics. Then, it ranks the metrics according to their contributions to the overall service degradation. It produces a resilience index by how much the degradation is disseminated from system performance metrics to user-aware metrics. Higher degradation dissemination indicates lower resilience. We evaluate MicroRes on two open-source and one industrial microservice system. The experiments show MicroRes' efficient and effective resilience profiling of microservices. We also showcase MicroRes' practical usage in production.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# Rieszカーネルを用いた最大平均誤差に対するニューラルワッサースタイン勾配流

Neural Wasserstein Gradient Flows for Maximum Mean Discrepancies with Riesz Kernels ( http://arxiv.org/abs/2301.11624v3 )

ライセンス: Link先を確認
Fabian Altekrüger, Johannes Hertrich, Gabriele Steidl, (参考訳) 非滑らかなリース核を持つ最大平均差分関数(MMD)のワッサーシュタイン勾配フローは、特異測度が絶対連続なものとなり、逆に連続となるため、リッチな構造を示す。 本稿では,そのような流れの理解に寄与する。 本稿では、ワーサースタイン勾配流の計算と、ニューラルネットワーク(NN)によるワーサースタイン急降下流のフォワードスキームについて、ヨルダン、キンダーラー、オットーの逆向きスキームを近似することを提案する。 絶対連続的な測度に制限できないため、通常の輸送地図や速度場ではなく、輸送計画や速度計画に対処する必要がある。 実際、適切な損失関数について学習した生成NNによる両計画の分解を近似する。 両ニューラルスキームの品質を評価するため,相互作用エネルギーをベンチマークする。 ここでは、ディラック測度から始まるワッサーシュタインスキームの解析式を提供し、時間ステップサイズがゼロになる傾向にあるときにそれらの収束を示す。 最後に,ニューラルネットワークによるMDDの流れを数値例で示す。

Wasserstein gradient flows of maximum mean discrepancy (MMD) functionals with non-smooth Riesz kernels show a rich structure as singular measures can become absolutely continuous ones and conversely. In this paper we contribute to the understanding of such flows. We propose to approximate the backward scheme of Jordan, Kinderlehrer and Otto for computing such Wasserstein gradient flows as well as a forward scheme for so-called Wasserstein steepest descent flows by neural networks (NNs). Since we cannot restrict ourselves to absolutely continuous measures, we have to deal with transport plans and velocity plans instead of usual transport maps and velocity fields. Indeed, we approximate the disintegration of both plans by generative NNs which are learned with respect to appropriate loss functions. In order to evaluate the quality of both neural schemes, we benchmark them on the interaction energy. Here we provide analytic formulas for Wasserstein schemes starting at a Dirac measure and show their convergence as the time step size tends to zero. Finally, we illustrate our neural MMD flows by numerical examples.
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# M3FAS:正確でロバストなマルチモーダル・モバイル・フェイス・アンチ・スプーフィングシステム

M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System ( http://arxiv.org/abs/2301.12831v3 )

ライセンス: Link先を確認
Chenqi Kong, Kexin Zheng, Yibing Liu, Shiqi Wang, Anderson Rocha, Haoliang Li, (参考訳) フェース・スプーフィング(face spoofing)としても知られるフェイス・プレゼンテーション・アタック(FPA)は、金融詐欺やプライバシー侵害など様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。 したがって、FPAに対する顔認識システムの保護が最も重要である。 既存の学習ベースフェース・スプーフィング(FAS)モデルは優れた検出性能を達成できるが、一般化能力が欠如し、予期せぬ環境下での大幅な性能低下を被る。 多くの方法論は、この制限に対処するために、プレゼンテーションアタック検出(PAD)において補助モダリティデータ(例えば、深度や赤外線マップ)を使用することを目指している。 しかし,これらの手法は,(1)コモディティなモバイルデバイスではめったに利用できない深度カメラや赤外線カメラなどの特定のセンサーを必要とすること,(2)モダリティの欠如や品質の低下など,現実的なシナリオでは適切に動作できないこと,などによって制限される可能性がある。 本稿では,M3FASというマルチモーダル・モバイル・フェイス・アンチ・スポーフィング・システムを開発した。 本研究の主な革新は,(1) 頑健なPADを実現するために, カメラ, スピーカ, マイクの3つの一般的なセンサを用いて視覚と聴覚のモダリティを組み合わせ, (2) 3つの階層的特徴集約モジュールを備えた新しい2分岐ニューラルネットワークを設計し, クロスモーダルな特徴融合を行う。 我々は,視覚,音響,融合ヘッドから予測を出力し,より柔軟なPADを実現するマルチヘッドトレーニング戦略を提案する。 様々な挑戦的な実験環境下でのM3FASの精度、堅牢性、柔軟性を広範囲にわたる実験により実証した。 ソースコードとデータセットは、https://github.com/ChenqiKONG/M3FAS/で入手できる。

Face presentation attacks (FPA), also known as face spoofing, have brought increasing concerns to the public through various malicious applications, such as financial fraud and privacy leakage. Therefore, safeguarding face recognition systems against FPA is of utmost importance. Although existing learning-based face anti-spoofing (FAS) models can achieve outstanding detection performance, they lack generalization capability and suffer significant performance drops in unforeseen environments. Many methodologies seek to use auxiliary modality data (e.g., depth and infrared maps) during the presentation attack detection (PAD) to address this limitation. However, these methods can be limited since (1) they require specific sensors such as depth and infrared cameras for data capture, which are rarely available on commodity mobile devices, and (2) they cannot work properly in practical scenarios when either modality is missing or of poor quality. In this paper, we devise an accurate and robust MultiModal Mobile Face Anti-Spoofing system named M3FAS to overcome the issues above. The primary innovation of this work lies in the following aspects: (1) To achieve robust PAD, our system combines visual and auditory modalities using three commonly available sensors: camera, speaker, and microphone; (2) We design a novel two-branch neural network with three hierarchical feature aggregation modules to perform cross-modal feature fusion; (3). We propose a multi-head training strategy, allowing the model to output predictions from the vision, acoustic, and fusion heads, resulting in a more flexible PAD. Extensive experiments have demonstrated the accuracy, robustness, and flexibility of M3FAS under various challenging experimental settings. The source code and dataset are available at: https://github.com/ChenqiKONG/M3FAS/
翻訳日:2024-03-22 20:49:10 公開日:2024-03-21
# Davis-Yin 分割による整数線形プログラムの解法

Learning to Solve Integer Linear Programs with Davis-Yin Splitting ( http://arxiv.org/abs/2301.13395v3 )

ライセンス: Link先を確認
Daniel McKenzie, Samy Wu Fung, Howard Heaton, (参考訳) 多くの応用において、組合せ問題は類似しているが異なるパラメータで繰り返し解決されなければならない。 しかし、パラメータ$w$は直接観測されておらず、$w$と相関するコンテキストデータ$d$のみが利用可能である。 ニューラルネットワークを使って$d$の$w$を予測する傾向があります。 しかし、そのようなモデルをトレーニングするには、ニューラルネットワークのトレーニングに使用される勾配ベースのフレームワークと組み合わせ最適化の離散的な性質を調整する必要がある。 問題となるのが整数線形プログラム(ILP)の場合、このトレーニング問題を克服するための一つのアプローチは、組合せ問題の継続的な緩和を考えることである。 このアプローチを利用した既存の手法は、小さな問題に対して非常に効果的であることが示されているが、必ずしも大きな問題に対してうまくスケールするとは限らない。 本研究では,最新の凸最適化から,数千の変数を扱う問題に対して無駄にスケールするネットワークとトレーニングスキームを設計するためのアイデアを導出する。 提案手法は,最短経路問題とknapsack問題という2つの代表的な問題に対して,計算上の優位性を検証した。

In many applications, a combinatorial problem must be repeatedly solved with similar, but distinct parameters. Yet, the parameters $w$ are not directly observed; only contextual data $d$ that correlates with $w$ is available. It is tempting to use a neural network to predict $w$ given $d$. However, training such a model requires reconciling the discrete nature of combinatorial optimization with the gradient-based frameworks used to train neural networks. When the problem in question is an Integer Linear Program (ILP), one approach to overcome this training issue is to consider a continuous relaxation of the combinatorial problem. While existing methods utilizing this approach have shown to be highly effective on small problems, they do not always scale well to large problems. In this work, we draw on ideas from modern convex optimization to design a network and training scheme which scales effortlessly to problems with thousands of variables. Our experiments verify the computational advantage our proposed method enjoys on two representative problems, namely the shortest path problem and the knapsack problem.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 感性属性アクセスのない公平な分類のためのハイパーパラメータチューニング

Hyper-parameter Tuning for Fair Classification without Sensitive Attribute Access ( http://arxiv.org/abs/2302.01385v2 )

ライセンス: Link先を確認
Akshaj Kumar Veldanda, Ivan Brugere, Sanghamitra Dutta, Alan Mishler, Siddharth Garg, (参考訳) 公正な機械学習手法は、人種や性別といったセンシティブな属性に基づいて定義された人口動態サブグループ間でモデルパフォーマンスのバランスをとるモデルを訓練しようとする。 敏感な属性は通常、トレーニング中に知られていると仮定されるが、プライバシやその他の論理的懸念のため、実際には利用できない可能性がある。 最近の研究は、トレーニングデータに敏感な属性を持たずに公正なモデルをトレーニングしようと試みている。 しかし、これらの手法は、良好な結果を得るために広範囲なハイパーパラメータチューニングを必要とし、したがって、機密属性が検証データで知られていると仮定する。 しかし、この仮定も現実的ではないかもしれない。 ここでは、トレーニングデータや検証データに対して、機密属性にアクセスせずに公平な分類器を訓練するフレームワークであるAntigoneを提案する。 その代わりに、偏見付き分類器を訓練し、少数派(多数派)群のプロキシとして誤って(正しく)ラベル付けされた例を用いて検証データに擬似的な属性を生成する。 人口統計値,均等機会,サブグループ精度などのフェアネス指標は,ノイズに敏感な属性情報であっても比例定数で推定できるため,これらのプロキシラベルは平均的精度制約下でのフェアネスを最大化するために有効であることを示す理論的かつ実証的な方法である。 本結果の鍵となるのが, 偏差分級器の超パラメータを非教師的手法で選択する原理的手法であり, ノイズと地味感性ラベルを用いて推定した公平性の間のギャップを最小化する。

Fair machine learning methods seek to train models that balance model performance across demographic subgroups defined over sensitive attributes like race and gender. Although sensitive attributes are typically assumed to be known during training, they may not be available in practice due to privacy and other logistical concerns. Recent work has sought to train fair models without sensitive attributes on training data. However, these methods need extensive hyper-parameter tuning to achieve good results, and hence assume that sensitive attributes are known on validation data. However, this assumption too might not be practical. Here, we propose Antigone, a framework to train fair classifiers without access to sensitive attributes on either training or validation data. Instead, we generate pseudo sensitive attributes on the validation data by training a biased classifier and using the classifier's incorrectly (correctly) labeled examples as proxies for minority (majority) groups. Since fairness metrics like demographic parity, equal opportunity and subgroup accuracy can be estimated to within a proportionality constant even with noisy sensitive attribute information, we show theoretically and empirically that these proxy labels can be used to maximize fairness under average accuracy constraints. Key to our results is a principled approach to select the hyper-parameters of the biased classifier in a completely unsupervised fashion (meaning without access to ground truth sensitive attributes) that minimizes the gap between fairness estimated using noisy versus ground-truth sensitive labels.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# ニューラルコードモデル解釈のための因果論に向けて

Toward a Theory of Causation for Interpreting Neural Code Models ( http://arxiv.org/abs/2302.03788v3 )

ライセンス: Link先を確認
David N. Palacio, Alejandro Velasco, Nathan Cooper, Alvaro Rodriguez, Kevin Moran, Denys Poshyvanyk, (参考訳) コードのニューラル言語モデル(Neural Language Models of Code、NCM)は、研究プロトタイプから商用開発ツールまで、急速に進歩している。 そのため、そのようなモデルの能力と限界を理解することが重要になっている。 しかしながら、これらのモデルの能力は通常、実際のパフォーマンスの一部だけを明らかにする自動メトリクスを使用して測定される。 一般的には、NCMのパフォーマンスは有望であるように思われるが、現在、そのようなモデルがどのように決定を下すかは不明だ。 そこで本研究では,モデル予測を記述可能な NCM 固有のポストホック解釈法である $do_{code}$ を紹介する。 $do_{code}$は、言語指向の説明を可能にする因果推論に基づいている。 do_{code}$の理論的基盤は、異なるモデル特性を探索するために拡張可能であるが、プログラミング言語の性質におけるモデル挙動の説明を基礎として、突発的相関の影響を軽減することを目的とした具体的なインスタンス化を提供する。 do_{code}$の実用的メリットを実証するために,2つの人気のあるディープラーニングアーキテクチャと10のNCMに関するケーススタディを実行することで,我々のフレームワークが提供できる洞察について説明する。 このケーススタディの結果から,NCMはコード構文の変化に敏感であることが示唆された。 BERTライクなモデルを除いて、我々のNCMは、他のプログラミング言語の構造と比べて、曖昧なバイアスが少なく、コードのブロック(グレッグ括弧、括弧、セミコロン)に関連するトークンを統計的に予測することを学びます。 これらの知見は、NCMにおける共起バイアスの検出と緩和に有用な方法として$do_{code}$の可能性を示している。

Neural Language Models of Code, or Neural Code Models (NCMs), are rapidly progressing from research prototypes to commercial developer tools. As such, understanding the capabilities and limitations of such models is becoming critical. However, the abilities of these models are typically measured using automated metrics that often only reveal a portion of their real-world performance. While, in general, the performance of NCMs appears promising, currently much is unknown about how such models arrive at decisions. To this end, this paper introduces $do_{code}$, a post hoc interpretability method specific to NCMs that is capable of explaining model predictions. $do_{code}$ is based upon causal inference to enable programming language-oriented explanations. While the theoretical underpinnings of $do_{code}$ are extensible to exploring different model properties, we provide a concrete instantiation that aims to mitigate the impact of spurious correlations by grounding explanations of model behavior in properties of programming languages. To demonstrate the practical benefit of $do_{code}$, we illustrate the insights that our framework can provide by performing a case study on two popular deep learning architectures and ten NCMs. The results of this case study illustrate that our studied NCMs are sensitive to changes in code syntax. All our NCMs, except for the BERT-like model, statistically learn to predict tokens related to blocks of code (\eg brackets, parenthesis, semicolon) with less confounding bias as compared to other programming language constructs. These insights demonstrate the potential of $do_{code}$ as a useful method to detect and facilitate the elimination of confounding bias in NCMs.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 量子ギースワークの達成にむけて

On the Measurement attaining the Quantum Guesswork ( http://arxiv.org/abs/2302.06783v2 )

ライセンス: Link先を確認
Michele Dall'Arno, (参考訳) 推定作業は、一度に1つの状態のみをクエリできる場合に、アンサンブルの状態を予測する際に発生する最小コストを定量化する。 古典的な場合、最適戦略は、後続確率の非増加順序で状態を問い合わせることによって自明に成り立っていることはよく知られている。 一方、量子の場合、クエリを実行するための最適な順序付けを得るための最も一般的な戦略は、量子測定である。 そこで我々は,広い種類のアンサンブルとコスト関数の推測結果を得る量子測度を導出することにより,このような最適化問題を解く。

The guesswork quantifies the minimum cost incurred in guessing the state of an ensemble, when only one state can be queried at a time. In the classical case, it is well known that the optimal strategy trivially consists of querying the states in their non-increasing order of posterior probability. In the quantum case, on the other hand, the most general strategy to obtain the optimal ordering in which to perform the queries consist of a quantum measurement. Here, we solve such an optimization problem by deriving the quantum measurement attaining the guesswork for a broad class of ensembles and cost functions.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 深層学習における不確実性定量化に関する調査:不確実性源の視点

A Survey on Uncertainty Quantification for Deep Learning: An Uncertainty Source Perspective ( http://arxiv.org/abs/2302.13425v3 )

ライセンス: Link先を確認
Wenchong He, Zhe Jiang, (参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、科学と工学の領域の正確な予測に成功している。 しかし、DNNが予期せぬ、誤った、しかし自信過剰な予測をすることもあることもよく認識されている。 これは、自律運転、医療診断、災害対応など、高度な応用において深刻な結果をもたらす可能性がある。 不確かさ定量化(UQ)は、予測精度以上のDNN予測の信頼性を推定することを目的としている。 近年,DNN向けに多くのUQ手法が開発されている。 これらのUQ手法を体系的に分類し、それらの利点と欠点を比較することは、非常に実践的な価値である。 しかしながら、既存の調査は主に、ニューラルネットワークアーキテクチャの観点からUQ方法論を分類すること、あるいはベイズ的な視点から分類することに焦点を当て、各方法論が組み込むことのできる不確実性の源を無視し、実際に適切なUQメソッドを選択するのが困難である。 このギャップを埋めるために,不確実性源の種類(データ不確実性とモデル不確実性)に基づいて,DNNのUQ手法の系統的な分類法を提案する。 各カテゴリーにおける手法の長所と短所をまとめた。 我々は、我々のUQ方法論の分類が、異なる機械学習問題(例えば、アクティブラーニング、堅牢性、強化学習)におけるUQ手法の選択を導くのにどのように役立つかを示す。 また,現在の研究ギャップを特定し,今後の研究方向性を提案する。

Deep neural networks (DNNs) have achieved tremendous success in making accurate predictions for computer vision, natural language processing, as well as science and engineering domains. However, it is also well-recognized that DNNs sometimes make unexpected, incorrect, but overconfident predictions. This can cause serious consequences in high-stake applications, such as autonomous driving, medical diagnosis, and disaster response. Uncertainty quantification (UQ) aims to estimate the confidence of DNN predictions beyond prediction accuracy. In recent years, many UQ methods have been developed for DNNs. It is of great practical value to systematically categorize these UQ methods and compare their advantages and disadvantages. However, existing surveys mostly focus on categorizing UQ methodologies from a neural network architecture perspective or a Bayesian perspective and ignore the source of uncertainty that each methodology can incorporate, making it difficult to select an appropriate UQ method in practice. To fill the gap, this paper presents a systematic taxonomy of UQ methods for DNNs based on the types of uncertainty sources (data uncertainty versus model uncertainty). We summarize the advantages and disadvantages of methods in each category. We show how our taxonomy of UQ methodologies can potentially help guide the choice of UQ method in different machine learning problems (e.g., active learning, robustness, and reinforcement learning). We also identify current research gaps and propose several future research directions.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 慣性位置決めのためのディープラーニング:サーベイ

Deep Learning for Inertial Positioning: A Survey ( http://arxiv.org/abs/2303.03757v3 )

ライセンス: Link先を確認
Changhao Chen, Xianfei Pan, (参考訳) 慣性センサーはスマートフォン、ドローン、ロボット、IoTデバイスで広く利用されており、ユビキタスで信頼性の高いローカライゼーションを実現する上で重要な役割を果たしている。 慣性センサーによる位置決めは、パーソナルナビゲーション、ロケーションベースのセキュリティ、ヒューマンデバイスインタラクションなど、さまざまなアプリケーションにおいて不可欠である。 しかし、低コストのMEMS慣性センサの測定は、様々なエラーソースによって必然的に破壊され、従来の慣性ナビゲーションアルゴリズムに二重に統合された場合、慣性位置を誤差ドリフトの問題に従わなければならない。 近年,センサデータや計算能力の急速な増加に伴い,深層学習技術が開発され,慣性位置決めの問題に対処するための重要な研究が進められている。 この分野での関連文献は、モバイルコンピューティング、ロボティクス、機械学習にまたがっている。 本稿では,ディープラーニングに基づく慣性位置決めとその歩行者,ドローン,車両,ロボットの追跡への応用について概説する。 センサキャリブレーションや位置誤差ドリフト低減,マルチセンサフュージョンといった問題に対して,さまざまな分野からの取り組みを結びつけ,ディープラーニングをどのように適用できるかについて議論する。 本稿は,深層学習技術が慣性的位置決め問題を解決する可能性に関心を持つ研究者や実践者を含む,さまざまな背景から読者を引きつけることを目的としている。 私たちのレビューでは、ディープラーニングがテーブルにもたらすエキサイティングな可能性を示し、この分野における今後の研究のロードマップを提供しています。

Inertial sensors are widely utilized in smartphones, drones, robots, and IoT devices, playing a crucial role in enabling ubiquitous and reliable localization. Inertial sensor-based positioning is essential in various applications, including personal navigation, location-based security, and human-device interaction. However, low-cost MEMS inertial sensors' measurements are inevitably corrupted by various error sources, leading to unbounded drifts when integrated doubly in traditional inertial navigation algorithms, subjecting inertial positioning to the problem of error drifts. In recent years, with the rapid increase in sensor data and computational power, deep learning techniques have been developed, sparking significant research into addressing the problem of inertial positioning. Relevant literature in this field spans across mobile computing, robotics, and machine learning. In this article, we provide a comprehensive review of deep learning-based inertial positioning and its applications in tracking pedestrians, drones, vehicles, and robots. We connect efforts from different fields and discuss how deep learning can be applied to address issues such as sensor calibration, positioning error drift reduction, and multi-sensor fusion. This article aims to attract readers from various backgrounds, including researchers and practitioners interested in the potential of deep learning-based techniques to solve inertial positioning problems. Our review demonstrates the exciting possibilities that deep learning brings to the table and provides a roadmap for future research in this field.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 連続可変量子状態の効率的な学習

Efficient Learning of Continuous-Variable Quantum States ( http://arxiv.org/abs/2303.05097v2 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Giulio Chiribella, Nana Liu, (参考訳) 連続可変量子状態のキャラクタリゼーションは、量子通信、センシング、シミュレーション、計算における応用に不可欠である。 しかし、マルチモード量子状態の完全な特徴づけは、モードの数とともに指数関数的に成長する多くの実験を必要とする。 ここでは、目的が完全な量子状態の再構成ではなく、その特性関数を与えられた点集合で見積もることである別のアプローチを提案する。 反射対称性を持つ多モード状態に対して、M$点の特性関数はモードの数によらず、状態のコピーの$O(\log M)$だけを用いて推定できることが示される。 圧縮真空状態の場合のように、特性関数が正であることが分かっているとき、コピーの数は定数にさらに減らすことができる。 これらの場合、ビームスプリッターとホモダイン測定のみを用いて実験的にフレンドリーな設定により推定が達成される。

The characterization of continuous-variable quantum states is crucial for applications in quantum communication, sensing, simulation and computing. However, a full characterization of multimode quantum states requires a number of experiments that grows exponentially with the number of modes. Here we propose an alternative approach where the goal is not to reconstruct the full quantum state, but rather to estimate its characteristic function at a given set of points. For multimode states with reflection symmetry, we show that the characteristic function at $M$ points can be estimated using only $O(\log M)$ copies of the state, independently of the number of modes. The number of copies can be further reduced to a constant when the characteristic function is known to be positive, as in the case of squeezed vacuum states. In these cases, the estimation is achieved by an experimentally friendly setup using only beamsplitters and homodyne measurements.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# Mpox-AISM: AIによるMpoxとLike-Mpoxのスーパーモニタリング

Mpox-AISM: AI-Mediated Super Monitoring for Mpox and Like-Mpox ( http://arxiv.org/abs/2303.09780v3 )

ライセンス: Link先を確認
Yubiao Yue, Minghua Jiang, Xinyue Zhang, Jialong Xu, Huacong Ye, Fan Zhang, Zhenzhang Li, Yang Li, (参考訳) アンポックス(モンキーポックス)の拡散を防ぐための鍵は、早期に感染した人の時間的、便利な、正確な診断にある。 不幸なことに、一般的な皮膚疾患とmpoxとの類似性と専門診断の必要性は、Mpoxの早期診断を必然的に悪化させ、混雑した地域での流行に寄与した。 そこで我々は,人工知能とインターネット技術を用いたリアルタイム可視化手法"Super Monitoring"を提案する。 具体的には、AIを介するスーパーモニタリング(Mpox-AISM)は、ディープラーニングモデル、データ拡張、自己教師型学習、クラウドサービスによって組み立てられたフレームワークを起動する。 公開データセットで検証されたMpox-AISMの精度、リコール、特異性、F1スコアはそれぞれ99.3%、94.1%、99.9%、96.6%である。 さらに、Mpox-AISMの全体的な精度は、両生類、同種皮膚疾患6例、正常皮膚の診断において94.51%に達する。 また,Mpox-AISMの決定過程を説明するために,勾配重み付きクラスアクティベーションマッピングを用いた。 インターネットと通信端末の助けを借りて、Mpox-AISMは、様々な現実の環境で、早期のmpoxに対してリアルタイム、低コスト、便利な診断を行うことができ、これにより、mpoxウイルスの拡散を効果的に抑制することができる。

The key to preventing the spread of mpox (monkeypox) lies in timely, convenient, and accurate diagnosis for earlier-stage infected individuals. Unfortunately, the resemblances between common skin diseases and mpox and the need for professional diagnosis inevitably deteriorated the diagnosis of earlier-stage patients with Mpox and contributed to its widespread outbreak in crowded areas. Here, we proposed a real-time visualization strategy called "Super Monitoring" using artificial intelligence and Internet technology, thereby performing a low-cost, convenient, timely, and unspecialized diagnosis for earlier-stage mpox. Specifically, such AI-mediated "super monitoring" (Mpox-AISM) invokes a framework assembled by deep learning models, data augmentation, self-supervised learning, and cloud services. Verified by publicly available datasets, the Precision, Recall, Specificity, and F1-score of Mpox-AISM in diagnosing mpox achieved 99.3%, 94.1%, 99.9%, and 96.6%, respectively. Furthermore, Mpox-AISM's overall accuracy reaches 94.51% in diagnosing mpox, six like-mpox skin diseases, and normal skin. We also employed gradient-weighted class activation mapping to explain the decision-making process of Mpox-AISM, thus handily understanding the specific characteristics that may indicate the mpox's onset and improving its reliability. With the help of the Internet and communication terminal, Mpox-AISM can perform a real-time, low-cost, and convenient diagnosis for earlier-stage mpox in various real-world settings, thereby effectively curbing the spread of mpox virus.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 不均一関数データに対するセグメンテーションの混合

Mixture of segmentation for heterogeneous functional data ( http://arxiv.org/abs/2303.10712v2 )

ライセンス: Link先を確認
Vincent Brault, Émilie Devijver, Charlotte Laclau, (参考訳) 本稿では,時間的・人口的に不均一な機能的データについて考察する。 関数構造を保ちながら、この不均一性を表現するために、時間分割を伴う混合モデルを提案する。 最大確率推定器は、同定可能で一貫したものであることが証明されている。 実際、EMアルゴリズムと最大化ステップの動的プログラミングを組み合わせて、最大極大推定器を近似する。 この方法はシミュレーションされたデータセットで説明され、実際の電力消費のデータセットで使用される。

In this paper we consider functional data with heterogeneity in time and in population. We propose a mixture model with segmentation of time to represent this heterogeneity while keeping the functional structure. Maximum likelihood estimator is considered, proved to be identifiable and consistent. In practice, an EM algorithm is used, combined with dynamic programming for the maximization step, to approximate the maximum likelihood estimator. The method is illustrated on a simulated dataset, and used on a real dataset of electricity consumption.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# 深度共分散関数の学習

Learning a Depth Covariance Function ( http://arxiv.org/abs/2303.12157v2 )

ライセンス: Link先を確認
Eric Dexheimer, Andrew J. Davison, (参考訳) 幾何学的視覚タスクへの応用を目的とした深度共分散関数の学習を提案する。 入力としてRGB画像が与えられた場合、共分散関数は、深度関数、与えられた観測値の予測分布、アクティブな点選択の方法などについて、柔軟に定義することができる。 我々は,これらの手法を,深度補正,バンドル調整,モノクローナル高密度視覚計測といった下流タスクの選択に活用する。

We propose learning a depth covariance function with applications to geometric vision tasks. Given RGB images as input, the covariance function can be flexibly used to define priors over depth functions, predictive distributions given observations, and methods for active point selection. We leverage these techniques for a selection of downstream tasks: depth completion, bundle adjustment, and monocular dense visual odometry.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# ビデオデモへのステップバイステップインストラクショナルダイアグラムの適応

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations ( http://arxiv.org/abs/2303.13800v4 )

ライセンス: Link先を確認
Jiahao Zhang, Anoop Cherian, Yanbin Liu, Yizhak Ben-Shabat, Cristian Rodriguez, Stephen Gould, (参考訳) マルチモーダルアライメントは、あるモダリティから別のモダリティを使ってクエリする際のインスタンスの検索を容易にする。 本稿では,このようなアライメントを両立させる新しい環境について考察する。 一 組立図(池田組立マニュアルによく見られる)、及び (II)このビデオは,実世界の組み立て動作を再現した映像である。 このアライメントを学習するために,新しい教師付きコントラスト学習手法を導入する。 本手法の有効性を検証し,本手法の有効性を示すために,多様な家具組立コレクションから183時間分の映像と関連する指導マニュアルから8,300点近いイラストを収録した野生のイケア組立用IAWと,それらの真実のアライメントに注釈を付したアノテートを用いた新しいデータセットを提案する。 このデータセットでは、まず、ビデオセグメントとイラストの隣り合う検索と、命令ステップと各ビデオのセグメントのアライメントという2つのタスクを定義している。 IAWに関する大規模な実験は、代替案に対する我々のアプローチの優れた性能を示す。

Multimodal alignment facilitates the retrieval of instances from one modality when queried using another. In this paper, we consider a novel setting where such an alignment is between (i) instruction steps that are depicted as assembly diagrams (commonly seen in Ikea assembly manuals) and (ii) video segments from in-the-wild videos; these videos comprising an enactment of the assembly actions in the real world. To learn this alignment, we introduce a novel supervised contrastive learning method that learns to align videos with the subtle details in the assembly diagrams, guided by a set of novel losses. To study this problem and demonstrate the effectiveness of our method, we introduce a novel dataset: IAW for Ikea assembly in the wild consisting of 183 hours of videos from diverse furniture assembly collections and nearly 8,300 illustrations from their associated instruction manuals and annotated for their ground truth alignments. We define two tasks on this dataset: First, nearest neighbor retrieval between video segments and illustrations, and, second, alignment of instruction steps and the segments for each video. Extensive experiments on IAW demonstrate superior performances of our approach against alternatives.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# ChatGPT4PCGコンペティション:サイエンスバードのための文字ライクなレベルジェネレーション

ChatGPT4PCG Competition: Character-like Level Generation for Science Birds ( http://arxiv.org/abs/2303.15662v3 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Ruck Thawonmas, Julian Togelius, Jochen Renz, (参考訳) 本稿では2023年のIEEE Conference on GamesでChatGPT4PCGコンペティションを開催する。 このコンペティションの目的は、参加者がChatGPTの効果的なプロンプトを作成することであり、高い安定性とキャラクタライクな品質でScience Birdsレベルを創出することである。 ChatGPTはOpenAIが開発した会話エージェントである。 Science Birdsは、Angry Birdsのようなレベルを設計することはゲーム内重力による簡単な作業ではなく、安定性によってレベルの品質が決定されるため、競争プラットフォームとして選択される。 競争への参入障壁を低くするため、我々はこの課題を大文字化英字文字の生成に限定する。 また、すべての文字を生成するために使用するプロンプトは1つだけです。 ここで、生成されたレベルの品質は、その安定性と与えられたキャラクタとの類似性によって決定される。 参加者に参照のためのサンプルプロンプトが提供される。 実験により, 本試料のいくつかの改良版が, レベル安定性と類似性に及ぼす影響を, 複数のキャラクタで試験することによって検証した。 私たちの知る限り、ChatGPT4PCGはこの種のコンペティションとしては初めてであり、手続き的コンテンツ生成における迅速なエンジニアリングに対する熱意を刺激することを期待しています。

This paper presents the first ChatGPT4PCG Competition at the 2023 IEEE Conference on Games. The objective of this competition is for participants to create effective prompts for ChatGPT--enabling it to generate Science Birds levels with high stability and character-like qualities--fully using their creativity as well as prompt engineering skills. ChatGPT is a conversational agent developed by OpenAI. Science Birds is selected as the competition platform because designing an Angry Birds-like level is not a trivial task due to the in-game gravity; the quality of the levels is determined by their stability. To lower the entry barrier to the competition, we limit the task to the generation of capitalized English alphabetical characters. We also allow only a single prompt to be used for generating all the characters. Here, the quality of the generated levels is determined by their stability and similarity to the given characters. A sample prompt is provided to participants for their reference. An experiment is conducted to determine the effectiveness of several modified versions of this sample prompt on level stability and similarity by testing them on several characters. To the best of our knowledge, we believe that ChatGPT4PCG is the first competition of its kind and hope to inspire enthusiasm for prompt engineering in procedural content generation.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# リウビル方程式を用いた高周波場を有するセシウム原子中の光励起の研究

Investigation of Optical Pumping in Cesium Atoms with a Radio-Frequency Field, Using Liouville Equation ( http://arxiv.org/abs/2304.00301v2 )

ライセンス: Link先を確認
Hossein Davoodi Yeganeh, Zahra Shaterzadeh-Yazdi, (参考訳) 光ポンピング(英: optical pumping)は、所望の原子の原子-準位集団を工学する技術である。 リウビル方程式を用いてセシウム原子の個体群進化について検討する。 この目的のために、基底状態から励起状態への電子遷移に適した周波数で円偏光を印加し、セシウムゼーマン準位の緩和速度、再集団化および集団進化を計算する。 光ポンピング後のサブレベル人口の工学には、高周波場(RF)を用い、リウヴィル方程式におけるRF場の効果を検討する。 このアプローチにより、高い効率で原子サブレベルにおける集団の望ましい分布を準備でき、異なる光学実験に使用できる。

Optical pumping is a technique for engineering atomic-sublevel population of desired atoms. We investigate the population evolution of Cesium atoms by employing Liouville equation. For this purpose, we apply a circularly polarized light at a frequency suitable for electronic transition from ground states to excited states and calculate the relaxation rate, repopulation, and population evolution of the Cesium Zeeman sublevels. For engineering the sublevel population after optical pumping, we employ a radiofrequency (RF) field and consider the effect of RF field in Liouville equation. With this approach, we are able to prepare desired distribution of the population in the atomic sublevels with high efficiency, which can be employed in different optical experiments.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# パリティ時間対称性の破れによる非エルミチアンスキンモードの活性化

Activating non-Hermitian skin modes by parity-time symmetry breaking ( http://arxiv.org/abs/2304.13955v3 )

ライセンス: Link先を確認
Zhoutao Lei, Ching Hua Lee, Linhu Li, (参考訳) パリティ時(\mathcal{PT}$)対称性は、非エルミート現象の安定な実験的実現のための真のエネルギーを保証するため、非エルミート物理学の基盤となる。 本研究では,一意なバルク,表面,ヒンジ,コーナーダイナミクスを持つ高次元非エルミート状態のリッチ族を設計するためのパラダイムとして,$\mathcal{PT}$対称性を提案する。 システムの異なるセクターで$\mathcal{PT}$対称性を体系的に破壊または復元することにより、バルク境界と位相境界の両方で非エルミート皮膚効果(NHSE)を選択的に活性化または操作することができる。 いくつかの興味深い現象は、NHSEの方向のトグルリングや、選択的境界から発達したキラルまたは動的ポンプのない境界状態の流れである。 以上の結果から,選択的バルクおよび境界NHSEおよびチャージパリティ(\mathcal{CP}$)対称性によるより洗練された相互作用が得られた。 非相互作用格子に基づいて、$\mathcal{PT}$-activated NHSEはゲイン/ロスと非相互性を持つ様々な光学、フォトニック、電気および量子プラットフォームで観測できる。

Parity-time ($\mathcal{PT}$) symmetry is a cornerstone of non-Hermitian physics as it ensures real energies for stable experimental realization of non-Hermitian phenomena. In this work, we propose $\mathcal{PT}$ symmetry as a paradigm for designing rich families of higher-dimensional non-Hermitian states with unique bulk, surface, hinge or corner dynamics. Through systematically breaking or restoring $\mathcal{PT}$ symmetry in different sectors of a system, we can selectively activate or manipulate the non-Hermitian skin effect (NHSE) in both the bulk and topological boundary states. Some fascinating phenomena include the directional toggling of the NHSE, and the flow of boundary states without chiral or dynamical pumping, developed from selective boundary NHSE. Our results extend richly into 3D or higher, with more sophisticated interplay with selective bulk and boundary NHSE and charge-parity ($\mathcal{CP}$) symmetry. Based on non-interacting lattices, $\mathcal{PT}$-activated NHSEs can be observed in various optical, photonic, electric and quantum platforms that admit gain/loss and non-reciprocity.
翻訳日:2024-03-22 20:39:25 公開日:2024-03-21
# ReLUニューラルネットワークにおけるテンペレからベネインオーバーフィッティングへ

From Tempered to Benign Overfitting in ReLU Neural Networks ( http://arxiv.org/abs/2305.15141v3 )

ライセンス: Link先を確認
Guy Kornowski, Gilad Yehudai, Ohad Shamir, (参考訳) 過度パラメータ化されたニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化される。 この現象は、補間予測器が最適に近い性能を達成する「ベニグナーオーバーフィッティング(benign overfitting)」という大きな仕事の動機となった。 近年, NNの動作は, 最適ではないが非自明であり, ノイズレベルの関数として劣化する, オーバーフィッティング(tempered overfitting)と表現されることが予想され, 実証的に確認されている。 しかし、非線形NNに対するこの主張の理論的正当性は今のところ欠落している。 本研究では,これらの相補的な視点を橋渡しすることを目的としたいくつかの結果を提供する。 本研究では,2層式ReLU NNを用いた単純な分類法について検討し,様々な仮定の下では,1次元データの極端な場合において,過度に適合する遷移のタイプが高次元で良性であることを証明する。 したがって、入力次元は、この設定におけるオーバーフィッティングのタイプに決定的な役割を果たすことを示し、中間次元に対して経験的に検証する。 全体として、我々の結果は、寸法、サンプルサイズ、アーキテクチャとトレーニングアルゴリズムの間の複雑な接続と、他方では結果が過度に適合するタイプに光を当てた。

Overparameterized neural networks (NNs) are observed to generalize well even when trained to perfectly fit noisy data. This phenomenon motivated a large body of work on "benign overfitting", where interpolating predictors achieve near-optimal performance. Recently, it was conjectured and empirically observed that the behavior of NNs is often better described as "tempered overfitting", where the performance is non-optimal yet also non-trivial, and degrades as a function of the noise level. However, a theoretical justification of this claim for non-linear NNs has been lacking so far. In this work, we provide several results that aim at bridging these complementing views. We study a simple classification setting with 2-layer ReLU NNs, and prove that under various assumptions, the type of overfitting transitions from tempered in the extreme case of one-dimensional data, to benign in high dimensions. Thus, we show that the input dimension has a crucial role on the type of overfitting in this setting, which we also validate empirically for intermediate dimensions. Overall, our results shed light on the intricate connections between the dimension, sample size, architecture and training algorithm on the one hand, and the type of resulting overfitting on the other hand.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v7 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens, (参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動させることでこの問題を緩和しようと試みており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 そこで本研究では,Time-Shift Smplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験結果から,本手法は異なるデータセットおよびサンプリング手法におけるFIDスコアを大幅に改善し,一貫した改善をもたらすことが示された。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMと比較して44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 私たちのコードはhttps://github.com/Mingxiao-Li/TS-DPMで公開しています。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. Our code is available at https://github.com/Mingxiao-Li/TS-DPM.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# メタラーニングと代表バーバリザーによる効果的な構造化プロンプト

Effective Structured Prompting by Meta-Learning and Representative Verbalizer ( http://arxiv.org/abs/2306.00618v2 )

ライセンス: Link先を確認
Weisen Jiang, Yu Zhang, James T. Kwok, (参考訳) MLM(Prompt tuning for pre-trained masked language model)は、ラベル付き例が少ない自然言語処理タスクにおいて有望な性能を示す。 下流タスクのプロンプトをチューニングし、予測トークンとラベル予測をブリッジするために動詞化子を使用する。 訓練データに制限があるため、即時初期化は即時チューニングに不可欠である。 近年,メタプロンプティング(Hou et al ,2022)はメタラーニングを用いて,タスク固有のプロンプトの共有初期化を学習している。 しかし、タスクが複雑である場合、すべてのタスクやサンプルに対して適切なプロンプトを得るには、単一の初期化が不十分である。 さらに、MetaPromptingは、MLM全体をチューニングする必要があるため、MLMが通常大きいため、計算とメモリに大きな負担がかかる。 これらの問題に対処するために、プロンプトプールを使用して、より多くのタスク知識を抽出し、注意を通してインスタンスに依存したプロンプトを構築します。 さらに,特徴埋め込みから直接ラベル埋め込みを構築する新しいソフトな動詞変換器(RepVerb)を提案する。 本稿では,プロンプトプールとRepVerbを組み合わせたメタプロンプターを提案する。 MetaPrompterは、調整が必要なプールのみであるため、パラメータ効率がよい。 実験結果から,MetaPrompterは最近の最先端言語よりも優れた性能を示し,RepVerbは既存のソフトな動詞処理器よりも優れていた。

Prompt tuning for pre-trained masked language models (MLM) has shown promising performance in natural language processing tasks with few labeled examples. It tunes a prompt for the downstream task, and a verbalizer is used to bridge the predicted token and label prediction. Due to the limited training data, prompt initialization is crucial for prompt tuning. Recently, MetaPrompting (Hou et al., 2022) uses meta-learning to learn a shared initialization for all task-specific prompts. However, a single initialization is insufficient to obtain good prompts for all tasks and samples when the tasks are complex. Moreover, MetaPrompting requires tuning the whole MLM, causing a heavy burden on computation and memory as the MLM is usually large. To address these issues, we use a prompt pool to extract more task knowledge and construct instance-dependent prompts via attention. We further propose a novel soft verbalizer (RepVerb) which constructs label embedding from feature embeddings directly. Combining meta-learning the prompt pool and RepVerb, we propose MetaPrompter for effective structured prompting. MetaPrompter is parameter-efficient as only the pool is required to be tuned. Experimental results demonstrate that MetaPrompter performs better than the recent state-of-the-arts and RepVerb outperforms existing soft verbalizers.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# TMI! 事前学習データから個人情報を漏洩したモデル

TMI! Finetuned Models Leak Private Information from their Pretraining Data ( http://arxiv.org/abs/2306.01181v2 )

ライセンス: Link先を確認
John Abascal, Stanley Wu, Alina Oprea, Jonathan Ullman, (参考訳) 伝達学習は、あるタスクのために訓練された事前訓練されたモデルを活用して、関連するタスクのための微調整されたモデル構築を支援する手段として、機械学習において、ますます人気が高まっている。 このパラダイムは機械学習における$\textit{privacy}$で特に人気があり、事前訓練されたモデルはパブリックと見なされ、微調整のためのデータのみがセンシティブであると考えられている。 しかし、事前トレーニングに使用するデータがまだセンシティブであると考える理由があり、微調整されたモデルが事前トレーニングデータについてどの程度の情報漏えいするかを理解することが不可欠である。 本研究では,対戦相手が微調整されたモデルにのみアクセスでき,事前学習したデータのメンバシップを推測する,新たなメンバシップ推論脅威モデルを提案する。 この脅威モデルを実現するために、下流タスクの予測に対する記憶済み事前学習サンプルの影響を利用した新しいメタクラス化攻撃である$\textbf{TMI}$を実装した。 差分プライバシによる微調整を含む,複数のトランスファー学習環境における視覚および自然言語タスクの両面で,$\textbf{TMI}$を評価した。 評価の結果、$\textbf{TMI}$は、細かなモデルへのクエリアクセスを使用して、事前学習したサンプルのメンバシップを推測できることがわかった。 $\textbf{TMI}$のオープンソース実装は、$\href{https://github.com/johnmath/tmi-pets24}{\text{on GitHub}}$で見ることができる。

Transfer learning has become an increasingly popular technique in machine learning as a way to leverage a pretrained model trained for one task to assist with building a finetuned model for a related task. This paradigm has been especially popular for $\textit{privacy}$ in machine learning, where the pretrained model is considered public, and only the data for finetuning is considered sensitive. However, there are reasons to believe that the data used for pretraining is still sensitive, making it essential to understand how much information the finetuned model leaks about the pretraining data. In this work we propose a new membership-inference threat model where the adversary only has access to the finetuned model and would like to infer the membership of the pretraining data. To realize this threat model, we implement a novel metaclassifier-based attack, $\textbf{TMI}$, that leverages the influence of memorized pretraining samples on predictions in the downstream task. We evaluate $\textbf{TMI}$ on both vision and natural language tasks across multiple transfer learning settings, including finetuning with differential privacy. Through our evaluation, we find that $\textbf{TMI}$ can successfully infer membership of pretraining examples using query access to the finetuned model. An open-source implementation of $\textbf{TMI}$ can be found $\href{https://github.com/johnmath/tmi-pets24}{\text{on GitHub}}$.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# データアクセスのないディープ・クラシファイア・ミミミリ

Deep Classifier Mimicry without Data Access ( http://arxiv.org/abs/2306.02090v3 )

ライセンス: Link先を確認
Steven Braun, Martin Mundt, Kristian Kersting, (参考訳) 事前訓練されたモデルへのアクセスは、最近、多くの機械学習ドメインの標準として登場した。 残念なことに、モデルがトレーニングしたオリジナルのデータへのアクセスは、等しく許可されないかもしれない。 これにより、モデルを微調整したり、圧縮したり、継続的に適応したり、あるいは他のタイプのデータ駆動更新を行うのは非常に困難になります。 しかし、元のデータアクセスは必要ないかもしれないと仮定する。 具体的には、原データにアクセスせずに深部分類器を模倣するモデルに依存しない知識蒸留法であるContrastive Abductive Knowledge extract (CAKE)を提案する。 この目的のために、CAKEはノイズの多い合成サンプルのペアを生成し、それらをモデルの決定境界に対して対照的に拡散させる。 我々は、いくつかのベンチマークデータセットとさまざまなアーキテクチャ選択を使用して、CAKEの有効性を実証的に相関付け、幅広いアプリケーションへの道を開く。

Access to pre-trained models has recently emerged as a standard across numerous machine learning domains. Unfortunately, access to the original data the models were trained on may not equally be granted. This makes it tremendously challenging to fine-tune, compress models, adapt continually, or to do any other type of data-driven update. We posit that original data access may however not be required. Specifically, we propose Contrastive Abductive Knowledge Extraction (CAKE), a model-agnostic knowledge distillation procedure that mimics deep classifiers without access to the original data. To this end, CAKE generates pairs of noisy synthetic samples and diffuses them contrastively toward a model's decision boundary. We empirically corroborate CAKE's effectiveness using several benchmark datasets and various architectural choices, paving the way for broad application.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# QH9:QM9分子の量子ハミルトン予測ベンチマーク

QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules ( http://arxiv.org/abs/2306.09549v4 )

ライセンス: Link先を確認
Haiyang Yu, Meng Liu, Youzhi Luo, Alex Strasser, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji, (参考訳) 教師付き機械学習アプローチは、密度汎関数理論(DFT)のような第一原理計算手法の代用として、電子構造予測の加速にますます利用されてきた。 多くの量子化学データセットは化学的性質と原子力に焦点を当てているが、物理系と化学特性の量子状態を決定する最も重要かつ基本的な物理量であるため、ハミルトン行列の正確かつ効率的な予測を達成する能力は非常に望ましい。 本研究では、QM9データセットに基づいて、99または2998の分子動力学軌道と130,831の安定な分子ジオメトリに対して正確なハミルトン行列を提供するために、QH9と呼ばれる新しい量子ハミルトンデータセットを生成する。 様々な分子を用いてベンチマークタスクを設計することにより、現在の機械学習モデルは任意の分子に対するハミルトン行列を予測する能力を有することを示す。 QH9データセットとベースラインモデルの両方がオープンソースベンチマークを通じてコミュニティに提供されており、機械学習手法の開発や、科学および技術応用のための分子および材料設計の加速に非常に有用である。 私たちのベンチマークはhttps://github.com/divelab/AIRS/tree/main/OpenDFT/QHBenchで公開されています。

Supervised machine learning approaches have been increasingly used in accelerating electronic structure prediction as surrogates of first-principle computational methods, such as density functional theory (DFT). While numerous quantum chemistry datasets focus on chemical properties and atomic forces, the ability to achieve accurate and efficient prediction of the Hamiltonian matrix is highly desired, as it is the most important and fundamental physical quantity that determines the quantum states of physical systems and chemical properties. In this work, we generate a new Quantum Hamiltonian dataset, named as QH9, to provide precise Hamiltonian matrices for 999 or 2998 molecular dynamics trajectories and 130,831 stable molecular geometries, based on the QM9 dataset. By designing benchmark tasks with various molecules, we show that current machine learning models have the capacity to predict Hamiltonian matrices for arbitrary molecules. Both the QH9 dataset and the baseline models are provided to the community through an open-source benchmark, which can be highly valuable for developing machine learning methods and accelerating molecular and materials design for scientific and technological applications. Our benchmark is publicly available at https://github.com/divelab/AIRS/tree/main/OpenDFT/QHBench.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# 自然視映像から抽出されたドライバの挙動を識別できる視覚言語モデル

Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos ( http://arxiv.org/abs/2306.10159v4 )

ライセンス: Link先を確認
Md Zahid Hasan, Jiajing Chen, Jiyang Wang, Mohammed Shaiqur Rahman, Ameya Joshi, Senem Velipasalar, Chinmay Hegde, Anuj Sharma, Soumik Sarkar, (参考訳) 現実の運転シナリオに注意をそらす活動を認識することは、道路上のドライバーと歩行者の両方の安全と信頼性を確保するために重要である。 従来のコンピュータビジョン技術はデータ集約であり、様々な注意を払われた運転行動を検出し、分類するために大量の注釈付きトレーニングデータを必要とするため、効率とスケーラビリティが制限される。 我々は,限定的あるいは無注釈のトレーニングデータにアクセスして,堅牢なパフォーマンスを示す汎用フレームワークの開発を目指している。 近年,視覚言語モデルでは,注意散在運転行動認識のようなタスク固有の学習に適応可能な大規模視覚テキスト事前学習が提供されている。 CLIPのような視覚言語事前学習モデルは、自然言語による視覚表現の学習において大きな可能性を示している。 本稿では,CLIPに基づく運転行動認識手法を提案する。 CLIPのビジョン埋め込みは、ゼロショット転送とタスクベースの微調整を提供する。 以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。 本稿では,CLIPの視覚表現をベースとしたフレームベースとビデオベースの両方のフレームワークを提案する。

Recognizing the activities causing distraction in real-world driving scenarios is critical for ensuring the safety and reliability of both drivers and pedestrians on the roadways. Conventional computer vision techniques are typically data-intensive and require a large volume of annotated training data to detect and classify various distracted driving behaviors, thereby limiting their efficiency and scalability. We aim to develop a generalized framework that showcases robust performance with access to limited or no annotated training data. Recently, vision-language models have offered large-scale visual-textual pretraining that can be adapted to task-specific learning like distracted driving activity recognition. Vision-language pretraining models, such as CLIP, have shown significant promise in learning natural language-guided visual representations. This paper proposes a CLIP-based driver activity recognition approach that identifies driver distraction from naturalistic driving images and videos. CLIP's vision embedding offers zero-shot transfer and task-based finetuning, which can classify distracted activities from driving video data. Our results show that this framework offers state-of-the-art performance on zero-shot transfer and video-based CLIP for predicting the driver's state on two public datasets. We propose both frame-based and video-based frameworks developed on top of the CLIP's visual representation for distracted driving detection and classification tasks and report the results.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# メモリ拡張アダプタを用いたプラガブルニューラルネットワーク変換モデル

Pluggable Neural Machine Translation Models via Memory-augmented Adapters ( http://arxiv.org/abs/2307.06029v3 )

ライセンス: Link先を確認
Yuzhuang Xu, Shuo Wang, Peng Li, Xuebo Liu, Xiaolong Wang, Weidong Liu, Yang Liu, (参考訳) ニューラルマシン翻訳(NMT)モデルは一般的なドメインではうまく機能するが、異なるユーザの要求を満たすために生成動作を制御することは、依然として困難である。 コストのかかるトレーニングコストとユーザ要求毎に新しいモデルをスクラッチから学習する際のデータ不足を考慮し、プリトレーニングされたNMTモデルをプラガブルに操るメモリ拡張アダプタを提案する。 具体的には,ユーザが提供するテキストサンプルに基づいて複数粒度メモリを構築し,モデル表現と検索結果を組み合わせた新しいアダプタアーキテクチャを提案する。 また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。 提案手法はスタイルとドメイン固有の実験の両方において検証し,提案手法がいくつかの代表的プラグ可能なベースラインより優れていることを示す。

Although neural machine translation (NMT) models perform well in the general domain, it remains rather challenging to control their generation behavior to satisfy the requirement of different users. Given the expensive training cost and the data scarcity challenge of learning a new model from scratch for each user requirement, we propose a memory-augmented adapter to steer pretrained NMT models in a pluggable manner. Specifically, we construct a multi-granular memory based on the user-provided text samples and propose a new adapter architecture to combine the model representations and the retrieved results. We also propose a training strategy using memory dropout to reduce spurious dependencies between the NMT model and the memory. We validate our approach on both style- and domain-specific experiments and the results indicate that our method can outperform several representative pluggable baselines.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# 未確認値付き1次競売における透明性の役割

The Role of Transparency in Repeated First-Price Auctions with Unknown Valuations ( http://arxiv.org/abs/2307.09478v2 )

ライセンス: Link先を確認
Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Federico Fusco, Stefano Leonardi, (参考訳) 本研究では,競売者が競売に勝った場合にのみ商品の価値を発見できる一価オークションにおいて,単価入札者に対する後悔の最小化の問題について検討する。 我々の主な貢献は、競売の終わりに競売業者が開示した競売に関する情報の量を制御する競売の「emph{transparency}」におけるミニマックス後悔の対数的要因の完全な特徴である。 我々の結果は、入札者の評価と競合する入札を生み出す環境に関する異なる仮定(確率的、敵対的、およびそれらの滑らかな変種)の下で成り立つ。 これらのミニマックスレートは、透明性と環境の性質の間の相互作用が、ファーストプライスのオークションで最適な入札を学べる速度にどのように影響するかを明らかにしている。

We study the problem of regret minimization for a single bidder in a sequence of first-price auctions where the bidder discovers the item's value only if the auction is won. Our main contribution is a complete characterization, up to logarithmic factors, of the minimax regret in terms of the auction's \emph{transparency}, which controls the amount of information on competing bids disclosed by the auctioneer at the end of each auction. Our results hold under different assumptions (stochastic, adversarial, and their smoothed variants) on the environment generating the bidder's valuations and competing bids. These minimax rates reveal how the interplay between transparency and the nature of the environment affects how fast one can learn to bid optimally in first-price auctions.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# 局所化量子系とカオス量子系を区別する方法

A method to discriminate between localized and chaotic quantum systems ( http://arxiv.org/abs/2307.10706v3 )

ライセンス: Link先を確認
Youssef Aziz Alaoui, Bruno Laburthe-Tolra, (参考訳) 我々は、最初に平衡から設定された一般的な孤立量子系が、その初期状態に近い局所化とみなすことができるかどうかを考察する。 我々のアプローチでは、クリャロフ基底の時間発展を考慮し、格子サイト内のエネルギーと1つの格子サイトから次の格子サイトへのトンネルの両方が不均一である1次元格子内を移動する粒子の時間発展をマッピングする。 クリャロフ基底の動的伝播をミクロ状態の基底に結びつけることによって、量子熱化を行う系と初期状態に近い位置にある系を区別するための定性的基準を推測する。 これらの基準はシステムに依存しており、クライロフ状態とそれらのエネルギーの間の結合強度の期待値と標準偏差を含む。 次元関数としてのアンダーソン局在化と多体双極子スピン系の平衡外ダイナミクスの2つのケースを検査してそれらの妥当性を検証する。 我々は、量子カオス系を特徴づけるために提案されたウィグナー仮説と固有状態熱化仮説を最終的に検討した。 ランツォス行列における非対角的項の平均値が、そのゆらぎやエネルギー期待値のゆらぎよりも大きい場合、我々の基準に従って非局在量子系に対応するエネルギー期待値のゆらぎに対して、エネルギーレベルのウィグナー・ダイソン統計と同様の固有エネルギー(スペクトル剛性とも呼ばれる)のレベル反発が可能であることを示し、また、同じ条件下では、典型的な局所観測可能項の期待値が固有状態の関数として弱くしか変化しないことを示す。 我々の実証では、カオス的な体制では、観測可能な状態はクリャロフ国家に基づいて十分に対角的であると仮定している。

We study whether a generic isolated quantum system initially set out of equilibrium can be considered as localized close to its initial state. Our approach considers the time evolution in the Krylov basis, which maps the dynamics onto that of a particle moving in a one-dimensional lattice where both the energy in the lattice sites and the tunneling from one lattice site to the next are inhomogeneous. By tying the dynamical propagation in the Krylov basis to that in the basis of microstates, we infer qualitative criteria to distinguish systems that remain localized close to their initial state from systems that undergo quantum thermalization. These criteria are system-dependent and involve the expectation values and standard deviations of both the coupling strengths between Krylov states and their energy. We verify their validity by inspecting two cases: Anderson localization as a function of dimension and the out-of-equilibrium dynamics of a many-body dipolar spin system. We finally investigate the Wigner surmise and the eigenstate thermalization hypothesis, which have both been proposed to characterize quantum chaotic systems. We show that when the average value of the non-diagonal terms in the Lanczos matrix is large compared to their fluctuations and to the fluctuations of the energy expectation values, which typically corresponds to delocalized quantum systems according to our criteria, there can be level repulsion of eigen-energies (also known as spectral rigidity), similar to that of the Wigner-Dyson statistics of energy levels; and we also demonstrate that in the same regime, the expectation values of typical local observables only weakly vary as a function of eigenstates, an important condition for the eigenstate thermalization hypothesis. Our demonstration assumes that, in the chaotic regime, the observable is sufficiently diagonal in the basis of Krylov states.
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# SwIPE : 急激なパッチ埋め込みによる効率的かつロバストな医用画像分割

SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings ( http://arxiv.org/abs/2307.12429v2 )

ライセンス: Link先を確認
Yejia Zhang, Pengfei Gu, Nishchal Sapkota, Danny Z. Chen, (参考訳) 現代の医用画像分割法は、主にラスタ化マスクの形で離散表現を使用して特徴を学習し、予測を生成する。 効果はあるものの、このパラダイムは空間的に非フレキシブルであり、高解像度の画像にはスケールが悪く、物体の形状を直接理解できない。 これらの制限に対処するため、最近の研究では暗黙のニューラル表現(INR)を使用してセグメンテーションの連続表現を学習している。 しかし、これらの手法は3次元形状復元のために設計された部品を直接採用することが多い。 より重要なことは、これらの定式化は点ベースまたは大域的文脈に制約され、文脈的理解や局所的詳細が欠如しており、それぞれ正確なセグメンテーションに不可欠である。これを改善するために、INRの利点を活用してパッチレベルでの形状を予測するSwIPE(Segmentation with Implicit Patch Embeddings)という新しいアプローチを提案する。 2つの課題(2次元ポリープ分割と3次元腹部臓器分割)の広範囲な評価は、SwIPEが最近の暗黙的アプローチよりも著しく改善し、10倍以上のパラメータで最先端の離散的手法より優れていることを示している。 また,画像の解像度やデータセット間のデータシフトに対して,データ効率の向上とロバスト性の向上が図られている。 コードはGithubで入手できる(https://github.com/charzharr/miccai23-swipe-implicit-segmentation)。

Modern medical image segmentation methods primarily use discrete representations in the form of rasterized masks to learn features and generate predictions. Although effective, this paradigm is spatially inflexible, scales poorly to higher-resolution images, and lacks direct understanding of object shapes. To address these limitations, some recent works utilized implicit neural representations (INRs) to learn continuous representations for segmentation. However, these methods often directly adopted components designed for 3D shape reconstruction. More importantly, these formulations were also constrained to either point-based or global contexts, lacking contextual understanding or local fine-grained details, respectively--both critical for accurate segmentation. To remedy this, we propose a novel approach, SwIPE (Segmentation with Implicit Patch Embeddings), that leverages the advantages of INRs and predicts shapes at the patch level--rather than at the point level or image level--to enable both accurate local boundary delineation and global shape coherence. Extensive evaluations on two tasks (2D polyp segmentation and 3D abdominal organ segmentation) show that SwIPE significantly improves over recent implicit approaches and outperforms state-of-the-art discrete methods with over 10x fewer parameters. Our method also demonstrates superior data efficiency and improved robustness to data shifts across image resolutions and datasets. Code is available on Github (https://github.com/charzharr/miccai23-swipe-implicit-segmentation).
翻訳日:2024-03-22 20:29:39 公開日:2024-03-21
# 量子チャネル上でのポストセレクト通信

Postselected communication over quantum channels ( http://arxiv.org/abs/2308.02583v2 )

ライセンス: Link先を確認
Kaiyuan Ji, Bartosz Regula, Mark M. Wilde, (参考訳) 量子チャネルの絡み合い支援能力のシングルレター特性化は、量子情報理論のセミナルな結果の1つである。 本稿では,受信側が付加的な「決定不能」測定結果を許容する通信シナリオを考察し,決定的な測定結果に条件付き送信メッセージの復号時にエラー確率によって与えられる誤差メトリクスを用いる。 我々は、この設定されたポストセレクト通信と、続く最も達成可能なレートをポストセレクトキャパシティと呼ぶ。 本稿では,Hilbert射影距離に基づく相互情報の変種であるチャネルの射影的相互情報に等しいことを示すとともに,絡み合い支援の設定におけるポストセレクトキャパシティの正確なシングルレター特性と,より一般的な非シグナリング支援を提供する。 提案手法では,1ショットのポスト選択能力に,ポスト選択テレポーテーションプロトコルを用いた下位境界と,ポスト選択仮説テスト相対エントロピーによる上限を定めている。 そのため、この強力な選択資源が許された場合でも、チャンネルの通信能力に基本的な制限が与えられ、受信側がポスト選択された閉時間曲線にアクセスしても、通信に制限が生じる。

The single-letter characterisation of the entanglement-assisted capacity of a quantum channel is one of the seminal results of quantum information theory. In this paper, we consider a modified communication scenario in which the receiver is allowed an additional, `inconclusive' measurement outcome, and we employ an error metric given by the error probability in decoding the transmitted message conditioned on a conclusive measurement result. We call this setting postselected communication and the ensuing highest achievable rates the postselected capacities. Here, we provide a precise single-letter characterisation of postselected capacities in the setting of entanglement assistance as well as the more general nonsignalling assistance, establishing that they are both equal to the channel's projective mutual information -- a variant of mutual information based on the Hilbert projective metric. We do so by establishing bounds on the one-shot postselected capacities, with a lower bound that makes use of a postselected teleportation protocol and an upper bound in terms of the postselected hypothesis testing relative entropy. As such, we obtain fundamental limits on a channel's ability to communicate even when this strong resource of postselection is allowed, implying limitations on communication even when the receiver has access to postselected closed timelike curves.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# 進化的直接政策探索における一般化早期停止

Generalized Early Stopping in Evolutionary Direct Policy Search ( http://arxiv.org/abs/2308.03574v2 )

ライセンス: Link先を確認
Etor Arza, Leni K. Le Goff, Emma Hart, (参考訳) 長い評価時間は、直接ポリシー探索タスクのような多くの最適化問題、特にロボット工学の応用など、物理世界における評価の実行に関わる場合において一般的である。 解が一定期間にわたって評価されると、目的値が追加の計算時間で増加しないことが明らかになる(例えば、二輪ロボットがスポット上で連続回転する場合など)。 このような場合、計算時間を短縮するために評価を早期に停止することは理にかなっている。 しかし、評価を止めるためのほとんどのアプローチは問題に特化しており、手元にあるタスクのために特別に設計する必要がある。 そこで本研究では,政策検索の早期停止手法を提案する。 提案手法は各段階における目的値のみを考察し,問題固有の知識を必要としない。 ゲーム,ロボット工学,古典的な制御領域から引き出された5つの直接的なポリシー探索環境において,導入した停止基準を検証し,最大75%の計算時間を節約できることを示す。 また、問題固有の停止基準と比較し、より一般的に適用可能でありながら、相容れない性能を示す。

Lengthy evaluation times are common in many optimization problems such as direct policy search tasks, especially when they involve conducting evaluations in the physical world, e.g. in robotics applications. Often when evaluating solution over a fixed time period it becomes clear that the objective value will not increase with additional computation time (for example when a two wheeled robot continuously spins on the spot). In such cases, it makes sense to stop the evaluation early to save computation time. However, most approaches to stop the evaluation are problem specific and need to be specifically designed for the task at hand. Therefore, we propose an early stopping method for direct policy search. The proposed method only looks at the objective value at each time step and requires no problem specific knowledge. We test the introduced stopping criterion in five direct policy search environments drawn from games, robotics and classic control domains, and show that it can save up to 75% of the computation time. We also compare it with problem specific stopping criteria and show that it performs comparably, while being more generally applicable.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# 信頼できるLLM:大規模言語モデルのアライメント評価のための調査とガイドライン

Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment ( http://arxiv.org/abs/2308.05374v2 )

ライセンス: Link先を確認
Yang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo, Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, Hang Li, (参考訳) ヒトの意図に応じてモデルを動作させる[1,2]というアライメントの確保は,大規模言語モデル(LLM)を現実のアプリケーションに展開する上で重要な課題となっている。 例えば、OpenAIはリリース前に反復的にGPT-4を調整するために6ヶ月を費やしました [3]。 しかし、実践者が直面している大きな課題は、LCMのアウトプットが社会的規範、価値観、規制と一致しているかどうかを評価するための明確なガイダンスがないことである。 この障害は、LLMの体系的なイテレーションとデプロイを妨げる。 本論では, LLMの信頼性を評価する上で, 考慮すべき重要な側面について, 包括的調査を行った。 この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。 各主要カテゴリは、さらにいくつかのサブカテゴリに分割され、合計29のサブカテゴリとなる。 さらに、さらなる調査のために8つのサブカテゴリのサブセットが選択され、対応する測定研究が、広く使用されている複数のLLMで設計および実施される。 測定結果は、一般に、より整合したモデルの方が全体的な信頼性の点でより優れた性能を示す傾向があることを示している。 しかし、アライメントの有効性は、考慮された信頼度カテゴリーによって異なる。 このことは、よりきめ細かい分析、テスト、LLMアライメントの継続的な改善を行うことの重要性を強調している。 LLMの信頼性に関するこれらの重要な側面に光を当てることで、この分野の実践者に貴重な洞察とガイダンスを提供することを目的としている。 これらの懸念を理解し、対処することは、様々なアプリケーションにおけるLLMの信頼性と倫理的に健全な展開を達成するために不可欠である。

Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world applications. For instance, OpenAI devoted six months to iteratively aligning GPT-4 before its release [3]. However, a major challenge faced by practitioners is the lack of clear guidance on evaluating whether LLM outputs align with social norms, values, and regulations. This obstacle hinders systematic iteration and deployment of LLMs. To address this issue, this paper presents a comprehensive survey of key dimensions that are crucial to consider when assessing LLM trustworthiness. The survey covers seven major categories of LLM trustworthiness: reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, and robustness. Each major category is further divided into several sub-categories, resulting in a total of 29 sub-categories. Additionally, a subset of 8 sub-categories is selected for further investigation, where corresponding measurement studies are designed and conducted on several widely-used LLMs. The measurement results indicate that, in general, more aligned models tend to perform better in terms of overall trustworthiness. However, the effectiveness of alignment varies across the different trustworthiness categories considered. This highlights the importance of conducting more fine-grained analyses, testing, and making continuous improvements on LLM alignment. By shedding light on these key dimensions of LLM trustworthiness, this paper aims to provide valuable insights and guidance to practitioners in the field. Understanding and addressing these concerns will be crucial in achieving reliable and ethically sound deployment of LLMs in various applications.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# ニュース画像キャプションのための視覚的コンテキストモデリング

Visually-Aware Context Modeling for News Image Captioning ( http://arxiv.org/abs/2308.08325v2 )

ライセンス: Link先を確認
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens, (参考訳) News Image Captioningは、ニュース記事や画像からキャプションを作成し、テキストコンテキストと視覚要素の関連性を強調することを目的としている。 ニューズ画像における人間の顔の重要性と、既存のデータセットにおける顔名共起パターンを認識し、より優れた名前埋め込みを学習するための顔命名モジュールを提案する。 画像領域(顔)に直接リンクできる名前とは別に、ニュース画像キャプションには、記事にしか見つからないコンテキスト情報が含まれている。 我々はCLIPを用いた検索戦略を設計し、画像に近い意味的な文章を検索し、記事と画像とをリンクする人間の思考過程を模倣する。 さらに,字幕における記事コンテキストと画像コンテキストの不均衡の問題に対処するために,言語モデルバックボーン(CoLaM)との対比を訓練パイプラインに導入する。 我々は,フレームワークの有効性を実証する広範囲な実験を行った。 GoodNews/NYTimes800kで7.97/5.80 CIDErスコアを上回りました。 私たちのコードはhttps://github.com/tingyu215/VACNIC.comから入手可能です。

News Image Captioning aims to create captions from news articles and images, emphasizing the connection between textual context and visual elements. Recognizing the significance of human faces in news images and the face-name co-occurrence pattern in existing datasets, we propose a face-naming module for learning better name embeddings. Apart from names, which can be directly linked to an image area (faces), news image captions mostly contain context information that can only be found in the article. We design a retrieval strategy using CLIP to retrieve sentences that are semantically close to the image, mimicking human thought process of linking articles to images. Furthermore, to tackle the problem of the imbalanced proportion of article context and image context in captions, we introduce a simple yet effective method Contrasting with Language Model backbone (CoLaM) to the training pipeline. We conduct extensive experiments to demonstrate the efficacy of our framework. We out-perform the previous state-of-the-art (without external data) by 7.97/5.80 CIDEr scores on GoodNews/NYTimes800k. Our code is available at https://github.com/tingyu215/VACNIC.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# ビデオにおける自己教師型オブジェクト中心学習

Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos ( http://arxiv.org/abs/2308.09951v2 )

ライセンス: Link先を確認
Rui Qian, Shuangrui Ding, Xian Liu, Dahua Lin, (参考訳) 自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。 これらの結果に基づいて、さらに一歩進めて、オブジェクト中心の表現を強化するためにこれらの2つの特徴を統合する可能性を探る。 予備実験では,RGB特徴マップから問合せスロットアテンションを抽出し,ランダムサンプリングに基づくスロットアテンションはフレーム間の時間的対応を利用してインスタンス識別を支援する。 そこで本研究では,融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。 2つのスロットアテンションステージと共有可学習ガウス分布からなる。 第1段階では、平均ベクトルをスロット初期化として、潜在的な意味論を分解し、反復的注意を通してセマンティックセグメンテーションマスクを生成する。 第2段階では、各意味論において、対応するガウス分布からスロットをランダムにサンプリングし、意味領域内でマスク付き特徴集約を行い、事例識別のための時間対応パターンを利用する。 我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。 本モデルでは,複数のオブジェクトをセマンティックな構造で効果的に識別し,教師なしビデオオブジェクト発見において有望な結果を得る。 さらに,高密度ラベル伝搬タスクにおける最先端性能を実現し,オブジェクト中心解析の可能性を示す。 コードはhttps://github.com/shvdiwnkozbw/SMTCで公開されている。

Self-supervised methods have shown remarkable progress in learning high-level semantics and low-level temporal correspondence. Building on these results, we take one step further and explore the possibility of integrating these two features to enhance object-centric representations. Our preliminary experiments indicate that query slot attention can extract different semantic components from the RGB feature map, while random sampling based slot attention can exploit temporal correspondence cues between frames to assist instance identification. Motivated by this, we propose a novel semantic-aware masked slot attention on top of the fused semantic features and correspondence maps. It comprises two slot attention stages with a set of shared learnable Gaussian distributions. In the first stage, we use the mean vectors as slot initialization to decompose potential semantics and generate semantic segmentation masks through iterative attention. In the second stage, for each semantics, we randomly sample slots from the corresponding Gaussian distribution and perform masked feature aggregation within the semantic area to exploit temporal correspondence patterns for instance identification. We adopt semantic- and instance-level temporal consistency as self-supervision to encourage temporally coherent object-centric representations. Our model effectively identifies multiple object instances with semantic structure, reaching promising results on unsupervised video object discovery. Furthermore, we achieve state-of-the-art performance on dense label propagation tasks, demonstrating the potential for object-centric analysis. The code is released at https://github.com/shvdiwnkozbw/SMTC.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# リストコンテキスト情報により強化された粗大なニューラルリトリバーによるリグレードパス

Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information ( http://arxiv.org/abs/2308.12022v2 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) 様々なアプリケーション、特に大量のドキュメントを扱う場合、パスケージのリランクは重要なタスクである。 既存のニューラルアーキテクチャは、セグメント化された通路のセマンティクスがしばしば不完全であるため、与えられた質問に対して最も関連性の高いパスを取得するのに制限がある。 本稿では,他の候補からのリストコンテキスト情報を取り入れることで,文節表現を増強するリストコンテキストアテンション機構を提案する。 提案手法は,キャッシュポリシ学習アルゴリズムを用いて,リストコンテキストモデリングプロセスを2つのサブプロセスに分割することにより,パスアテンション機構のメモリ外限界に対処し,多数の候補回答からコンテキスト情報の効率的な符号化を可能にする。 この手法は一般に、任意の数の候補回答から1回のパスでコンテキスト情報を符号化するのに使用することができる。 多くの多段階情報検索アーキテクチャとは異なり、このモデルは粗いと細かなランク付けを共同最適化プロセスに統合し、2層間のフィードバックを同時に更新することができる。 提案手法の有効性を示す実験を行った。

Passage reranking is a critical task in various applications, particularly when dealing with large volumes of documents. Existing neural architectures have limitations in retrieving the most relevant passage for a given question because the semantics of the segmented passages are often incomplete, and they typically match the question to each passage individually, rarely considering contextual information from other passages that could provide comparative and reference information. This paper presents a list-context attention mechanism to augment the passage representation by incorporating the list-context information from other candidates. The proposed coarse-to-fine (C2F) neural retriever addresses the out-of-memory limitation of the passage attention mechanism by dividing the list-context modeling process into two sub-processes with a cache policy learning algorithm, enabling the efficient encoding of context information from a large number of candidate answers. This method can be generally used to encode context information from any number of candidate answers in one pass. Different from most multi-stage information retrieval architectures, this model integrates the coarse and fine rankers into the joint optimization process, allowing for feedback between the two layers to update the model simultaneously. Experiments demonstrate the effectiveness of the proposed approach.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# EfficientDreamer:Orthogonal-view Diffusion Priorによる高忠実度・ロバスト3次元創製

EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior ( http://arxiv.org/abs/2308.13223v2 )

ライセンス: Link先を確認
Zhipeng Hu, Minda Zhao, Chaoyi Zhao, Xinyue Liang, Lincheng Li, Zeng Zhao, Changjie Fan, Xiaowei Zhou, Xin Yu, (参考訳) 画像拡散モデルは、テキスト駆動型3Dコンテンツ作成において顕著な進歩を遂げているが、特にビュー情報において、テキストプロンプトの意図した意味を正確に捉えることに失敗することが多い。 この制限はJanus問題につながり、そのような拡散モデルのガイダンスの下で多面的な3Dモデルを生成する。 本稿では,直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。 まず、与えられたテキストプロンプトに基づいて、4つの直交ビューサブイメージからなる画像を生成する2次元拡散モデルを提案する。 そして、この拡散モデルを用いて3Dコンテンツを作成する。 特に、生成した直交ビュー画像は、強い幾何学的構造を先行して提供し、3次元の整合性を向上させる。 その結果、Janus問題を効果的に解決し、3Dコンテンツ作成の品質を大幅に向上させる。 さらに,生成した3Dコンテンツの詳細をさらに改善できる3D合成融合ネットワークを提案する。 定量的および定性的な評価は,本手法が従来のテキスト・ツー・3D技術を上回ることを示す。 プロジェクトページ: https://efficientdreamer.github.io

While image diffusion models have made significant progress in text-driven 3D content creation, they often fail to accurately capture the intended meaning of text prompts, especially for view information. This limitation leads to the Janus problem, where multi-faced 3D models are generated under the guidance of such diffusion models. In this paper, we propose a robust high-quality 3D content generation pipeline by exploiting orthogonal-view image guidance. First, we introduce a novel 2D diffusion model that generates an image consisting of four orthogonal-view sub-images based on the given text prompt. Then, the 3D content is created using this diffusion model. Notably, the generated orthogonal-view image provides strong geometric structure priors and thus improves 3D consistency. As a result, it effectively resolves the Janus problem and significantly enhances the quality of 3D content creation. Additionally, we present a 3D synthesis fusion network that can further improve the details of the generated 3D contents. Both quantitative and qualitative evaluations demonstrate that our method surpasses previous text-to-3D techniques. Project page: https://efficientdreamer.github.io.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# 量子チャネルフィデリティ爆発対称性の効率的な近似

Efficient Approximation of Quantum Channel Fidelity Exploiting Symmetry ( http://arxiv.org/abs/2308.15884v3 )

ライセンス: Link先を確認
Yeow Meng Chee, Hoang Ta, Van Khu Vu, (参考訳) ノイズの多い量子チャネル上での量子情報の伝達に最適な忠実度を決定することは、量子情報理論における中心的な問題の一つである。 近年, [Berta-Borderi-Fawzi-Scholz, Mathematical Programming, 2021] は, この量に対する外界の半定値プログラミング階層を漸近的に収束させた。 しかし、半定値プログラム(SDP)のサイズは階層のレベルに対して指数関数的に大きくなるため、計算はスケールできない。 本研究では、SDPの対称性を利用して、量子チャネルの固定出力次元に対して、階層と入力次元のレベルに関して、時間多項式でSDPを計算することができることを示す。 結果の直接的な結果として、最適忠実度は$\epsilon$ in $\mathrm{poly}(1/\epsilon, \text{input dimension})$ time の精度で近似することができる。

Determining the optimal fidelity for the transmission of quantum information over noisy quantum channels is one of the central problems in quantum information theory. Recently, [Berta-Borderi-Fawzi-Scholz, Mathematical Programming, 2021] introduced an asymptotically converging semidefinite programming hierarchy of outer bounds for this quantity. However, the size of the semidefinite programs (SDPs) grows exponentially with respect to the level of the hierarchy, thus making their computation unscalable. In this work, by exploiting the symmetries in the SDP, we show that, for a fixed output dimension of the quantum channel, we can compute the SDP in time polynomial with respect to the level of the hierarchy and input dimension. As a direct consequence of our result, the optimal fidelity can be approximated with an accuracy of $\epsilon$ in $\mathrm{poly}(1/\epsilon, \text{input dimension})$ time.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# 学習パターンを明らかにするための説明可能な3次元フレームワーク

An explainable three dimension framework to uncover learning patterns: A unified look in variable sulci recognition ( http://arxiv.org/abs/2309.00903v2 )

ライセンス: Link先を確認
Michail Mamalakis, Heloise de Vareilles, Atheer AI-Manea, Samantha C. Mitchell, Ingrid Arartz, Lynn Egeland Morch-Johnsen, Jane Garrison, Jon Simons, Pietro Lio, John Suckling, Graham Murray, (参考訳) 説明可能なAIは医療画像に不可欠である。 神経科学の挑戦的な分野において、視覚的なトピックは特に3次元空間内で高いレベルの複雑さを示す。 脳のsulcal特徴をMRIから特定する神経科学の応用は、専門家の間での様々なアノテーションプロトコルや脳の複雑な3次元機能によって、大きなハードルに直面している。 その結果、従来の説明可能性アプローチはこれらのネットワークを効果的に検証し評価するには不十分である。 そこで,本稿ではまず,多種多様なコンピュータビジョンタスクにまたがる説明要求を,検証プロトコルの信頼性に基づいて,自己説明的・半説明的・非説明的・新パターン学習アプリケーションに分類する数学的定式化を提案する。 この数学的定式化に関して,深層学習ネットワークの出力を検証することを目的とした3次元説明可能性フレームワークを提案する。 このフレームワークは、局所的な3D説明、次元の縮小によるグローバルな説明、連結されたグローバルな説明、および統計的形状の特徴を統合し、パターン学習に関する新たな洞察を公開する。 難解なTOP-OSLOデータセットを用いて2つの高度な3次元深層学習ネットワークを訓練・テストし、特に左半球でのサルカス検出精度を大幅に向上させた。 このデータセットに対する多様なアノテーションプロトコルによる評価において,提案する3Dフレームワークにおいて,正確な予測と効果的なパターン学習を実現する上で,曖昧なアノテーションプロセスが果たす重要な役割を強調した。 提案するフレームワークは、変数のsulcusに注釈を付けるだけでなく、隠されたAI知識も発見し、脳の解剖学と機能に関する理解を深めることを約束する。

Explainable AI is crucial in medical imaging. In the challenging field of neuroscience, visual topics present a high level of complexity, particularly within three-dimensional space. The application of neuroscience, which involves identifying brain sulcal features from MRI, faces significant hurdles due to varying annotation protocols among experts and the intricate three-dimension functionality of the brain. Consequently, traditional explainability approaches fall short in effectively validating and evaluating these networks. To address this, we first present a mathematical formulation delineating various categories of explanation needs across diverse computer vision tasks, categorized into self-explanatory, semi-explanatory, non-explanatory, and new-pattern learning applications based on the reliability of the validation protocol. With respect to this mathematical formulation, we propose a 3D explainability framework aimed at validating the outputs of deep learning networks in detecting the paracingulate sulcus an essential brain anatomical feature. The framework integrates local 3D explanations, global explanations through dimensionality reduction, concatenated global explanations, and statistical shape features, unveiling new insights into pattern learning. We trained and tested two advanced 3D deep learning networks on the challenging TOP-OSLO dataset, significantly improving sulcus detection accuracy, particularly on the left hemisphere. During evaluation with diverse annotation protocols for this dataset, we highlighted the crucial role of an unbiased annotation process in achieving precise predictions and effective pattern learning within our proposed 3D framework. The proposed framework not only annotates the variable sulcus but also uncovers hidden AI knowledge, promising to advance our understanding of brain anatomy and function.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# TensorBank: モデルトレーニングのためのTensor Lakehouse

TensorBank: Tensor Lakehouse for Foundation Model Training ( http://arxiv.org/abs/2309.02094v3 )

ライセンス: Link先を確認
Romeo Kienzler, Leonardo Pondian Tizzei, Benedikt Blumenstiel, Zoltan Arnold Nagy, S. Karthik Mukkavilli, Johannes Schmude, Marcus Freitag, Michael Behrendt, Daniel Salles Civitarese, Naomi Simumba, Daiki Kimura, Hendrik Hamann, (参考訳) 基礎モデルトレーニングのための高次元データのストリングとストリーミングは、自然言語を超えた基礎モデルの台頭によって重要な要件となった。 本稿では,複雑なリレーショナルクエリに基づいて,クラウドオブジェクトストア(COS)からGPUメモリへテンソルを高速にストリーミング可能な,ペタバイト規模のテンソルレイクハウスであるTensorBankを紹介する。 クエリアクセラレーションには階層統計指標(HSI)を用いる。 当社のアーキテクチャでは,HTTPレンジ読み込みを使用して,ブロックレベルのテンソルを直接処理することが可能です。 GPUメモリでは、PyTorch変換を使用してデータを変換することができる。 我々は、リレーショナルクエリと要求された変換をインスタンスとして翻訳する、対応するデータセットファクトリを備えた汎用的なPyTorchデータセットタイプを提供する。 HSIを使用することで、関連するブロックを読まずにスキップすることができる。 これは、オープンスタンダードとオープンソースの技術を多用した、意見に富んだアーキテクチャである。 地理空間時間データを用いた生産用として強化されているが、このアーキテクチャはコンピュータビジョン、計算神経科学、生物学的配列解析など他のユースケースに一般化されている。

Storing and streaming high dimensional data for foundation model training became a critical requirement with the rise of foundation models beyond natural language. In this paper we introduce TensorBank, a petabyte scale tensor lakehouse capable of streaming tensors from Cloud Object Store (COS) to GPU memory at wire speed based on complex relational queries. We use Hierarchical Statistical Indices (HSI) for query acceleration. Our architecture allows to directly address tensors on block level using HTTP range reads. Once in GPU memory, data can be transformed using PyTorch transforms. We provide a generic PyTorch dataset type with a corresponding dataset factory translating relational queries and requested transformations as an instance. By making use of the HSI, irrelevant blocks can be skipped without reading them as those indices contain statistics on their content at different hierarchical resolution levels. This is an opinionated architecture powered by open standards and making heavy use of open-source technology. Although, hardened for production use using geospatial-temporal data, this architecture generalizes to other use case like computer vision, computational neuroscience, biological sequence analysis and more.
翻訳日:2024-03-22 20:19:41 公開日:2024-03-21
# ニューラルネットワークを用いた大規模シーンモデリングのためのフェデレートラーニング

Federated Learning for Large-Scale Scene Modeling with Neural Radiance Fields ( http://arxiv.org/abs/2309.06030v4 )

ライセンス: Link先を確認
Teppei Suzuki, (参考訳) 我々は、車両やドローンから収集したデータを用いて、地球規模のニューラルレージアンスフィールド(NeRF)に基づいたマップを、生涯にわたって学習的に構築し、維持するシステムを構想する。 しかし、NeRFによる既存の大規模モデリングでは、地球規模の環境をモデル化する際のスケーラビリティと保守性に問題がある。 そこで我々は,これらの問題に対処するために,NeRFを用いた大規模モデリングのためのフェデレート学習パイプラインを提案する。 我々は、NeRFのフェデレーション学習におけるモデル集約パイプラインを調整し、NeRFの局所的な更新を可能にする。 集約ステップでは、クライアントのグローバルポーズの精度が重要になります。 そこで本研究では,アグリゲーション前にクライアントの騒々しいグローバルなポーズを調整するために,グローバルなポーズアライメントを提案する。 実験では,大規模シーンデータセットMill19におけるポーズアライメントとフェデレート学習パイプラインの有効性を示す。

We envision a system to continuously build and maintain a map based on earth-scale neural radiance fields (NeRF) using data collected from vehicles and drones in a lifelong learning manner. However, existing large-scale modeling by NeRF has problems in terms of scalability and maintainability when modeling earth-scale environments. Therefore, to address these problems, we propose a federated learning pipeline for large-scale modeling with NeRF. We tailor the model aggregation pipeline in federated learning for NeRF, thereby allowing local updates of NeRF. In the aggregation step, the accuracy of the clients' global pose is critical. Thus, we also propose global pose alignment to align the noisy global pose of clients before the aggregation step. In experiments, we show the effectiveness of the proposed pose alignment and the federated learning pipeline on the large-scale scene dataset, Mill19.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# 微細なモダリティ評価によるマルチモーダル協調の促進

Enhancing Multimodal Cooperation via Fine-grained Modality Valuation ( http://arxiv.org/abs/2309.06255v3 )

ライセンス: Link先を確認
Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu, (参考訳) マルチモーダル学習の第一のトピックは、異なるモーダルからの異種情報を共同で組み込むことである。 しかし、ほとんどのモデルは不満足なマルチモーダル協調に悩まされ、全てのモダリティをうまく活用できない。 いくつかの手法は、より悪い学習モダリティを識別し、強化するために提案されているが、しばしば、理論的な支援を伴うサンプルレベルでのマルチモーダル協調のきめ細かい観察を提供することは困難である。 したがって、モダリティ間の微粒な協調を合理的に観察し、改善することが不可欠であり、特に、モダリティの相違が異なるサンプル間で異なる現実的なシナリオに直面している場合である。 この目的のために,各サンプルに対する各モダリティの寄与を評価するために,サンプルレベルのモダリティ評価指標を導入する。 モダリティ評価によって、データセットレベルでのグローバルなコントリビューションの相違を超えて、モダリティの相違が実際にサンプルレベルで異なる可能性があることが分かる。 さらに,本問題を解析し,低配当モダリティの識別能力を高めることで,サンプルレベルでのモダリティ間の協調性を向上する。 全体として,本手法は細粒度のユニモーダルコントリビューションを合理的に観察し,大幅な改善を実現している。 ソースコードとデータセットは \url{https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation} で公開されている。

One primary topic of multimodal learning is to jointly incorporate heterogeneous information from different modalities. However, most models often suffer from unsatisfactory multimodal cooperation, which cannot jointly utilize all modalities well. Some methods are proposed to identify and enhance the worse learnt modality, but they are often hard to provide the fine-grained observation of multimodal cooperation at sample-level with theoretical support. Hence, it is essential to reasonably observe and improve the fine-grained cooperation between modalities, especially when facing realistic scenarios where the modality discrepancy could vary across different samples. To this end, we introduce a sample-level modality valuation metric to evaluate the contribution of each modality for each sample. Via modality valuation, we observe that modality discrepancy indeed could be different at sample-level, beyond the global contribution discrepancy at dataset-level. We further analyze this issue and improve cooperation between modalities at sample-level by enhancing the discriminative ability of low-contributing modalities in a targeted manner. Overall, our methods reasonably observe the fine-grained uni-modal contribution and achieve considerable improvement. The source code and dataset are available at \url{https://github.com/GeWu-Lab/Valuate-and-Enhance-Multimodal-Cooperation}.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# ShaDocFormer: ドキュメントシャドウ除去のためのカスケード融合精錬器を備えたシャドウ検出用閾値検出器

ShaDocFormer: A Shadow-Attentive Threshold Detector With Cascaded Fusion Refiner for Document Shadow Removal ( http://arxiv.org/abs/2309.06670v4 )

ライセンス: Link先を確認
Weiwen Chen, Yingtie Lei, Shenghong Luo, Ziyang Zhou, Mingxian Li, Chi-Man Pun, (参考訳) ドキュメントシャドーは、モバイルデバイスを使用してドキュメントをキャプチャするときに発生する一般的な問題であり、可読性に大きな影響を及ぼす。 現在の手法では、シャドーマスクの不正確な検出や照明推定など、様々な課題に直面している。 本稿では,文書陰影除去問題に対処するために,従来の手法とディープラーニング技術を統合するトランスフォーマーベースのアーキテクチャであるShaDocFormerを提案する。 ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。 STDモジュールは従来のしきい値設定技術を採用し、Transformerのアテンション機構を利用してグローバル情報を収集し、シャドーマスクの正確な検出を可能にする。 CFRモジュールのカスケード及び凝集構造は、画像全体の粗大な復元プロセスを容易にする。 その結果、ShaDocFormerは、シャドウと照明の両方のバリエーションを正確に検出およびキャプチャし、効果的にシャドウを削除することができる。 大規模な実験により、ShaDocFormerは定性測定と定量的測定の両方で現在の最先端の手法より優れていることが示された。

Document shadow is a common issue that arises when capturing documents using mobile devices, which significantly impacts readability. Current methods encounter various challenges, including inaccurate detection of shadow masks and estimation of illumination. In this paper, we propose ShaDocFormer, a Transformer-based architecture that integrates traditional methodologies and deep learning techniques to tackle the problem of document shadow removal. The ShaDocFormer architecture comprises two components: the Shadow-attentive Threshold Detector (STD) and the Cascaded Fusion Refiner (CFR). The STD module employs a traditional thresholding technique and leverages the attention mechanism of the Transformer to gather global information, thereby enabling precise detection of shadow masks. The cascaded and aggregative structure of the CFR module facilitates a coarse-to-fine restoration process for the entire image. As a result, ShaDocFormer excels in accurately detecting and capturing variations in both shadow and illumination, thereby enabling effective removal of shadows. Extensive experiments demonstrate that ShaDocFormer outperforms current state-of-the-art methods in both qualitative and quantitative measurements.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# 知識蒸留によるオープンドメイン対話システムにおけるNSFWテキストの検出

Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation ( http://arxiv.org/abs/2309.09749v3 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Hongliang He, Anqi Li, Zhenzhong Lan, (参考訳) NSFW(Not Safe for Work)コンテンツは、対話の文脈において、オープンドメインの対話システムにおいて、ユーザに深刻な副作用を与える可能性がある。 しかし、対話場面におけるNSFW言語、特に性的に明示的な内容の検出に関する研究は、かなり遅れを取っている。 この問題に対処するために,NSFW対話検出を目的とした対話監視データセットであるCensorChatを紹介する。 GPT-4とChatGPTを含む知識蒸留技術を活用し、このデータセットはNSFWコンテンツ検出器を構築するためのコスト効率の良い手段を提供する。 このプロセスでは、実際の人間と機械のインタラクションデータを収集し、それを1つの発話と1つの対話に分解し、チャットボットが最後の発話を配信する。 ChatGPTは、未ラベルデータの注釈付けに使われ、トレーニングセットとして機能する。 ChatGPT と GPT-4 をアノテータとして,ラベリングにおける相違を解消するための自己批判的戦略を用いて,ラベリングの検証とテストセットを構築した。 BERTモデルは擬似ラベル付きデータのテキスト分類器として微調整され、その性能を評価する。 この研究は、表現の自由を尊重しながら、デジタル会話におけるユーザーの安全と幸福を優先するAIシステムの重要性を強調している。 提案手法は,NSFWコンテンツ検出の進歩だけでなく,AI駆動対話におけるユーザ保護ニーズの進展とも一致している。

NSFW (Not Safe for Work) content, in the context of a dialogue, can have severe side effects on users in open-domain dialogue systems. However, research on detecting NSFW language, especially sexually explicit content, within a dialogue context has significantly lagged behind. To address this issue, we introduce CensorChat, a dialogue monitoring dataset aimed at NSFW dialogue detection. Leveraging knowledge distillation techniques involving GPT-4 and ChatGPT, this dataset offers a cost-effective means of constructing NSFW content detectors. The process entails collecting real-life human-machine interaction data and breaking it down into single utterances and single-turn dialogues, with the chatbot delivering the final utterance. ChatGPT is employed to annotate unlabeled data, serving as a training set. Rationale validation and test sets are constructed using ChatGPT and GPT-4 as annotators, with a self-criticism strategy for resolving discrepancies in labeling. A BERT model is fine-tuned as a text classifier on pseudo-labeled data, and its performance is assessed. The study emphasizes the importance of AI systems prioritizing user safety and well-being in digital conversations while respecting freedom of expression. The proposed approach not only advances NSFW content detection but also aligns with evolving user protection needs in AI-driven dialogues.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# モバイルエッジコンピューティングにおける深層強化学習によるタスクグラフのオフロード

Task Graph offloading via Deep Reinforcement Learning in Mobile Edge Computing ( http://arxiv.org/abs/2309.10569v4 )

ライセンス: Link先を確認
Jiagang Liu, Yun Mi, Xinyu Zhang, Xiaocui Li, (参考訳) 依存タスクを構成するさまざまなモバイルアプリケーションが広く普及し、ますます複雑になっている。 これらのアプリケーションは、しばしば低レイテンシ要件を持ち、コンピューティングリソースの需要が大幅に急増する。 モバイルエッジコンピューティング(MEC)の出現により、高品質なユーザエクスペリエンスを得るために、モバイルネットワークのエッジにデプロイされた小規模デバイスにアプリケーションタスクをオフロードする上で、最も重要な問題となる。 しかし、MECの環境は動的であるため、専門家の知識や正確な分析モデルに大きく依存するタスクグラフのオフロードに焦点を当てた既存の作業は、そのような環境変化に完全に適応できず、ユーザエクスペリエンスが低下する。 本稿では,エッジコンピューティングデバイスの時間変動計算能力を考慮したMECにおけるタスクグラフのオフロードについて検討する。 環境変化に対応するために,計算オフロードのためのタスクグラフスケジューリングをMarkov Decision Process (MDP) としてモデル化する。 そこで我々は,環境とのインタラクションからタスクスケジューリング戦略を学習し,ユーザエクスペリエンスを向上させるために,深層強化学習アルゴリズム(SATA-DRL)を設計する。 シミュレーションにより、SATA-DRLは平均メイトパンと期限違反を減らす点で既存の戦略よりも優れていることが検証された。

Various mobile applications that comprise dependent tasks are gaining widespread popularity and are increasingly complex. These applications often have low-latency requirements, resulting in a significant surge in demand for computing resources. With the emergence of mobile edge computing (MEC), it becomes the most significant issue to offload the application tasks onto small-scale devices deployed at the edge of the mobile network for obtaining a high-quality user experience. However, since the environment of MEC is dynamic, most existing works focusing on task graph offloading, which rely heavily on expert knowledge or accurate analytical models, fail to fully adapt to such environmental changes, resulting in the reduction of user experience. This paper investigates the task graph offloading in MEC, considering the time-varying computation capabilities of edge computing devices. To adapt to environmental changes, we model the task graph scheduling for computation offloading as a Markov Decision Process (MDP). Then, we design a deep reinforcement learning algorithm (SATA-DRL) to learn the task scheduling strategy from the interaction with the environment, to improve user experience. Extensive simulations validate that SATA-DRL is superior to existing strategies in terms of reducing average makespan and deadline violation.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# スペイン語事前学習言語モデル

Sequence-to-Sequence Spanish Pre-trained Language Models ( http://arxiv.org/abs/2309.11259v2 )

ライセンス: Link先を確認
Vladimir Araujo, Maria Mihaela Trusca, Rodrigo Tufiño, Marie-Francine Moens, (参考訳) 近年、事前訓練された言語モデルの大幅な進歩は、エンコーダのみのアーキテクチャとデコーダのみのアーキテクチャに特に重点を置いて、多くの英語以外の言語変異体の作成を促している。 BERTとGPTをベースとしたスペイン語モデルは、自然言語の理解と生成の習熟度を示しているが、入力シーケンスを条件付きで生成することを目的としたシーケンス・ツー・シーケンスタスク用に明示的に設計されたエンコーダ・デコーダ・モデルは、依然として顕著に不足している。 本稿では,スペインのコーパスにのみ事前学習された有名なエンコーダデコーダアーキテクチャの実装と評価を導入することにより,新たな基盤を壊す。 具体的には, BART, T5, BERT2BERTスタイルのスペイン語版を提示し, 要約, 質問応答, スプリット・アンド・リフレーズ, 対話, 翻訳を含むシーケンス・ツー・シーケンスのタスクを包括的に評価する。 BARTとT5ベースのモデルは、あらゆるタスクでトップパフォーマーとして登場しています。 スペインのNLPにおける将来の探索と進歩を促進するために、研究コミュニティにすべてのモデルを公開しました。

In recent years, significant advancements in pre-trained language models have driven the creation of numerous non-English language variants, with a particular emphasis on encoder-only and decoder-only architectures. While Spanish language models based on BERT and GPT have demonstrated proficiency in natural language understanding and generation, there remains a noticeable scarcity of encoder-decoder models explicitly designed for sequence-to-sequence tasks, which aim to map input sequences to generate output sequences conditionally. This paper breaks new ground by introducing the implementation and evaluation of renowned encoder-decoder architectures exclusively pre-trained on Spanish corpora. Specifically, we present Spanish versions of BART, T5, and BERT2BERT-style models and subject them to a comprehensive assessment across various sequence-to-sequence tasks, including summarization, question answering, split-and-rephrase, dialogue, and translation. Our findings underscore the competitive performance of all models, with the BART- and T5-based models emerging as top performers across all tasks. We have made all models publicly available to the research community to foster future explorations and advancements in Spanish NLP: https://github.com/vgaraujov/Seq2Seq-Spanish-PLMs.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# SignBank+:大規模言語モデルを用いた機械翻訳のための多言語手話データセットの作成

SignBank+: Preparing a Multilingual Sign Language Dataset for Machine Translation Using Large Language Models ( http://arxiv.org/abs/2309.11566v2 )

ライセンス: Link先を確認
Amit Moryossef, Zifan Jiang, (参考訳) 本稿では,手話テキスト間の機械翻訳に最適化されたSignBankデータセットのクリーンバージョンであるSignBank+と,手話書記システムSignWritingを紹介する。 テキストとSignWriting間の翻訳を可能にするための複雑な分解技術を用いた以前の研究に加えて、従来のテキストからテキストへの翻訳アプローチが、クリーン化されたSignBank+データセットに対して等しく効果的に動作することを示す。 評価結果は,SignBank+でトレーニングしたモデルがオリジナルのデータセットを上回り,SignWritingベースの手話翻訳のための新しいベンチマークを確立し,将来の研究のためのオープンリソースを提供することを示す。

We introduce SignBank+, a clean version of the SignBank dataset, optimized for machine translation between spoken language text and SignWriting, a phonetic sign language writing system. In addition to previous work that employs complex factorization techniques to enable translation between text and SignWriting, we show that a traditional text-to-text translation approach performs equally effectively on the cleaned SignBank+ dataset. Our evaluation results indicate that models trained on SignBank+ surpass those on the original dataset, establishing a new benchmark for SignWriting-based sign language translation and providing an open resource for future research.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# 第一ミレニアムラテン文字文の文レベルでの性的内容の検出

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts ( http://arxiv.org/abs/2309.14974v2 )

ライセンス: Link先を確認
Thibault Clérice, (参考訳) 本研究では,人文科学と言語学の分野におけるコーパス構築のプロセスの促進を図るために,文レベルでの意味分類に深層学習手法を適用することを提案する。 本稿では,紀元前300年から紀元前900年までの約2500の文からなる,性意味論(医療,エロティックーなど)を含む新しいコーパスを紹介する。 我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。 我々は、慣用的なメタデータと社会的なメタデータの埋め込み(センチュリー、著者、書体の種類)の統合について検討するが、それが過度に適合することを発見した。 提案手法の有効性を実証し,HANを用いてそれぞれ70.60%,86.33%の精度と真正率(TPR)を達成した。 モデル性能に対するデータセットサイズの影響 (2013年より420) を評価し, モデルの性能は悪いが, MLMなしでも高い精度とTPRが得られ, それぞれ69%, 51%であった。 この結果から,人文主義者がより多くのデータを生成するための補助的な付加価値として,注意機構の分析を行う。

In this study, we propose to evaluate the use of deep learning methods for semantic classification at the sentence level to accelerate the process of corpus building in the field of humanities and linguistics, a traditional and time-consuming task. We introduce a novel corpus comprising around 2500 sentences spanning from 300 BCE to 900 CE including sexual semantics (medical, erotica, etc.). We evaluate various sentence classification approaches and different input embedding layers, and show that all consistently outperform simple token-based searches. We explore the integration of idiolectal and sociolectal metadata embeddings (centuries, author, type of writing), but find that it leads to overfitting. Our results demonstrate the effectiveness of this approach, achieving high precision and true positive rates (TPR) of respectively 70.60% and 86.33% using HAN. We evaluate the impact of the dataset size on the model performances (420 instead of 2013), and show that, while our models perform worse, they still offer a high enough precision and TPR, even without MLM, respectively 69% and 51%. Given the result, we provide an analysis of the attention mechanism as a supporting added value for humanists in order to produce more data.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# 自動車軌道予測のための物理強化残留学習(PERL)フレームワーク

A Physics Enhanced Residual Learning (PERL) Framework for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2309.15284v2 )

ライセンス: Link先を確認
Keke Long, Zihao Sheng, Haotian Shi, Xiaopeng Li, Sikai Chen, Sue Ahn, (参考訳) 車両軌道予測では、物理モデルとデータ駆動モデルが2つの主要な手法である。 物理モデルは予測可能性に乏しく、データ駆動モデルは解釈可能性に欠ける。 本稿では,これらの欠点に対処し,新しい枠組みである物理強化残留学習(PERL)モデルを提案する。 PERLは、トラフィック状態予測のための物理とデータ駆動方式の長所を統合する。 PERLは物理モデルと残留学習モデルを含んでいる。 その予測は物理モデルの結果の総和であり、それに対する補正として予測された残差である。 物理モデルに固有の解釈可能性を保持し、データ駆動方式と比較してデータ要求を減らしている。 実車軌道データセットを用いて実験を行った。 我々は,知能ドライバモデル(IDM)を物理カー追従モデルとし,Long Short-Term Memory(LSTM)を残留学習モデルとするPERLモデルを提案した。 このPERLモデルと物理カーフォローモデル,データ駆動モデル,その他の物理インフォームドニューラルネットワーク(PINN)モデルを比較した。 その結果、PERLは物理モデル、データ駆動モデル、PINNモデルと比較して、小さなデータセットでより良い予測を達成できることがわかった。 第2に、PERLモデルはトレーニング中により高速な収束を示し、データ駆動モデルやPINNモデルよりも少ないトレーニングサンプルで同等のパフォーマンスを提供する。 感度解析はまた、別の残差学習モデルと物理カー追従モデルを用いてPERLと同等の性能を示す。

In vehicle trajectory prediction, physics models and data-driven models are two predominant methodologies. However, each approach presents its own set of challenges: physics models fall short in predictability, while data-driven models lack interpretability. Addressing these identified shortcomings, this paper proposes a novel framework, the Physics-Enhanced Residual Learning (PERL) model. PERL integrates the strengths of physics-based and data-driven methods for traffic state prediction. PERL contains a physics model and a residual learning model. Its prediction is the sum of the physics model result and a predicted residual as a correction to it. It preserves the interpretability inherent to physics-based models and has reduced data requirements compared to data-driven methods. Experiments were conducted using a real-world vehicle trajectory dataset. We proposed a PERL model, with the Intelligent Driver Model (IDM) as its physics car-following model and Long Short-Term Memory (LSTM) as its residual learning model. We compare this PERL model with the physics car-following model, data-driven model, and other physics-informed neural network (PINN) models. The result reveals that PERL achieves better prediction with a small dataset, compared to the physics model, data-driven model, and PINN model. Second, the PERL model showed faster convergence during training, offering comparable performance with fewer training samples than the data-driven model and PINN model. Sensitivity analysis also proves comparable performance of PERL using another residual learning model and a physics car-following model.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# グラフ学習によるニューロモルフィックイメージングと分類

Neuromorphic Imaging and Classification with Graph Learning ( http://arxiv.org/abs/2309.15627v2 )

ライセンス: Link先を確認
Pei Zhang, Chutian Wang, Edmund Y. Lam, (参考訳) バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。 極端な照明条件下では、動きのぼやけがほとんどなく、さらに詳細を捉えることができる。 多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。 このような問題に対処するために、いくつかのイベント表現と処理方法が開発されているが、通常は多数のイベントによって駆動されるため、実行時とメモリにかなりのオーバーヘッドが生じる。 本稿では、イベントデータの新しいグラフ表現を提案し、それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。 大規模な実験により,本手法はより優れた結果をもたらし,少数のイベントと限られた計算資源しか利用できない困難な現実的な状況に優れており,移動施設へのニューロモルフィック応用の道を開いた。

Bio-inspired neuromorphic cameras asynchronously record pixel brightness changes and generate sparse event streams. They can capture dynamic scenes with little motion blur and more details in extreme illumination conditions. Due to the multidimensional address-event structure, most existing vision algorithms cannot properly handle asynchronous event streams. While several event representations and processing methods have been developed to address such an issue, they are typically driven by a large number of events, leading to substantial overheads in runtime and memory. In this paper, we propose a new graph representation of the event data and couple it with a Graph Transformer to perform accurate neuromorphic classification. Extensive experiments show that our approach leads to better results and excels at the challenging realistic situations where only a small number of events and limited computational resources are available, paving the way for neuromorphic applications embedded into mobile facilities.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# 協調型分散機械学習

Collaborative Distributed Machine Learning ( http://arxiv.org/abs/2309.16584v3 )

ライセンス: Link先を確認
David Jin, Niclas Kannengießer, Sascha Rank, Ali Sunyaev, (参考訳) 協調学習システムやSwarm学習システムを含む様々な協調型分散機械学習(CDML)システムは、機密保持方式で機械学習(ML)モデルの開発と利用のためのリソースを活用するために、異なるキー特性を持つ。 ユースケース要件を満たすためには、適切なCDMLシステムを選択する必要がある。 しかし,CDMLシステムとユースケースの適合性の比較は困難であることが多い。 本研究は,CDMLシステムの概念化とCDMLアーティファクトを提示し,CDMLシステムの比較を支援し,CDMLシステムの主要な機能と重要な特徴に科学的および実践的なオーディエンスを紹介する。

Various collaborative distributed machine learning (CDML) systems, including federated learning systems and swarm learning systems, with different key traits were developed to leverage resources for development and use of machine learning (ML) models in a confidentiality-preserving way. To meet use case requirements, suitable CDML systems need to be selected. However, comparison between CDML systems regarding their suitability for use cases is often difficult. This work presents a CDML system conceptualization and CDML archetypes to support comparison of CDML systems and introduce scientific and practical audiences to the principal functioning and key traits of CDML systems.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# RTFS-Net: 効率的な音声・映像音声分離のための繰り返し時間周波数モデリング

RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation ( http://arxiv.org/abs/2309.17189v4 )

ライセンス: Link先を確認
Samuel Pegg, Kai Li, Xiaolin Hu, (参考訳) 音声-視覚的音声分離法は,高品質な分離音声を生成するために,異なるモードを統合することを目的としており,音声認識などの下流タスクの性能を向上させる。 既存のSOTA(State-of-the-art)モデルは時間領域で動作する。 しかし、音響特性をモデル化するための過度に単純化されたアプローチは、SOTAの性能を達成するために、より大きくより計算集約的なモデルを必要とすることが多い。 本稿では、短時間フーリエ変換によって得られる複雑な時間周波数ビンに対して、そのアルゴリズムを適用するRTFS-Net(Recurrent Time-Frequency Separation Network)を提案する。 我々は、各次元に沿って多層RNNを用いて、オーディオの時間と周波数の次元を独立にモデル化し、キャプチャする。 さらに、音声と視覚情報を効率的に統合するためのユニークな注意に基づく融合手法と、音響特性の固有のスペクトル特性を利用してより明瞭な分離を行う新しいマスク分離手法を導入する。 RTFS-Netは、予測速度と分離品質の両方で従来のSOTA法より優れ、パラメータの数を90%、MACを83%削減した。 これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。

Audio-visual speech separation methods aim to integrate different modalities to generate high-quality separated speech, thereby enhancing the performance of downstream tasks such as speech recognition. Most existing state-of-the-art (SOTA) models operate in the time domain. However, their overly simplistic approach to modeling acoustic features often necessitates larger and more computationally intensive models in order to achieve SOTA performance. In this paper, we present a novel time-frequency domain audio-visual speech separation method: Recurrent Time-Frequency Separation Network (RTFS-Net), which applies its algorithms on the complex time-frequency bins yielded by the Short-Time Fourier Transform. We model and capture the time and frequency dimensions of the audio independently using a multi-layered RNN along each dimension. Furthermore, we introduce a unique attention-based fusion technique for the efficient integration of audio and visual information, and a new mask separation approach that takes advantage of the intrinsic spectral nature of the acoustic features for a clearer separation. RTFS-Net outperforms the prior SOTA method in both inference speed and separation quality while reducing the number of parameters by 90% and MACs by 83%. This is the first time-frequency domain audio-visual speech separation method to outperform all contemporary time-domain counterparts.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# Adherence-Aware Advice の学習

Learning to Make Adherence-Aware Advice ( http://arxiv.org/abs/2310.00817v3 )

ライセンス: Link先を確認
Guanting Chen, Xiaocheng Li, Chunlin Sun, Hanzhao Wang, (参考訳) 人工知能(AI)システムは、人間の意思決定においてますます顕著な役割を担っているため、人間とAIの相互作用の領域では課題が表面化している。 1つの課題は、AIレコメンデーションを無視した人間の不適切な考慮、そしてAIが最も適切かどうかを選択的にアドバイスする必要性によって、AIの亜最適ポリシーから生じる。 本稿では, 逐次意思決定モデルを提案する。 一 人間の従順性(人間が機械の助言に従う/拒絶する確率)を考慮し、 (ii) マシンがアドバイスを一時的に控えるように、遅延オプションを組み込む。 最適なアドバイスポリシーを学習し、重要なタイムスタンプでのみアドバイスを行う学習アルゴリズムを提供する。 問題に依存しない強化学習アルゴリズムと比較して,我々の特殊学習アルゴリズムは理論収束性を向上するだけでなく,経験的性能も高い。

As artificial intelligence (AI) systems play an increasingly prominent role in human decision-making, challenges surface in the realm of human-AI interactions. One challenge arises from the suboptimal AI policies due to the inadequate consideration of humans disregarding AI recommendations, as well as the need for AI to provide advice selectively when it is most pertinent. This paper presents a sequential decision-making model that (i) takes into account the human's adherence level (the probability that the human follows/rejects machine advice) and (ii) incorporates a defer option so that the machine can temporarily refrain from making advice. We provide learning algorithms that learn the optimal advice policy and make advice only at critical time stamps. Compared to problem-agnostic reinforcement learning algorithms, our specialized learning algorithms not only enjoy better theoretical convergence properties but also show strong empirical performance.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# ED-NeRF:3Dシーンの高効率テキストガイド編集

ED-NeRF: Efficient Text-Guided Editing of 3D Scene with Latent Space NeRF ( http://arxiv.org/abs/2310.02712v2 )

ライセンス: Link先を確認
Jangho Park, Gihyun Kwon, Jong Chul Ye, (参考訳) 近年,テキスト・画像拡散モデルが大幅に進歩し,2次元画像生成における画期的な性能が向上した。 これらの進歩は3Dモデルに拡張され、テキスト記述から新しい3Dオブジェクトを生成できるようになった。 これは、テキストコンディショニングによる既存の3Dオブジェクトの操作を可能にするNeRF編集方法へと進化した。 しかし、既存のNeRF編集技術は、訓練速度の遅いことと、編集を適切に考慮しない損失関数の使用により、その性能に限界に直面している。 そこで本研究では,LDM(潜伏拡散モデル)の潜伏空間に現実のシーンを埋め込むことにより,ED-NeRFと呼ばれる新しい3次元NeRF編集手法を提案する。 このアプローチにより、従来の画像空間のNeRF編集に比べて、より高速であるだけでなく、より編集しやすいNeRFバックボーンが得られる。 さらに,デルタ復調点(DDS)蒸留損失を3次元領域への2次元画像編集に用いた改良型損失関数を提案する。 この新たな損失関数は、よく知られたスコア蒸留サンプリング(SDS)の損失を、編集目的に適した点において上回る。 実験により, ED-NeRFは, 最先端の3D編集モデルと比較して, 出力品質の向上を図りながら, 高速な編集速度を実現することが示された。

Recently, there has been a significant advancement in text-to-image diffusion models, leading to groundbreaking performance in 2D image generation. These advancements have been extended to 3D models, enabling the generation of novel 3D objects from textual descriptions. This has evolved into NeRF editing methods, which allow the manipulation of existing 3D objects through textual conditioning. However, existing NeRF editing techniques have faced limitations in their performance due to slow training speeds and the use of loss functions that do not adequately consider editing. To address this, here we present a novel 3D NeRF editing approach dubbed ED-NeRF by successfully embedding real-world scenes into the latent space of the latent diffusion model (LDM) through a unique refinement layer. This approach enables us to obtain a NeRF backbone that is not only faster but also more amenable to editing compared to traditional image space NeRF editing. Furthermore, we propose an improved loss function tailored for editing by migrating the delta denoising score (DDS) distillation loss, originally used in 2D image editing to the three-dimensional domain. This novel loss function surpasses the well-known score distillation sampling (SDS) loss in terms of suitability for editing purposes. Our experimental results demonstrate that ED-NeRF achieves faster editing speed while producing improved output quality compared to state-of-the-art 3D editing models.
翻訳日:2024-03-22 20:06:30 公開日:2024-03-21
# QuATON:光ニューロンの量子化学習

QuATON: Quantization Aware Training of Optical Neurons ( http://arxiv.org/abs/2310.03049v2 )

ライセンス: Link先を確認
Hasindu Kariyawasam, Ramith Hettiarachchi, Quansan Yang, Alex Matlock, Takahiro Nambara, Hiroyuki Kusaka, Yuichiro Kunai, Peter T C So, Edward S Boyden, Dushan Wadduwage, (参考訳) 光プロセッサは「光ニューロン」で構築されており、光速で高次元線形演算を効率的に行うことができる。 したがって、それらは大規模線形計算を加速するための有望な道である。 現在のマイクロファブリケーションの進歩により、そのような光学プロセッサは3D製造が可能になったが、精度は限られている。 この制限は、光学ニューロンにおける学習可能なパラメータの量子化に変換され、モデルミスマッチを避けるために、光学プロセッサの設計中に処理されるべきである。 具体的には、光ニューロンは予め定義された量子化精度レベルで物理的制約の中で訓練または設計されるべきである。 この重要な問題に対処するために、物理インフォームド量子化対応トレーニングフレームワークを提案する。 私たちのアプローチは、トレーニングプロセス中に物理的な制約を考慮し、堅牢な設計につながります。 我々は,量子化学習可能なパラメータに拘わらず,複数の物理に基づくタスクに対して,回折ネットワークを用いて最先端の光学プロセッサを設計できることを実証した。 そこで我々は、改良された光学プロセッサを将来3Dで製造する基盤を築いた。

Optical processors, built with "optical neurons", can efficiently perform high-dimensional linear operations at the speed of light. Thus they are a promising avenue to accelerate large-scale linear computations. With the current advances in micro-fabrication, such optical processors can now be 3D fabricated, but with a limited precision. This limitation translates to quantization of learnable parameters in optical neurons, and should be handled during the design of the optical processor in order to avoid a model mismatch. Specifically, optical neurons should be trained or designed within the physical-constraints at a predefined quantized precision level. To address this critical issues we propose a physics-informed quantization-aware training framework. Our approach accounts for physical constraints during the training process, leading to robust designs. We demonstrate that our approach can design state of the art optical processors using diffractive networks for multiple physics based tasks despite quantized learnable parameters. We thus lay the foundation upon which improved optical processors may be 3D fabricated in the future.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 負距離カーネルを用いたMDDの勾配流れに基づく後方サンプリング

Posterior Sampling Based on Gradient Flows of the MMD with Negative Distance Kernel ( http://arxiv.org/abs/2310.03054v3 )

ライセンス: Link先を確認
Paul Hagemann, Johannes Hertrich, Fabian Altekrüger, Robert Beinert, Jannis Chemseddine, Gabriele Steidl, (参考訳) 本稿では,後方サンプリングと条件生成モデルのための負距離カーネルを用いたMMDの条件付き流れを提案する。 このMDDはエネルギー距離としても知られており、スライスやソートによる効率的な計算のようないくつかの利点がある。 離散的なワッサーシュタイン勾配流を用いた地中真理と観測の連成分布を近似し, 後部分布の誤差を確定する。 さらに、我々の粒子流は、確かに適切な関数のワッサーシュタイン勾配流であることを示す。 提案手法のパワーは,条件付き画像生成や,低線量および限られた角度設定における超解像,インペインティング,計算トモグラフィといった逆問題を含む数値例によって実証される。

We propose conditional flows of the maximum mean discrepancy (MMD) with the negative distance kernel for posterior sampling and conditional generative modeling. This MMD, which is also known as energy distance, has several advantageous properties like efficient computation via slicing and sorting. We approximate the joint distribution of the ground truth and the observations using discrete Wasserstein gradient flows and establish an error bound for the posterior distributions. Further, we prove that our particle flow is indeed a Wasserstein gradient flow of an appropriate functional. The power of our method is demonstrated by numerical examples including conditional image generation and inverse problems like superresolution, inpainting and computed tomography in low-dose and limited-angle settings.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 市民のためのデジタル投票システムの設計:参加予算における公正性と正当性の実現

Designing Digital Voting Systems for Citizens: Achieving Fairness and Legitimacy in Participatory Budgeting ( http://arxiv.org/abs/2310.03501v2 )

ライセンス: Link先を確認
Joshua C. Yang, Carina I. Hausladen, Dominik Peters, Evangelos Pournaras, Regula Hänggli Fricker, Dirk Helbing, (参考訳) PB(Participatory Budgeting)は、都市における資源配分の鍵となる民主的手段へと発展してきた。 デジタルプラットフォームによって実現された都市は、異なる投票の入力と集約ルールを使用して、市民が都市プロジェクトに直接提案し、投票する機会を得た。 しかし、都市がPBの規則に関して行う選択は、しばしば有権者の行動や嗜好について学術研究によって知らされていない。 そこで,本研究では,参加者に対して,架空のPB環境での投票を依頼した行動実験の結果を提示する。 我々は、認知負荷を最小限に抑え、市民の視点からデジタルプロセスの公正性と正当性を高めるPB投票の設計アプローチを特定した。 本研究の参加者は、より単純なフォーマット(承認投票など)よりも、より表現力のある入力形式(ランキングや配布ポイントなど)を好む。 参加者はまた、予算が市区やプロジェクトカテゴリーにかなり分散されることを望んでいた。 参加者は「平等共有法」の投票規則が従来のグレーディの投票規則よりも公平であると判断した。 これらの発見は、より公平で透明性の高いデジタルシステムの開発と市民の集団的意思決定プロセスの発展に寄与する、デジタルガバナンスに対する実用的な洞察を提供する。

Participatory Budgeting (PB) has evolved into a key democratic instrument for resource allocation in cities. Enabled by digital platforms, cities now have the opportunity to let citizens directly propose and vote on urban projects, using different voting input and aggregation rules. However, the choices cities make in terms of the rules of their PB have often not been informed by academic studies on voter behaviour and preferences. Therefore, this work presents the results of behavioural experiments where participants were asked to vote in a fictional PB setting. We identified approaches to designing PB voting that minimise cognitive load and enhance the perceived fairness and legitimacy of the digital process from the citizens' perspective. In our study, participants preferred voting input formats that are more expressive (like rankings and distributing points) over simpler formats (like approval voting). Participants also indicated a desire for the budget to be fairly distributed across city districts and project categories. Participants found the Method of Equal Shares voting rule to be fairer than the conventional Greedy voting rule. These findings offer actionable insights for digital governance, contributing to the development of fairer and more transparent digital systems and collective decision-making processes for citizens.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 局所情報時間進化による大規模多体量子ダイナミクスの効率化

Efficient Large-Scale Many-Body Quantum Dynamics via Local-Information Time Evolution ( http://arxiv.org/abs/2310.06036v3 )

ライセンス: Link先を確認
Claudia Artiaco, Christoph Fleckenstein, David Aceituno Chávez, Thomas Klein Kvorning, Jens H. Bardarson, (参考訳) 多体系の絡み合いの時間的進化は急速に増加し、シミュレーションの精度は小さなシステムや小さな時間スケールに制限される。 しかし、量子情報は局所的なスケールに戻ることなく大きなスケールに向かって流れる傾向にあり、その詳細な大規模構造は局所的な観測物に直接影響を与えない。 これにより、局所的に観測可能なものをすべて保存し、大規模で大規模な量子力学へのアクセスを可能にする方法で、大規模な量子情報の除去が可能になる。 この目的のために、最近導入された情報格子を用いて、異なるスケールに量子情報を整理し、制御された方法で長距離量子相関を体系的に破棄するために使用する局所情報と情報電流を定義する。 我々のアプローチは、システムを最大スケールまでサブシステムに分解し、ノイマン方程式を並列に解くことでサブシステム密度行列を進化させることに依存している。 重要なことは、大規模な情報を捨てる際には、情報の流れを保存する必要がある。 情報電流の微視的詳細を仮定することなく、最大規模の状態を用いて情報の流れを正確に把握しながら、情報を破棄する第2尺度を導入する。 得られたアルゴリズムは、局所情報時間進化(LITE)と呼ばれ、様々な流体力学挙動を持つ閉量子系と開量子系の多体量子力学の研究に非常に適している。 混合場イジングモデルにおけるエネルギー輸送結果と、拡散係数を正確に決定するオープンXXスピンチェーンにおける磁化輸送結果について述べる。 ここで用いられる情報格子フレームワークは、多体システムにおける絡み合いの空間的および時間的挙動に関する洞察力のある結果を提供することを約束する。

During time evolution of many-body systems entanglement grows rapidly, limiting exact simulations to small-scale systems or small timescales. Quantum information tends however to flow towards larger scales without returning to local scales, such that its detailed large-scale structure does not directly affect local observables. This allows for the removal of large-scale quantum information in a way that preserves all local observables and gives access to large-scale and large-time quantum dynamics. To this end, we use the recently introduced information lattice to organize quantum information into different scales, allowing us to define local information and information currents which we employ to systematically discard long-range quantum correlations in a controlled way. Our approach relies on decomposing the system into subsystems up to a maximum scale and time evolving the subsystem density matrices by solving the subsystem von Neumann equations in parallel. Importantly, the information flow needs to be preserved during the discarding of large-scale information. To achieve this without the need to make assumptions about the microscopic details of the information current, we introduce a second scale at which information is discarded while using the state at the maximum scale to accurately obtain the information flow. The resulting algorithm, which we call local information time evolution (LITE), is highly versatile and suitable for investigating many-body quantum dynamics in both closed and open quantum systems with diverse hydrodynamic behaviors. We present results for energy transport in the mixed-field Ising model and magnetization transport in an open XX spin chain where we accurately determine the diffusion coefficients. The information lattice framework employed here promises to offer insightful results about the spatial and temporal behavior of entanglement in many-body systems.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 深層強化学習アプリケーション開発における共通課題--実証的研究

Common Challenges of Deep Reinforcement Learning Applications Development: An Empirical Study ( http://arxiv.org/abs/2310.09575v2 )

ライセンス: Link先を確認
Mohammad Mehdi Morovati, Florian Tambon, Mina Taraghi, Amin Nikanjam, Foutse Khomh, (参考訳) 機械学習(ML)は、さまざまな業界でますます採用されている。 深層強化学習(Deep Reinforcement Learning, DRL)は、インテリジェントエージェントを生成するためのMLのサブドメインである。 近年のDRL技術の発展にもかかわらず、開発者がDRLアプリケーション開発で直面する主な課題はまだ不明である。 このギャップを埋めるために、ソフトウェアコミュニティで最も人気のあるQ&AプラットフォームであるStack Overflowから抽出された927のDRL関連ポストについて、大規模な実証的研究を行った。 抽出されたポストのラベル付けと分類のプロセスを通じて、DRLアプリケーションの開発において直面する共通の課題の分類と、それに対応する人気レベルを作成しました。 この分類は59人のDRL開発者を対象とした調査を通じて検証されている。 結果は、少なくとも45%の開発者が、分類学で特定された21の課題のうち18を経験していることを示している。 DRLアプリケーションの開発において最も困難な原因は、理解、API使用、設計の問題であるが、並列処理、DRLライブラリ/フレームワークは、受け入れられた回答を受け取るのに必要な時間に関して、最も難しい課題に分類されている。 我々は、この分類を利用して、特定された課題に対処し、DRLアプリケーションの品質を向上させる効率的な戦略を開発することを願っている。

Machine Learning (ML) is increasingly being adopted in different industries. Deep Reinforcement Learning (DRL) is a subdomain of ML used to produce intelligent agents. Despite recent developments in DRL technology, the main challenges that developers face in the development of DRL applications are still unknown. To fill this gap, in this paper, we conduct a large-scale empirical study of 927 DRL-related posts extracted from Stack Overflow, the most popular Q&A platform in the software community. Through the process of labeling and categorizing extracted posts, we created a taxonomy of common challenges encountered in the development of DRL applications, along with their corresponding popularity levels. This taxonomy has been validated through a survey involving 59 DRL developers. Results show that at least 45% of developers experienced 18 of the 21 challenges identified in the taxonomy. The most frequent source of difficulty during the development of DRL applications are Comprehension, API usage, and Design problems, while Parallel processing, and DRL libraries/frameworks are classified as the most difficult challenges to address, with respect to the time required to receive an accepted answer. We hope that the research community will leverage this taxonomy to develop efficient strategies to address the identified challenges and improve the quality of DRL applications.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル

LLM4SGG: Large Language Model for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v6 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, (参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 この点において,WSSGGの研究は画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)キャプション中の細粒度述語が粗粒度述語に好ましくないように変換され、長い尾状述語分布となるようなキャプションから三つ子を抽出する際に、意味的過度な単純化問題が発生する。 2 低密度のシーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスと整合させることで発生し、監督が不十分となる。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数発の学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする点が魅力である。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 人道支援が食料安全保障に与える影響の評価

Assessing the Causal Impact of Humanitarian Aid on Food Security ( http://arxiv.org/abs/2310.11287v2 )

ライセンス: Link先を確認
Jordi Cerdà-Bautista, José María Tárraga, Vasileios Sitokonstantinou, Gustau Camps-Valls, (参考訳) 気候変動による干ばつに直面し、脆弱な地域は食料安全保障への深刻な脅威に直面し、緊急の人道支援を要求している。 本稿では,現金による介入が食糧危機に与える影響を評価することを目的としたアフリカホーンの因果推論フレームワークを提案する。 我々の貢献は、食品安全保障システム内の因果関係の特定、社会経済、天気、リモートセンシングデータを含む包括的なデータベースの調和、栄養失調に対する人道的介入の因果効果の推定などである。 国レベルでは,食品の安全性などの多分野システムに対する理解が限られているため,サンプルサイズが制限されたこと,データ品質が最適でないこと,不完全な因果グラフが原因で,有意な影響は認められなかった。 その代わり、地区レベルでは、結果は顕著な効果を示し、さらにシステムの文脈固有の性質を示唆している。 このことは、より効果的な将来の介入と政策のために、データ収集を強化し、ドメインの専門家と因果モデルを洗練し、人道支援における透明性と説明責任を向上させる必要性を浮き彫りにする。

In the face of climate change-induced droughts, vulnerable regions encounter severe threats to food security, demanding urgent humanitarian assistance. This paper introduces a causal inference framework for the Horn of Africa, aiming to assess the impact of cash-based interventions on food crises. Our contributions include identifying causal relationships within the food security system, harmonizing a comprehensive database including socio-economic, weather and remote sensing data, and estimating the causal effect of humanitarian interventions on malnutrition. On a country level, our results revealed no significant effects, likely due to limited sample size, suboptimal data quality, and an imperfect causal graph resulting from our limited understanding of multidisciplinary systems like food security. Instead, on a district level, results revealed significant effects, further implying the context-specific nature of the system. This underscores the need to enhance data collection and refine causal models with domain experts for more effective future interventions and policies, improving transparency and accountability in humanitarian aid.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# LMCマルチタスクガウス過程モデルの厳密解と一般解

Exact and general decoupled solutions of the LMC Multitask Gaussian Process model ( http://arxiv.org/abs/2310.12032v2 )

ライセンス: Link先を確認
Olivier Truffinet, Karim Ammar, Jean-Philippe Argaud, Bertrand Bouriquet, (参考訳) コリージョン化線形モデル(英: Linear Model of Co- Regionalization、LMC)は、回帰や分類のためのマルチタスクガウス過程の非常に一般的なモデルである。 その表現力と概念的単純さは魅力的だが、単純な実装はデータポイントの数とタスク数に3倍の複雑さがあるため、ほとんどのアプリケーションでは近似が必須である。 しかし、最近の研究により、ある条件下では、モデルの潜在過程は分離可能であることが示され、そのプロセスの数でのみ線形となる複雑さが生じる。 ここでは、これらの結果を拡張し、LCCの効率的な正確な計算に必要な条件はノイズモデルに関する軽度の仮説である、という最も一般的な仮定から示している。 本稿では,結果のemph{projected LMC}モデルの完全なパラメトリゼーションと,効率的な最適化を可能にする限界確率の表現を紹介する。 合成データのパラメトリック解析を行い, 厳密なLCC法や近似法と比較し, 提案手法の優れた性能を示す。 全体として、予測されたLCCは、最先端技術モデルの信頼性とよりシンプルな代替品として現れており、これは、一対一のクロスバリデーションやファンタシゼーションのような計算を大いに促進する。

The Linear Model of Co-regionalization (LMC) is a very general model of multitask gaussian process for regression or classification. While its expressivity and conceptual simplicity are appealing, naive implementations have cubic complexity in the number of datapoints and number of tasks, making approximations mandatory for most applications. However, recent work has shown that under some conditions the latent processes of the model can be decoupled, leading to a complexity that is only linear in the number of said processes. We here extend these results, showing from the most general assumptions that the only condition necessary to an efficient exact computation of the LMC is a mild hypothesis on the noise model. We introduce a full parametrization of the resulting \emph{projected LMC} model, and an expression of the marginal likelihood enabling efficient optimization. We perform a parametric study on synthetic data to show the excellent performance of our approach, compared to an unrestricted exact LMC and approximations of the latter. Overall, the projected LMC appears as a credible and simpler alternative to state-of-the art models, which greatly facilitates some computations such as leave-one-out cross-validation and fantasization.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# グラフランク付けコントラスト学習:非常にシンプルで効率的な方法

Graph Ranking Contrastive Learning: A Extremely Simple yet Efficient Method ( http://arxiv.org/abs/2310.14525v2 )

ライセンス: Link先を確認
Yulan Hu, Sheng Ouyang, Jingyu Liu, Ge Chen, Zhirui Yang, Junchen Wan, Fuzheng Zhang, Zhongyuan Wang, Yong Liu, (参考訳) グラフコントラスト学習(GCL)はグラフ自己教師方式として登場し,大きな成功を収めている。 現在広く使われているGCLの最適化目的はInfoNCEである。 通常、あるビューのノードがアンカーとして機能し、他のビューの対応するノードが正のサンプルとして機能し、他のすべてのノードが負のサンプルとみなされる。 目標は、アンカーノードと正のサンプルの間の距離を最小化し、負のサンプルまでの距離を最大化することである。 しかし、トレーニング中にラベル情報が不足しているため、InfoNCEは必然的に、同じクラスからのサンプルを負のサンプルとして扱い、偽の負のサンプルの問題を引き起こす。 これにより、学習したノード表現が損なわれ、ダウンストリームタスクのパフォーマンスが阻害される。 偽陰性の影響を軽減するために多くの方法が提案されているが、それらは依然として様々な課題に直面している。 例えば、負のサンプルの数を増やすことは偽の負の影響を減らしうるが、同時に計算負担を増大させる。 そこで我々は, 偽陰性サンプルの概念をある程度再定義し, 偽陰性サンプルの問題を回避し, 簡単なグラフ比較学習法であるGraphRankを提案する。 GraphRankの有効性は、ノード、エッジ、グラフレベルのタスクの実験を通じて実証的に検証されている。

Graph contrastive learning (GCL) has emerged as a representative graph self-supervised method, achieving significant success. The currently prevalent optimization objective for GCL is InfoNCE. Typically, it employs augmentation techniques to obtain two views, where a node in one view acts as the anchor, the corresponding node in the other view serves as the positive sample, and all other nodes are regarded as negative samples. The goal is to minimize the distance between the anchor node and positive samples and maximize the distance to negative samples. However, due to the lack of label information during training, InfoNCE inevitably treats samples from the same class as negative samples, leading to the issue of false negative samples. This can impair the learned node representations and subsequently hinder performance in downstream tasks. While numerous methods have been proposed to mitigate the impact of false negatives, they still face various challenges. For instance, while increasing the number of negative samples can dilute the impact of false negatives, it concurrently increases computational burden. Thus, we propose GraphRank, a simple yet efficient graph contrastive learning method that addresses the problem of false negative samples by redefining the concept of negative samples to a certain extent, thereby avoiding the issue of false negative samples. The effectiveness of GraphRank is empirically validated through experiments on the node, edge, and graph level tasks.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 言語モデルは幻滅するが、Excelは正確な検証をするかもしれない

Language Models Hallucinate, but May Excel at Fact Verification ( http://arxiv.org/abs/2310.14564v2 )

ライセンス: Link先を確認
Jian Guan, Jesse Dodge, David Wadden, Minlie Huang, Hao Peng, (参考訳) 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)における顕著な進歩に大きく依存している。 それでも、LLMはしばしば「幻覚」し、非実効的な出力をもたらす。 念入りに設計した人間の評価は、深刻な幻覚の問題を裏付けるものであり、GPT-3.5でさえ、25%未満の時間で実際のアウトプットを発生させることが判明した。 これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。 系統的な調査により,LLMは人間の判断と強い相関関係を持つ有効な事実検証器として再利用可能であることが確認された。 GPT3.5やChatGPTといった優れたLCMよりも優れていますが、FLAN-T5-11Bは事実検証として最高の性能を発揮しています。 より深く考えると、これらのLSMは、高品質な証拠と、堅牢性と一般化能力の欠如に依拠していると分析する。 本研究は,信頼性のある世代モデル開発のための知見を提示する。

Recent progress in natural language processing (NLP) owes much to remarkable advances in large language models (LLMs). Nevertheless, LLMs frequently "hallucinate," resulting in non-factual outputs. Our carefully-designed human evaluation substantiates the serious hallucination issue, revealing that even GPT-3.5 produces factual outputs less than 25% of the time. This underscores the importance of fact verifiers in order to measure and incentivize progress. Our systematic investigation affirms that LLMs can be repurposed as effective fact verifiers with strong correlations with human judgments. Surprisingly, FLAN-T5-11B, the least factual generator in our study, performs the best as a fact verifier, even outperforming more capable LLMs like GPT3.5 and ChatGPT. Delving deeper, we analyze the reliance of these LLMs on high-quality evidence, as well as their deficiencies in robustness and generalization ability. Our study presents insights for developing trustworthy generation models.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# TiC-CLIP:CLIPモデルの継続的なトレーニング

TiC-CLIP: Continual Training of CLIP Models ( http://arxiv.org/abs/2310.16226v3 )

ライセンス: Link先を確認
Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri, (参考訳) 最新のデータに基づいて、大規模なファンデーションモデルを最新に保つことは本質的にコストがかかる。 絶え間ない再訓練の禁止コストを避けるためには、これらのモデルを継続的に訓練することが不可欠である。 この問題は、大規模な継続的学習ベンチマークやベースラインの欠如によって悪化している。 我々は、TiC-DataComp、TiC-YFCC、TiC-Redcapsといったビジョン言語モデルをトレーニングするための、WebスケールのTime-Continual(TiC)ベンチマークの最初のセットを紹介する。 当社最大のデータセットであるTiC-DataCompは、9年(2014-2022)にわたる12.7Bのタイムスタンプイメージテキストペアを含んでいる。 まず、ベンチマークを用いて様々な動的評価を算出し、既存のモデルの時間的堅牢性を測定する。 私たちは、OpenAIのCLIP(2020年までのデータでトレーニングされた)が、最近トレーニングされたOpenCLIPリポジトリのモデルと比較して、2021年から2022年までのキュレートされた検索タスクにおいて、$\approx 8\%$ゼロショットの精度を失うことを示しています。 次に、時間連続データに基づいてモデルを効率的にトレーニングする方法を研究します。 我々は、前回のチェックポイントからトレーニングを継続し、古いデータを再生する単純なリハーサルベースのアプローチが、スクラッチからリトレーニングする標準的なプラクティスと比較して、計算を2.5\times$に削減することを示した。 コードはhttps://github.com/apple/ml-tic-clip.comで入手できる。

Keeping large foundation models up to date on latest data is inherently expensive. To avoid the prohibitive costs of constantly retraining, it is imperative to continually train these models. This problem is exacerbated by the lack of any large scale continual learning benchmarks or baselines. We introduce the first set of web-scale Time-Continual (TiC) benchmarks for training vision-language models: TiC-DataComp, TiC-YFCC, and TiC-Redcaps. TiC-DataComp, our largest dataset, contains over 12.7B timestamped image-text pairs spanning 9 years (2014-2022). We first use our benchmarks to curate various dynamic evaluations to measure temporal robustness of existing models. We show OpenAI's CLIP (trained on data up to 2020) loses $\approx 8\%$ zero-shot accuracy on our curated retrieval task from 2021-2022 compared with more recently trained models in OpenCLIP repository. We then study how to efficiently train models on time-continuous data. We demonstrate that a simple rehearsal-based approach that continues training from the last checkpoint and replays old data reduces compute by $2.5\times$ when compared to the standard practice of retraining from scratch. Code is available at https://github.com/apple/ml-tic-clip.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# 大規模言語モデルのための制約付きテキスト生成の評価・理解・改善

Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models ( http://arxiv.org/abs/2310.16343v2 )

ライセンス: Link先を確認
Xiang Chen, Xiaojun Wan, (参考訳) 自然言語生成(NLG)と大規模言語モデル(LLM)の進歩は、様々なタスクにおいて有能なテキスト生成につながっている。 しかし、LLMの不透明さのため、複雑な制約をニューラルネットワークに組み込むことは依然として困難である。 本研究では, LLMの生成過程において, 事前定義された制約を適用したLLMの制約付きテキスト生成について検討する。 本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。 また、公正な評価を容易にするための様々なベンチマークも提示する。 この研究は、LLMの制約付きテキスト生成の評価、理解、改善など、いくつかの重要な研究課題に対処する。 その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。 コードとデータセットは受け入れ次第リリースされる。

Advancements in natural language generation (NLG) and large language models (LLMs) have led to proficient text generation in various tasks. However, integrating intricate constraints into neural text generation, due to LLMs' opacity, remains challenging. This study investigates constrained text generation for LLMs, where predefined constraints are applied during LLM's generation process. Our research mainly focuses on mainstream open-source LLMs, categorizing constraints into lexical, structural, and relation-based types. We also present various benchmarks to facilitate fair evaluation. The study addresses some key research questions, including evaluating, understanding and improving constrained text generation for LLMs. Results illuminate LLMs' capacity and deficiency to incorporate constraints and provide insights for future developments in constrained text generation. Codes and datasets will be released upon acceptance.
翻訳日:2024-03-22 19:56:45 公開日:2024-03-21
# LLMが知らないことを知る: シンプルで効果的な自己検出法

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method ( http://arxiv.org/abs/2310.17918v2 )

ライセンス: Link先を確認
Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin, (参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。 しかし、近年の文献では、LCMは断続的に非実効応答を発生し、LCMのさらなる利用に対する信頼性を損なうことが示されている。 本稿では,LLMが非現実的な結果を生成する傾向にある質問を検知する,新たな自己検出手法を提案する。 具体的には、まず与えられた質問に対する文章表現を多様化し、対応する回答を収集する。 次に、生成した回答間のばらつきを調べ、モデルが虚偽を生成する可能性のある疑問を特定する。 上記のステップはすべて、他の外部リソースを参照することなく、LCM自体をプロンプトすることで実現できます。 我々は、最近リリースされたLCM(例えば、Vicuna、ChatGPT、GPT-4)に対して、包括的実験を行い、本手法の有効性を実証した。

Large Language Models (LLMs) have shown great potential in Natural Language Processing (NLP) tasks. However, recent literature reveals that LLMs generate nonfactual responses intermittently, which impedes the LLMs' reliability for further utilization. In this paper, we propose a novel self-detection method to detect which questions that a LLM does not know that are prone to generate nonfactual results. Specifically, we first diversify the textual expressions for a given question and collect the corresponding answers. Then we examine the divergencies between the generated answers to identify the questions that the model may generate falsehoods. All of the above steps can be accomplished by prompting the LLMs themselves without referring to any other external resources. We conduct comprehensive experiments and demonstrate the effectiveness of our method on recently released LLMs, e.g., Vicuna, ChatGPT, and GPT-4.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# VQPy: 現代的なビデオ分析のためのオブジェクト指向アプローチ

VQPy: An Object-Oriented Approach to Modern Video Analytics ( http://arxiv.org/abs/2311.01623v2 )

ライセンス: Link先を確認
Shan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu, (参考訳) ビデオ分析は現代のシステムやサービスで広く使われている。 ビデオ分析の最前線は、ユーザが特定の関心のあるオブジェクトを見つけるために開発するビデオクエリである。 ビデオ分析の中心である映像オブジェクト(人間、動物、車など)は、従来のオブジェクト指向言語でモデル化されたオブジェクトと精神的に類似しているという知見に基づいて、ビデオ分析のためのオブジェクト指向アプローチを開発することを提案する。 VQPyという名前のこのアプローチは、フロントエンド$\unicode{x2015}$a Python variantと、ビデオオブジェクトとそのインタラクションを簡単に表現できるコンストラクトと、ビデオオブジェクトに基づいてパイプラインを自動構築および最適化する拡張可能なバックエンドで構成されている。 私たちは、DeepVisionフレームワークの一部としてCiscoで製品化されているVQPyを実装、オープンソース化しました。

Video analytics is widely used in contemporary systems and services. At the forefront of video analytics are video queries that users develop to find objects of particular interest. Building upon the insight that video objects (e.g., human, animals, cars, etc.), the center of video analytics, are similar in spirit to objects modeled by traditional object-oriented languages, we propose to develop an object-oriented approach to video analytics. This approach, named VQPy, consists of a frontend$\unicode{x2015}$a Python variant with constructs that make it easy for users to express video objects and their interactions$\unicode{x2015}$as well as an extensible backend that can automatically construct and optimize pipelines based on video objects. We have implemented and open-sourced VQPy, which has been productized in Cisco as part of its DeepVision framework.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# RiskQ: リスクに敏感なマルチエージェント強化学習値の分解

RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization ( http://arxiv.org/abs/2311.01753v2 )

ライセンス: Link先を確認
Siqi Shen, Chennan Ma, Chao Li, Weiquan Liu, Yongquan Fu, Songzhu Mei, Xinwang Liu, Cheng Wang, (参考訳) マルチエージェントシステムは、環境の不確実性、エージェントの様々なポリシー、部分的な可観測性によって特徴づけられ、大きなリスクをもたらす。 マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)の文脈では、リスクに敏感な協調型および分散型ポリシの学習は困難である。 リスクに敏感なMARLにおける協調要求を定式化するために,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として導入する。 この原則では、各エージェントのリスクに敏感な行動選択の収集は、中央ポリシーのリスクに敏感な行動選択と等価であるべきである。 現在のMARL値分解法は、リスク値(VaR)測定や歪んだリスク測定のような共通リスク指標のRIGM原則を満たさない。 そこで我々は,この制限に対処するリスクQを提案する。これは,その量子化を,エージェント単位の戻り分布ユーティリティの重み付き量子化混合としてモデル化することで,ジョイントリターン分布をモデル化する。 RiskQは、VaRのRIGM原則と歪んだリスクメトリクスを満たす。 RiskQは広範な実験によって有望な性能が得られることを示す。 RiskQのソースコードはhttps://github.com/xmu-rl-3dv/RiskQで公開されている。

Multi-agent systems are characterized by environmental uncertainty, varying policies of agents, and partial observability, which result in significant risks. In the context of Multi-Agent Reinforcement Learning (MARL), learning coordinated and decentralized policies that are sensitive to risk is challenging. To formulate the coordination requirements in risk-sensitive MARL, we introduce the Risk-sensitive Individual-Global-Max (RIGM) principle as a generalization of the Individual-Global-Max (IGM) and Distributional IGM (DIGM) principles. This principle requires that the collection of risk-sensitive action selections of each agent should be equivalent to the risk-sensitive action selection of the central policy. Current MARL value factorization methods do not satisfy the RIGM principle for common risk metrics such as the Value at Risk (VaR) metric or distorted risk measurements. Therefore, we propose RiskQ to address this limitation, which models the joint return distribution by modeling quantiles of it as weighted quantile mixtures of per-agent return distribution utilities. RiskQ satisfies the RIGM principle for the VaR and distorted risk metrics. We show that RiskQ can obtain promising performance through extensive experiments. The source code of RiskQ is available in https://github.com/xmu-rl-3dv/RiskQ.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# 量子感度解析 : 量子ゆらぎ制御のための一般的な枠組み

Quantum sensitivity analysis: a general framework for controlling quantum fluctuations ( http://arxiv.org/abs/2311.05535v3 )

ライセンス: Link先を確認
Shiekh Zia Uddin, Nicholas Rivera, Devin Seyler, Yannick Salamin, Jamison Sloan, Charles Roques-Carmes, Shutao Xu, Michelle Sander, Marin Soljacic, (参考訳) 非線形システムは現代科学技術の多くの分野において重要である。 例えば、非線形性は光と物質の両方の量子力学的状態を生成する上で重要な役割を果たす。 その結果、様々な非線形効果の基本的な量子的性質を理解することに大きな関心が寄せられた。 同時に、非線形系の古典的理解と量子的理解の間には大きなギャップがあり、古典的理解ははるかに発展している。 このギャップを埋めるために、古典的な記述の観点から、あらゆる非線形系における量子効果を純粋に予測できる一般的な新しい理論を導入する。 我々は、ソリトン・フィッション・スーパーコンティニュウム発生中の光ファイバ中に伝播する強フェムト秒パルスの量子揺らぎを観測する実験において、我々の理論の予測を実証する。 有名なことに、このプロセスは非常にノイズに敏感であることが知られており、量子ゆらぎしか持たない入力からでもノイズの出力が生じる。 対照的に、我々の実験は、我々の理論の予測と一致して、量子相関や絡み合いから生じる様々な隠れた低ノイズ状態とノイズ・ロバスト状態を発見した。 また、この理論が光の量子ノイズを制御するための新しい設計概念をどう示すかを示す。 我々は, 様々な複雑な非線形システムにおいて, 量子効果を発見するためのテンプレートを提供することを期待している。

Nonlinear systems are important in many areas of modern science and technology. For example, nonlinearity plays an essential role in generating quantum mechanical states of both light and matter. As a result, there has been great interest in understanding the fundamental quantum nature of a variety of nonlinear effects. At the same time, there is currently a large gap between the classical and quantum understanding of nonlinear systems, with the classical understanding being far more developed. To close this gap, we introduce a general new theory which allows us to predict quantum effects in any nonlinear system purely in terms of its classical description. We demonstrate the predictions of our theory in experiments probing quantum fluctuations of intense femtosecond pulses propagating in an optical fiber undergoing soliton-fission supercontinuum generation, a process where broadband radiation is produced by a narrow-band input. Famously, this process is known to be highly noise-sensitive, leading to noisy outputs even from inputs with only quantum fluctuations. In contrast, our experiments uncovered a variety of previously hidden low-noise and noise-robust states arising from quantum correlations and entanglement, in agreement with the predictions of our theory. We also show how the theory points to new design concepts for controlling quantum noise in optics and beyond. We expect that our results will provide a template for discovering quantum effects in a wide variety of complex nonlinear systems.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# Chat-UniVi: 画像とビデオの理解を備えた大規模言語モデルを実現する統一視覚表現

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding ( http://arxiv.org/abs/2311.08046v2 )

ライセンス: Link先を確認
Peng Jin, Ryuichi Takanobu, Wancai Zhang, Xiaochun Cao, Li Yuan, (参考訳) 大規模言語モデルは、幅広いオープンエンドタスクにおいて印象的な普遍性を示し、マルチモーダルな会話を包含するようにそのユーティリティを拡張した。 しかし,既存の手法では画像理解と映像理解の両方を効果的に扱うことが困難であり,特に視覚的トークンが限られている。 本研究では,統合された視覚表現を通じて,画像やビデオを含む会話を解釈し,関与することができる統一視覚言語モデルChat-UniViを紹介する。 具体的には、画像やビデオを一様に表現するために、動的視覚トークンのセットを用いる。 この表現フレームワークは、限られた数の視覚トークンを効率的に利用し、画像に必要な空間的詳細とビデオに必要な包括的な時間的関係を同時にキャプチャする。 さらに,マルチスケール表現を活用し,高レベルのセマンティック概念と低レベルの視覚的詳細の両方を知覚することができる。 特にChat-UniViは、画像とビデオの両方を含む混合データセットでトレーニングされている。 大規模な実験結果から、Chat-UniViは画像やビデオ専用に設計された既存の手法よりも一貫して優れています。 コードはhttps://github.com/PKU-YuanGroup/Chat-UniViで入手できる。

Large language models have demonstrated impressive universal capabilities across a wide range of open-ended tasks and have extended their utility to encompass multimodal conversations. However, existing methods encounter challenges in effectively handling both image and video understanding, particularly with limited visual tokens. In this work, we introduce Chat-UniVi, a Unified Vision-language model capable of comprehending and engaging in conversations involving images and videos through a unified visual representation. Specifically, we employ a set of dynamic visual tokens to uniformly represent images and videos. This representation framework empowers the model to efficiently utilize a limited number of visual tokens to simultaneously capture the spatial details necessary for images and the comprehensive temporal relationship required for videos. Moreover, we leverage a multi-scale representation, enabling the model to perceive both high-level semantic concepts and low-level visual details. Notably, Chat-UniVi is trained on a mixed dataset containing both images and videos, allowing direct application to tasks involving both mediums without requiring any modifications. Extensive experimental results demonstrate that Chat-UniVi consistently outperforms even existing methods exclusively designed for either images or videos. Code is available at https://github.com/PKU-YuanGroup/Chat-UniVi.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# 一般化量子干渉計を用いた複光子のフルキャラクタリゼーション

Full characterization of biphotons with a generalized quantum interferometer ( http://arxiv.org/abs/2311.08164v3 )

ライセンス: Link先を確認
Baihong Li, Changhua Chen, Boxin Yuan, Xiaofei Zhang, Ruifang Dong, Shougang Zhang, Rui-Bo Jin, (参考訳) 時間周波数自由度における絡み合った光子(双光子)は、基礎物理学と先進量子技術の両方において重要な役割を果たす。 それらを完全に特徴付けることは、重要な科学的課題である。 本稿では,両光子の完全なトモグラフィーを実現するための理論的アプローチを提案する。 一般化された組合せ干渉計により、単一干渉計における周波数和と差に付随する完全複素結合スペクトルの再構成が可能となる。 対照的に、一般化されたHong-Ou-MandelとN00N状態干渉計は、周波数差または周波数和においてバイフォトンの部分トモグラフィーしか許さない。 これは交換対称性を持つ任意の2光子状態のフルキャラクタリゼーションのための代替方法であり、高次元量子情報処理への応用の可能性を持っている。

Entangled photons (biphotons) in the time-frequency degree of freedom play a crucial role in both foundational physics and advanced quantum technologies. Fully characterizing them poses a key scientific challenge. Here, we propose a theoretical approach to achieving the complete tomography of biphotons by introducing a frequency shift in one arm of the combination interferometer. Our method, a generalized combination interferometer, enables the reconstruction of the full complex joint spectral amplitude associated with both frequency sum and difference in a single interferometer. In contrast, the generalized Hong-Ou-Mandel and N00N state interferometers only allow for the partial tomography of biphotons, either in frequency difference or frequency sum. This provides an alternative method for full characterization of an arbitrary two-photon state with exchange symmetry and holds potential for applications in high-dimensional quantum information processing.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# TableLlama: テーブルのための大規模汎用モデルを目指す

TableLlama: Towards Open Large Generalist Models for Tables ( http://arxiv.org/abs/2311.09206v2 )

ライセンス: Link先を確認
Tianshu Zhang, Xiang Yue, Yifei Li, Huan Sun, (参考訳) 半構造化テーブルはユビキタスである。 テーブルを自動的に解釈し、拡張し、クエリすることを目的とした、さまざまなタスクがあった。 現在のメソッドは、しばしばテーブルや特別なモデルアーキテクチャ設計の事前訓練を必要とし、特定のテーブルタイプに制限されるか、テーブルやタスクに関する仮定を単純化する。 本稿では,多種多様なテーブルベースタスクのジェネラリストとして,オープンソースの大規模言語モデル(LLM)の開発に向けた第一歩を示す。 そこで我々は,様々な現実的なテーブルやタスクを備えた新しいデータセットであるTableInstructを構築し,LLMのチューニングと評価を行う。 さらに,LongLoRAを用いてLlama 2 (7B) を微調整することで,テーブル用の最初のオープンソースジェネラリストモデルであるTableLlamaを開発した。 ドメイン内設定とドメイン外設定の両方で実験する。 ドメイン内の8つのタスクのうち7つで、TableLlamaはタスクごとにSOTAと同等かそれ以上のパフォーマンスを実現している。 6つのドメイン外のデータセットでは、ベースモデルと比較して5-44の絶対点ゲインを実現しており、TableInstructでのトレーニングがモデルの一般化性を高めることを示している。 データセットとトレーニングされたモデルをオープンソースとして公開し、テーブルのオープンなジェネラリストモデルの開発を後押しします。

Semi-structured tables are ubiquitous. There has been a variety of tasks that aim to automatically interpret, augment, and query tables. Current methods often require pretraining on tables or special model architecture design, are restricted to specific table types, or have simplifying assumptions about tables and tasks. This paper makes the first step towards developing open-source large language models (LLMs) as generalists for a diversity of table-based tasks. Towards that end, we construct TableInstruct, a new dataset with a variety of realistic tables and tasks, for instruction tuning and evaluating LLMs. We further develop the first open-source generalist model for tables, TableLlama, by fine-tuning Llama 2 (7B) with LongLoRA to address the long context challenge. We experiment under both in-domain setting and out-of-domain setting. On 7 out of 8 in-domain tasks, TableLlama achieves comparable or better performance than the SOTA for each task, despite the latter often has task-specific design. On 6 out-of-domain datasets, it achieves 5-44 absolute point gains compared with the base model, showing that training on TableInstruct enhances the model's generalizability. We open-source our dataset and trained model to boost future work on developing open generalist models for tables.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# 言語補正によるロボット操作における汎用知識の蒸留と検索

Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections ( http://arxiv.org/abs/2311.10678v2 )

ライセンス: Link先を確認
Lihan Zha, Yuchen Cui, Li-Heng Lin, Minae Kwon, Montserrat Gonzalez Arenas, Andy Zeng, Fei Xia, Dorsa Sadigh, (参考訳) 今日のロボット政策は、新しい環境への一般化という課題に直面した場合、サブパーパフォーマンスを示す。 人間の修正フィードバックは、そのような一般化を可能にするための重要なガイダンスである。 しかし、オンラインの人間の修正に適応し、学習することは、簡単ではない。ロボットは、新しい設定における適切な情報を取得し、介入率を減らすために、時間とともに人間のフィードバックを記憶する必要があるだけでなく、高いレベルの人間の好みに関する任意の修正や、スキルパラメータの低レベルの調整といったフィードバックに応答できる必要がある。 本稿では,言語フィードバックの任意の形式に応答し,修正から一般化可能な知識を抽出し,テキストや視覚的類似性に基づいて関連した過去の経験を検索し,新規な設定における性能向上を図る,大規模言語モデル(LLM)ベースのシステムであるDROCについて述べる。 DROCは、高レベルのタスクプランと低レベルのスキルプリミティブの両方の障害に対処する一連のオンライン言語修正に対応することができる。 DROCは、知識ベースにおけるオンライン修正のシーケンスから関連情報を効果的に蒸留し、その知識を新しいタスクやオブジェクトインスタンスの設定で回収することを示した。 DROCは、第1ラウンドに必要な修正の総数の半分しか使用せず、2回のイテレーション後にほとんど修正を必要とせず、LSMを通してロボットコードを直接生成する他の技術よりも優れている。 さらなる結果、ビデオ、プロンプト、コードをhttps://sites.google.com/stanford.edu/drocで示します。

Today's robot policies exhibit subpar performance when faced with the challenge of generalizing to novel environments. Human corrective feedback is a crucial form of guidance to enable such generalization. However, adapting to and learning from online human corrections is a non-trivial endeavor: not only do robots need to remember human feedback over time to retrieve the right information in new settings and reduce the intervention rate, but also they would need to be able to respond to feedback that can be arbitrary corrections about high-level human preferences to low-level adjustments to skill parameters. In this work, we present Distillation and Retrieval of Online Corrections (DROC), a large language model (LLM)-based system that can respond to arbitrary forms of language feedback, distill generalizable knowledge from corrections, and retrieve relevant past experiences based on textual and visual similarity for improving performance in novel settings. DROC is able to respond to a sequence of online language corrections that address failures in both high-level task plans and low-level skill primitives. We demonstrate that DROC effectively distills the relevant information from the sequence of online corrections in a knowledge base and retrieves that knowledge in settings with new task or object instances. DROC outperforms other techniques that directly generate robot code via LLMs by using only half of the total number of corrections needed in the first round and requires little to no corrections after two iterations. We show further results, videos, prompts and code on https://sites.google.com/stanford.edu/droc .
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# 視覚言語モデルにおけるアクティブ・プロンプト学習

Active Prompt Learning in Vision Language Models ( http://arxiv.org/abs/2311.11178v3 )

ライセンス: Link先を確認
Jihwan Bang, Sumyeong Ahn, Jae-Gil Lee, (参考訳) 事前訓練された視覚言語モデル(VLM)は、分類や検索など、様々なゼロショットタスクにおいて顕著な進歩を見せている。 彼らのパフォーマンスにもかかわらず、新しいタスクのパフォーマンスを改善するにはタスク固有の知識が必要であるため、それらの適応は不可欠である。 ラベルは適応に必要だが、その取得は通常高価である。 この課題を克服するために,専門家から少数のサンプルのラベルを取得し,高い性能を達成するための能動的学習法が研究されている。 アクティブラーニングは、主にラベル付けされていないサンプルを選択し、モデルをトレーニングするためにそれらを活用することに焦点を当てている。 本研究では,「事前学習されたVLMは,アクティブラーニングフレームワークの下でどのように適応できるのか?」という疑問を提起する。 本調査では,(1)事前学習したVLMに対して従来のアクティブラーニングフレームワークを適用すれば,ラベル付け候補のクラス不均衡のため,ランダム選択よりも性能が低下する可能性があり,(2)VLMの知識がラベル付け前のバランスを達成するヒントとなることを観察する。 これらの観測に基づいて,PCB と表記される VLM のための新しいアクティブラーニングフレームワークを考案した。 提案手法の有効性を評価するため,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超越していることを示す。 コードはhttps://github.com/kaist-dmlab/pcbで入手できる。

Pre-trained Vision Language Models (VLMs) have demonstrated notable progress in various zero-shot tasks, such as classification and retrieval. Despite their performance, because improving performance on new tasks requires task-specific knowledge, their adaptation is essential. While labels are needed for the adaptation, acquiring them is typically expensive. To overcome this challenge, active learning, a method of achieving a high performance by obtaining labels for a small number of samples from experts, has been studied. Active learning primarily focuses on selecting unlabeled samples for labeling and leveraging them to train models. In this study, we pose the question, "how can the pre-trained VLMs be adapted under the active learning framework?" In response to this inquiry, we observe that (1) simply applying a conventional active learning framework to pre-trained VLMs even may degrade performance compared to random selection because of the class imbalance in labeling candidates, and (2) the knowledge of VLMs can provide hints for achieving the balance before labeling. Based on these observations, we devise a novel active learning framework for VLMs, denoted as PCB. To assess the effectiveness of our approach, we conduct experiments on seven different real-world datasets, and the results demonstrate that PCB surpasses conventional active learning and random sampling methods. Code will be available in https://github.com/kaist-dmlab/pcb .
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# Open-Vocabulary Camouflaged Object Segmentation

Open-Vocabulary Camouflaged Object Segmentation ( http://arxiv.org/abs/2311.11241v2 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Jiaming Zuo, Lihe Zhang, Huchuan Lu, (参考訳) 近年、CLIPのような大規模視覚言語モデル(VLM)が出現し、オープンワールドオブジェクト認識への道を開いた。 多くの研究が、推論時に新しいクラスを持つ多様なオブジェクトを知覚する必要がある、オープン語彙の高密度な予測課題に対する事前学習VLMの利用について検討している。 既存の手法は、オープン語彙に適合せず、データ収集バイアスとアノテーションコストのために複雑な場面でキャモフラージュされた知覚不可能なオブジェクトを伴わない、関連するタスクの公開データセットに基づく実験を構築している。 このギャップを埋めるために、我々は新しいタスク、オープン語彙カモフラージュオブジェクトセグメンテーション(OVCOS)を導入し、11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複雑なシーンデータセット(\textbf{OVCamo})を構築した。 さらに、パラメータ固定されたCLIPに反復的意味指導と構造拡張を付加した、強力な単一ステージのオープン語彙である \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} を構築した。 クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。 さらに、この効果的なフレームワークは、OVCamoデータセットに対する大きなマージンで、従来のオープン語彙のセマンティックイメージセグメンテーションの最先端を超越している。 提案したデータセットとベースラインにより、より実用的な価値を持つこの新しいタスクが、よりオープンな語彙密度予測タスクの研究をさらに拡大することを期待している。 コードとデータは将来的に利用可能になる予定だ。

Recently, the emergence of the large-scale vision-language model (VLM), such as CLIP, has opened the way towards open-world object perception. Many works have explored the utilization of pre-trained VLM for the challenging open-vocabulary dense prediction task that requires perceiving diverse objects with novel classes at inference time. Existing methods construct experiments based on the public datasets of related tasks, which are not tailored for open vocabulary and rarely involve imperceptible objects camouflaged in complex scenes due to data collection bias and annotation costs. To fill in the gaps, we introduce a new task, open-vocabulary camouflaged object segmentation (OVCOS), and construct a large-scale complex scene dataset (\textbf{OVCamo}) containing 11,483 hand-selected images with fine annotations and corresponding object classes. Further, we build a strong single-stage open-vocabulary \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} attached to the parameter-fixed CLIP with iterative semantic guidance and structure enhancement. By integrating the guidance of class semantic knowledge and the supplement of visual structure cues from the edge and depth information, the proposed method can efficiently capture camouflaged objects. Moreover, this effective framework also surpasses previous state-of-the-arts of open-vocabulary semantic image segmentation by a large margin on our OVCamo dataset. With the proposed dataset and baseline, we hope that this new task with more practical value can further expand the research on open-vocabulary dense prediction tasks. The code and data will be available in the future.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# CoachLM: LLMインストラクションチューニングにおけるデータ品質向上のための自動インストラクションリビジョン

CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning ( http://arxiv.org/abs/2311.13246v2 )

ライセンス: Link先を確認
Yilun Liu, Shimin Tao, Xiaofeng Zhao, Ming Zhu, Wenbing Ma, Junhao Zhu, Chang Su, Yutai Hou, Miao Zhang, Min Zhang, Hongxia Ma, Li Zhang, Hao Yang, Yanfei Jiang, (参考訳) インストラクションチューニングは、人間の指示に応答する言語学習モデル(LLM)の実現に不可欠である。 チューニングに使用する命令ペアの品質は、LLMの性能に大きく影響する。 しかし、高品質な命令データセットを手作業で作成することはコストがかかるため、LLMによる命令ペアの自動生成が一般的な代替手段として採用される。 LLM生成した命令データセットの高品質性を確保するため、いくつかのアプローチが提案されている。 それにもかかわらず、既存の手法は大量のサンプルをフィルタリングすることでデータセットの整合性を損なうか、産業用途には適さない。 本稿では,低品質なサンプルを捨てる代わりに,データセットのサンプルの自動修正による命令データセットの品質向上のための新しいアプローチであるCoachLMを提案する。 CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。 coachLMの有効性は、様々な実世界の命令セットでさらに評価される。 その結果、CoachLMは、平均29.9%の命令調整LDMの命令追従能力を向上し、パラメータの約2倍のLLMを超える結果となった。 さらに、CoachLMはHuaweiのLLMのデータ管理システムにうまくデプロイされており、40kの実世界の命令ペアのクリーニングにおいて最大20%の効率向上を実現している。 トレーニングデータ、コード、テストセット(https://github.com/lunyiliu/CoachLM)を含む、CoachLMのさまざまな資産をリリースします。

Instruction tuning is crucial for enabling Language Learning Models (LLMs) in responding to human instructions. The quality of instruction pairs used for tuning greatly affects the performance of LLMs. However, the manual creation of high-quality instruction datasets is costly, leading to the adoption of automatic generation of instruction pairs by LLMs as a popular alternative. To ensure the high quality of LLM-generated instruction datasets, several approaches have been proposed. Nevertheless, existing methods either compromise dataset integrity by filtering a large proportion of samples, or are unsuitable for industrial applications. In this paper, instead of discarding low-quality samples, we propose CoachLM, a novel approach to enhance the quality of instruction datasets through automatic revisions on samples in the dataset. CoachLM is trained from the samples revised by human experts and significantly increases the proportion of high-quality samples in the dataset from 17.7% to 78.9%. The effectiveness of CoachLM is further assessed on various real-world instruction test sets. The results show that CoachLM improves the instruction-following capabilities of the instruction-tuned LLM by an average of 29.9%, which even surpasses larger LLMs with nearly twice the number of parameters. Furthermore, CoachLM is successfully deployed in a data management system for LLMs at Huawei, resulting in an efficiency improvement of up to 20% in the cleaning of 40k real-world instruction pairs. We release various assets of CoachLM, including the training data, code and test set (https://github.com/lunyiliu/CoachLM).
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# Point2RBox: エンドツーエンドオブジェクト指向オブジェクト検出のための合成視覚パターンからの知識と単一点スーパービジョンを組み合わせる

Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision ( http://arxiv.org/abs/2311.14758v2 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Feipeng Da, Jifeng Dai, Yu Qiao, Junchi Yan, (参考訳) オブジェクト指向物体検出(OOD)の需要が急速に高まる中、水平箱(HBox)から回転箱(RBox)を学習するための弱い教師付き検出器(RBox)に関する最近の研究が注目されている。 本稿では,より難易度の高いラベル効率設定,すなわち単一点制御OODについて検討し,Point2RBoxというアプローチを提案する。 具体的には,2つの原則を活用することを提案する。 1) 合成パターン知識の組み合わせ: 画像上のラベル付き各点をサンプリングすることにより, 既知ボックスを用いた合成視覚パターンにオブジェクト特徴を拡大し, ボックス回帰の知識を提供する。 2) 変換自己スーパービジョン: 変換された入力画像(例えば、スケール/ローテーション)を用いて、出力RBoxは、オブジェクト間の相対的なサイズ/ローテーションを知覚できるように、同じ変換に従うように訓練される。 この検出器は、周辺問題に対処するいくつかの工夫された技術によってさらに強化されている。 私たちの知る限りでは、Point2RBoxはポイント管理OODの最初のエンドツーエンドソリューションです。 特に,本手法は軽量なパラダイムを用いているが,DOTA/DIOR/HRSCデータセットの41.05%/27.62%/80.01%の点教師付き代替品間での競合性能を実現している。

With the rapidly increasing demand for oriented object detection (OOD), recent research involving weakly-supervised detectors for learning rotated box (RBox) from the horizontal box (HBox) has attracted more and more attention. In this paper, we explore a more challenging yet label-efficient setting, namely single point-supervised OOD, and present our approach called Point2RBox. Specifically, we propose to leverage two principles: 1) Synthetic pattern knowledge combination: By sampling around each labeled point on the image, we spread the object feature to synthetic visual patterns with known boxes to provide the knowledge for box regression. 2) Transform self-supervision: With a transformed input image (e.g. scaled/rotated), the output RBoxes are trained to follow the same transformation so that the network can perceive the relative size/rotation between objects. The detector is further enhanced by a few devised techniques to cope with peripheral issues, e.g. the anchor/layer assignment as the size of the object is not available in our point supervision setting. To our best knowledge, Point2RBox is the first end-to-end solution for point-supervised OOD. In particular, our method uses a lightweight paradigm, yet it achieves a competitive performance among point-supervised alternatives, 41.05%/27.62%/80.01% on DOTA/DIOR/HRSC datasets.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# LMMによる乳がん治療 : コンシステンシー・エンベディングによるターゲットセグメンテーション

LMM-Assisted Breast Cancer Treatment Target Segmentation with Consistency Embedding ( http://arxiv.org/abs/2311.15876v2 )

ライセンス: Link先を確認
Kwanyoung Kim, Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Jin Sung Kim, Yong Bae Kim, Jong Chul Ye, (参考訳) 人工知能(AI)の最近の進歩は、臨床ワークロードを減らすためのツールを提供することによって、医療分野に大きな影響を与えている。 しかし、ほとんどのAIモデルは、医療専門家が利用する包括的なアプローチとは対照的に、一助的なタスクの実行に制約されている。 ここでは放射線腫瘍学の分野に適した多目的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。 本モデルでは, 臨床ワークフローにおける一連のタスク, 臨床報告要約, 放射線治療計画提案, 計画指導対象ボリュームセグメンテーションを網羅する。 特に, 連続的な臨床業務を行うために, 新規なCEFTune(Consistency Embedding Fine-Tuning)技術を提案する。これは, クリーン入力の処理能力を保ちながら, LMMの頑健さをノイズ入力に高め, この概念を一貫性埋め込みセグメンテーション(CESEG)としてLMM駆動セグメンテーションフレームワークに変換する。 多心性コホートを用いた実験結果から, RO-LMM が複数の臨床課題に対して有望であることを示す。

Recent advancements in Artificial Intelligence (AI) have profoundly influenced medical fields, by providing tools to reduce clinical workloads. However, most AI models are constrained to execute unimodal tasks, in stark contrast to the comprehensive approaches utilized by medical professionals. To address this, here we present RO-LMM, a multi-purpose large multimodal model (LMM) tailored for the field of radiation oncology. This model covers series of tasks within clinical workflow, adept at clinical report summarization, radiation treatment plan suggestion, and plan-guided target volume segmentation. In particular, to perform consecutive clinical tasks, we further present a novel Consistency Embedding Fine-Tuning (CEFTune) technique, which boosts LMM's robustness to noisy inputs while preserving the capability of handling clean inputs, and transform this concept into LMM-driven segmentation framework as Consistency Embedding Segmentation~(CESEG). Experimental results on multi-centre cohorts demonstrate our RO-LMM's promising performance for multiple clinical tasks with generalization capabilities.
翻訳日:2024-03-22 19:47:00 公開日:2024-03-21
# Direct2.5:マルチビュー2.5D拡散によるテキスト・ツー・3D生成

Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D Diffusion ( http://arxiv.org/abs/2311.15980v2 )

ライセンス: Link先を確認
Yuanxun Lu, Jingyang Zhang, Shiwei Li, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, Xun Cao, Yao Yao, (参考訳) 生成AIの最近の進歩は、3Dコンテンツを作成する大きな可能性を明らかにしている。 しかし、現在の方法では、時間消費スコア蒸留サンプリング(SDS)による事前学習された2次元拡散モデルや、生成多様性を損なう限られた3次元データに基づいて訓練された直接3次元拡散モデルを適用する。 本研究では, 事前学習した2次元拡散モデルを用いて, 多視点2.5D拡散モデルを用いてこの問題に対処する。 マルチビュー2.5D拡散は、3Dデータの構造分布を直接モデル化するが、元の2D拡散モデルの強力な一般化能力は保ち、2D拡散ベースと直接3D拡散ベースによる3Dコンテンツ生成のギャップを埋める。 推論中に2.5次元拡散を用いて多視点正規写像が生成され、ほぼ一貫した多視点正規写像を一貫した3次元モデルに融合させる新しい微分可能ラスタライズスキームが導入された。 さらに、3次元形状から高速な外観生成のための正規条件付きマルチビュー画像生成モジュールを設計する。 提案手法は1パス拡散プロセスであり,後処理としてSDSの最適化は不要である。 提案手法を用いた2.5Dの直接生成により,多種多様,モードフリー,高忠実な3Dコンテンツ生成を10秒で実現できることを示す。 プロジェクトページ:https://nju-3dv.github.io/projects/direct25。

Recent advances in generative AI have unveiled significant potential for the creation of 3D content. However, current methods either apply a pre-trained 2D diffusion model with the time-consuming score distillation sampling (SDS), or a direct 3D diffusion model trained on limited 3D data losing generation diversity. In this work, we approach the problem by employing a multi-view 2.5D diffusion fine-tuned from a pre-trained 2D diffusion model. The multi-view 2.5D diffusion directly models the structural distribution of 3D data, while still maintaining the strong generalization ability of the original 2D diffusion model, filling the gap between 2D diffusion-based and direct 3D diffusion-based methods for 3D content generation. During inference, multi-view normal maps are generated using the 2.5D diffusion, and a novel differentiable rasterization scheme is introduced to fuse the almost consistent multi-view normal maps into a consistent 3D model. We further design a normal-conditioned multi-view image generation module for fast appearance generation given the 3D geometry. Our method is a one-pass diffusion process and does not require any SDS optimization as post-processing. We demonstrate through extensive experiments that, our direct 2.5D generation with the specially-designed fusion scheme can achieve diverse, mode-seeking-free, and high-fidelity 3D content generation in only 10 seconds. Project page: https://nju-3dv.github.io/projects/direct25.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# 3末端量子ドット熱電対のグラフ理論解析:オンザガー関係とスピン-熱電効果

Graph theoretic analysis of three-terminal quantum dot thermocouples: Onsager relations and spin-thermoelectric effects ( http://arxiv.org/abs/2311.16548v3 )

ライセンス: Link先を確認
Nikhil Gupt, Shuvadip Ghosh, Arnab Ghosh, (参考訳) 2つの強結合量子ドットからなる3末端量子熱電対の簡易モデルを導入する。 スピン依存ゼーベック効果とペルティエ効果を解明するために、顕微鏡的ハミルトン方程式を用い、リンドブラッドマスター方程式を量子遷移ネットワークにマッピングし、両相互効果の鍵となる作用原理を捉える。 解析の結果,クーロン相互作用とスピン沸騰過程の両方を包含する量子熱力学ネットワークが,スピン熱電効果の出現に繋がることが明らかとなった。 代数グラフ理論を用いて、循環流束とサイクル力で表されるエントロピー生成率の確率バージョンから、不可逆熱力学の現象論的法則を復元する。 注目すべきは、輸送係数に対するオンサーガーの相互性とケルビンの関係は、量子遷移ネットワーク内のサイクル束軌跡の性質にその前提を見出すことである。 このことは、古典的および量子的領域における熱力学の原理の普遍的な一般化を、局所平衡の仮定に依存する非可逆的熱力学の古典的な法則と根本的に異なる基礎であるにもかかわらず示している。

We introduce a simplified model for a three-terminal quantum thermocouple consisting of two strongly-coupled quantum dots. To elucidate spin-dependent Seebeck and Peltier effects, we employ a microscopic Hamiltonian and map the Lindblad master equation onto a quantum transition network, capturing the key working principles for both reciprocal effects. Our analysis reveals quantum thermodynamic networks encompassing both Coulomb interaction and spin-flipping processes, lead to the emergence of spin-thermolectric effects. Using algebraic graph theory, we recover the phenomenological law of irreversible thermodynamics from the stochastic version of the entropy production rate expressed in terms of cycle flux and cycle forces. Remarkably, Onsager reciprocity and Kelvin relation for transport coefficients find their premises in the properties of cycle flux trajectories within the quantum transition network. This underscores the universal generality of thermodynamic principles across classical and quantum realms, despite their fundamentally different basis from classical laws of irreversible thermodynamics relying on local equilibrium assumptions.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# $\mathbb{Z}_2\times \mathbb{Z}_2$ Equivariant Quantum Neural Networks: Benchmarking against Classical Neural Networks

$\mathbb{Z}_2\times \mathbb{Z}_2$ Equivariant Quantum Neural Networks: Benchmarking against Classical Neural Networks ( http://arxiv.org/abs/2311.18744v3 )

ライセンス: Link先を確認
Zhongtian Dong, Marçal Comajoan Cara, Gopal Ramesh Dahale, Roy T. Forestano, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu, (参考訳) 本稿では,EQNN(Equivariant Quantum Neural Networks)とQNN(Quantum Neural Networks)のパフォーマンスの総合的比較分析を行い,その古典的特徴であるENN(Equivariant Neural Networks)とDNN(Deep Neural Networks)とを比較した。 各ネットワークの性能を二分分類タスクの2つの例で評価し、モデルの複雑さ(パラメータ数によって測定される)とトレーニングデータセットのサイズに着目した。 以上の結果から,$\mathbb{Z}_2\times \mathbb{Z}_2$ EQNNとQNNは,より小さいパラメータセットと控えめなトレーニングデータサンプルに対して優れた性能を示すことがわかった。

This paper presents a comprehensive comparative analysis of the performance of Equivariant Quantum Neural Networks (EQNN) and Quantum Neural Networks (QNN), juxtaposed against their classical counterparts: Equivariant Neural Networks (ENN) and Deep Neural Networks (DNN). We evaluate the performance of each network with two toy examples for a binary classification task, focusing on model complexity (measured by the number of parameters) and the size of the training data set. Our results show that the $\mathbb{Z}_2\times \mathbb{Z}_2$ EQNN and the QNN provide superior performance for smaller parameter sets and modest training data samples.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# ColonNeRF: 大腸内視鏡の高忠実性神経再建術

ColonNeRF: High-Fidelity Neural Reconstruction of Long Colonoscopy ( http://arxiv.org/abs/2312.02015v2 )

ライセンス: Link先を確認
Yufei Shi, Beijia Lu, Jia-Wei Liu, Ming Li, Mike Zheng Shou, (参考訳) 大腸内視鏡検査は大腸癌の診断に重要である。 しかし, 大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下大腸鏡視下CT像の観察は困難であった。 これらの課題に対処するために,脳神経放射野(NeRF)に基づく新しい再構成フレームワークであるColonNeRFを導入する。 特に,大腸全体を断片的に再構築するために,我々のColonNeRFは領域分割と統合モジュールを導入し,形状の相違を効果的に低減し,各セグメントの幾何的整合性を確保する。 統一されたフレームワークで単純な幾何学と複雑な幾何学の両方を学ぶために、我々のColonNeRFは、コロニー領域をより容易から困難にモデル化する多層融合モジュールを組み込んでいる。 さらに、スパースビューからの課題を克服するために、セマンティック一貫性のガイダンスの下で、カメラのポーズをデシファイトするためのDensiNetモジュールを考案した。 人工と実世界の両方のデータセットについて広範な実験を行い、ColonNeRFを評価した。 定量的には、ColonNeRFはLPIPS-ALEXスコアが67%-85%上昇している。 定性的には、再構築の可視化は、より明瞭なテクスチャとより正確な幾何学的詳細を示す。 これらは最先端の手法よりも優れた性能を示すのに十分である。

Colonoscopy reconstruction is pivotal for diagnosing colorectal cancer. However, accurate long-sequence colonoscopy reconstruction faces three major challenges: (1) dissimilarity among segments of the colon due to its meandering and convoluted shape; (2) co-existence of simple and intricately folded geometry structures; (3) sparse viewpoints due to constrained camera trajectories. To tackle these challenges, we introduce a new reconstruction framework based on neural radiance field (NeRF), named ColonNeRF, which leverages neural rendering for novel view synthesis of long-sequence colonoscopy. Specifically, to reconstruct the entire colon in a piecewise manner, our ColonNeRF introduces a region division and integration module, effectively reducing shape dissimilarity and ensuring geometric consistency in each segment. To learn both the simple and complex geometry in a unified framework, our ColonNeRF incorporates a multi-level fusion module that progressively models the colon regions from easy to hard. Additionally, to overcome the challenges from sparse views, we devise a DensiNet module for densifying camera poses under the guidance of semantic consistency. We conduct extensive experiments on both synthetic and real-world datasets to evaluate our ColonNeRF. Quantitatively, ColonNeRF exhibits a 67%-85% increase in LPIPS-ALEX scores. Qualitatively, our reconstruction visualizations show much clearer textures and more accurate geometric details. These sufficiently demonstrate our superior performance over the state-of-the-art methods.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# GIVT: 生成無限語彙変換器

GIVT: Generative Infinite-Vocabulary Transformers ( http://arxiv.org/abs/2312.02116v3 )

ライセンス: Link先を確認
Michael Tschannen, Cian Eastwood, Fabian Mentzer, (参考訳) 有限語彙からの離散トークンの代わりに、実数値エントリを持つベクトル列を生成する生成無限語彙変換器(GIVT)を導入する。 この目的のために、デコーダのみの変換器に対する驚くほど単純な2つの修正を提案する。 1)入力において、有限語彙ルックアップテーブルを入力ベクトルの線形射影に置き換える。 2) 出力において,多変量ガウス混合モデルのパラメータにロジット予測(通常はカテゴリー分布にマッピングされる)を置き換える。 VQ-GANとMaskGITの画像生成パラダイムに着想を得て、変換器を用いてVQ-VAEの離散潜在列をモデル化し、GIVTを用いて、$\beta$-VAEの非定量実数値潜在列をモデル化する。 クラス条件画像生成におけるGIVTは、VQ-GAN(およびその改良版)とMaskGITとを上回り、近年の潜伏拡散モデルと競合する性能を実現する。 最後に、UViMフレームワークのVAE変種を用いて、GIVTを単眼セグメンテーションと深度推定に適用する際、画像生成以外の強力な結果を得る。

We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a $\beta$-VAE. In class-conditional image generation GIVT outperforms VQ-GAN (and improved variants thereof) as well as MaskGIT, and achieves performance competitive with recent latent diffusion models. Finally, we obtain strong results outside of image generation when applying GIVT to panoptic segmentation and depth estimation with a VAE variant of the UViM framework
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# Masked Pre-TrainingとCollaborative Self-Trainingによる教師なしビデオドメイン適応

Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training ( http://arxiv.org/abs/2312.02914v3 )

ライセンス: Link先を確認
Arun Reddy, William Paul, Corban Rivera, Ketul Shah, Celso M. de Melo, Rama Chellappa, (参考訳) 本研究では,ビデオ行動認識における教師なし領域適応(UDA)の問題に取り組む。 我々のアプローチはUNITEと呼ばれ、画像教師モデルを用いてビデオ学生モデルを対象領域に適応させる。 UNITEは、教師が指導するマスク付き蒸留目標を用いて、まず自己指導型事前学習を用いて、ターゲットドメインビデオにおける差別的特徴学習を促進する。 次に,ビデオ学生モデルとイメージ教師モデルを用いて,マスク付き対象データを用いた自己学習を行い,未ラベル対象ビデオのための改良された擬似ラベルを生成する。 我々の自己学習プロセスは、ドメイン間の強い転送性能を達成するために、両方のモデルの強みをうまく活用する。 我々は、複数のビデオ領域適応ベンチマークに対するアプローチを評価し、これまでに報告された結果に対する大幅な改善を観察する。

In this work, we tackle the problem of unsupervised domain adaptation (UDA) for video action recognition. Our approach, which we call UNITE, uses an image teacher model to adapt a video student model to the target domain. UNITE first employs self-supervised pre-training to promote discriminative feature learning on target domain videos using a teacher-guided masked distillation objective. We then perform self-training on masked target data, using the video student model and image teacher model together to generate improved pseudolabels for unlabeled target videos. Our self-training process successfully leverages the strengths of both models to achieve strong transfer performance across domains. We evaluate our approach on multiple video domain adaptation benchmarks and observe significant improvements upon previously reported results.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# 埋め込みに基づくエンティティアライメントの理解と修復のための説明の生成

Generating Explanations to Understand and Repair Embedding-based Entity Alignment ( http://arxiv.org/abs/2312.04877v3 )

ライセンス: Link先を確認
Xiaobin Tian, Zequn Sun, Wei Hu, (参考訳) エンティティアライメント(EA)は、データベース研究における長年の課題である異なる知識グラフで同一のエンティティを求める。 最近の研究は、ディープラーニングを利用してベクトル空間にエンティティを埋め込み、近隣の探索によってそれらを整列させる。 近年、組み込みベースのEAは大きな成功を収めていますが、アライメントの決定に関する説明は欠如しています。 本稿では,埋め込み型EA結果の理解と修復を行うための,最初のフレームワークを提案する。 埋め込みモデルによって生成されたEAペアを前提として、まずその近傍のエンティティと関係を比較し、局所的な説明として一致する部分グラフを構築する。 次に、抽象的な視点からペアを理解するためにアライメント依存グラフを構築します。 最後に、依存グラフに基づく3種類のアライメント競合を解消し、ペアを修復する。 各種EAデータセットの実験は、埋め込みベースのEA結果の説明と修復において、我々のフレームワークの有効性、一般化、堅牢性を示している。

Entity alignment (EA) seeks identical entities in different knowledge graphs, which is a long-standing task in the database research. Recent work leverages deep learning to embed entities in vector space and align them via nearest neighbor search. Although embedding-based EA has gained marked success in recent years, it lacks explanations for alignment decisions. In this paper, we present the first framework that can generate explanations for understanding and repairing embedding-based EA results. Given an EA pair produced by an embedding model, we first compare its neighbor entities and relations to build a matching subgraph as a local explanation. We then construct an alignment dependency graph to understand the pair from an abstract perspective. Finally, we repair the pair by resolving three types of alignment conflicts based on dependency graphs. Experiments on a variety of EA datasets demonstrate the effectiveness, generalization, and robustness of our framework in explaining and repairing embedding-based EA results.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# R2Human:1枚の画像からリアルタイムの3D画像表示

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image ( http://arxiv.org/abs/2312.05826v2 )

ライセンス: Link先を確認
Yuanwang Yang, Qiao Feng, Yu-Kun Lai, Kun Li, (参考訳) ホログラフィックコミュニケーションと没入型VR/ARを実現するためには,異なる視点で3D人間の外観をレンダリングすることが不可欠である。 既存の方法は、マルチカメラのセットアップに依存するか、または単一の画像から低画質のレンダリング画像を持つ。 本稿では,R2Humanを提案する。R2Humanは,1枚の画像からリアルな3次元人間の外見をリアルタイムに推論し,レンダリングする手法である。 我々のアプローチの中核は、暗黙のテクスチャフィールドと明示的なニューラルレンダリングの強みと、新しい表現であるZマップを組み合わせることである。 そこで本研究では,可視領域の高忠実度な色再現を行うエンド・ツー・エンド・ネットワークを提案する。 ネットワークの3次元知覚能力を更に高めるために,テクスチャフィールドを生成し,レンダリング段階でサンプリング面を提供するために,フーリエ占有場を先行として活用する。 また,多視点コヒーレンスを保証するために,一貫性損失と時空間融合戦略を提案する。 実験結果から,本手法は,合成データと実世界の課題の画像の両方において,リアルタイムに最先端の手法より優れていることがわかった。

Rendering 3D human appearance in different views is crucial for achieving holographic communication and immersive VR/AR. Existing methods either rely on multi-camera setups or have low-quality rendered images from a single image. In this paper, we propose R2Human, the first approach for real-time inference and rendering of photorealistic 3D human appearance from a single image. The core of our approach is to combine the strengths of implicit texture fields and explicit neural rendering with our novel representation, namely Z-map. Based on this, we present an end-to-end network that performs high-fidelity color reconstruction of visible areas and provides reliable color inference for occluded regions. To further enhance the 3D perception ability of our network, we leverage the Fourier occupancy field as a prior for generating the texture field and providing a sampling surface in the rendering stage. We also propose a consistency loss and a spatio-temporal fusion strategy to ensure the multi-view coherence. Experimental results show that our method outperforms the state-of-the-art methods on both synthetic data and challenging real-world images, in real time.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# 人-ロボットチームのための可変自律性を実現するための大規模言語モデルの検討

Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming ( http://arxiv.org/abs/2312.07214v3 )

ライセンス: Link先を確認
Younes Lakhnati, Max Pascher, Jens Gerken, (参考訳) 急速に進化するデジタルランドスケープでは、自律的なツールやロボットが一般的になっています。 本稿では,この開発の重要性を認識し,多言語モデル(LLM)であるジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を人間-ロボット協調環境に統合し,言語-ロボットコミュニケーションによる可変自律性を実現する。 本稿では,単体VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。 このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 OpenAIの関数呼び出しにより、構造化されていない自然言語入力と構造ロボット動作のギャップを埋める。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。 以上の結果から,ロボットとの会話の仕方や,ロボット共同作業者の実際の言語や認知能力について,ユーザが事前に期待していたことが示唆された。 それでも、より自然なコミュニケーションのフローと、人間のようなバック・アンド・フォースによって、どのような恩恵を受けることができるかを探求したユーザーもいる。 同様のシステムの今後の研究および技術的実装について学んだ教訓の集合を提供する。

In a rapidly evolving digital landscape autonomous tools and robots are becoming commonplace. Recognizing the significance of this development, this paper explores the integration of Large Language Models (LLMs) like Generative pre-trained transformer (GPT) into human-robot teaming environments to facilitate variable autonomy through the means of verbal human-robot communication. In this paper, we introduce a novel framework for such a GPT-powered multi-robot testbed environment, based on a Unity Virtual Reality (VR) setting. This system allows users to interact with robot agents through natural language, each powered by individual GPT cores. By means of OpenAI's function calling, we bridge the gap between unstructured natural language input and structure robot actions. A user study with 12 participants explores the effectiveness of GPT-4 and, more importantly, user strategies when being given the opportunity to converse in natural language within a multi-robot environment. Our findings suggest that users may have preconceived expectations on how to converse with robots and seldom try to explore the actual language and cognitive capabilities of their robot collaborators. Still, those users who did explore where able to benefit from a much more natural flow of communication and human-like back-and-forth. We provide a set of lessons learned for future research and technical implementations of similar systems.
翻訳日:2024-03-22 19:37:15 公開日:2024-03-21
# MinD-3D:人間の脳における高品質な3Dオブジェクトの再構築

MinD-3D: Reconstruct High-quality 3D objects in Human Brain ( http://arxiv.org/abs/2312.07485v2 )

ライセンス: Link先を確認
Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu, (参考訳) 本稿では,fMRI(Function Magnetic Resonance Imaging)信号から3次元視覚を再構築するための革新的な課題であるRecon3DMindを紹介する。 この先駆的なタスクを支援するために、14人の参加者からのデータを含むfMRI-Shapeデータセットを提示し、3Dオブジェクトの360度映像を特徴とし、様々な設定で総合的なfMRI信号のキャプチャを可能にし、将来の研究の基礎を築いた。 さらに,脳の3次元視覚情報をfMRI信号から復号化するための新しい3段階フレームワークMinD-3Dを提案する。 このフレームワークは、fMRIフレームからニューロフュージョンエンコーダを介して特徴を抽出して集約し、続いて特徴橋拡散モデルを用いて視覚的特徴を生成し、最終的に生成トランスフォーマーデコーダを介して3Dオブジェクトを復元する。 意味的および構造的指標を用いたMinD-3Dの性能評価を行い,fMRI信号における特徴量と関心領域(ROI)の関係を解析した。 以上の結果から,MinD-3Dは意味的関連性と空間的類似性が高い3Dオブジェクトを再構成するだけでなく,人間の脳の3D視覚情報処理能力の理解を著しく向上させることが示唆された。 プロジェクトページ: https://jianxgao.github.io/MinD-3D。

In this paper, we introduce Recon3DMind, an innovative task aimed at reconstructing 3D visuals from Functional Magnetic Resonance Imaging (fMRI) signals, marking a significant advancement in the fields of cognitive neuroscience and computer vision. To support this pioneering task, we present the fMRI-Shape dataset, which includes data from 14 participants and features 360-degree videos of 3D objects to enable comprehensive fMRI signal capture across various settings, thereby laying a foundation for future research. Furthermore, we propose MinD-3D, a novel and effective three-stage framework specifically designed to decode the brain's 3D visual information from fMRI signals, demonstrating the feasibility of this challenging task. The framework begins by extracting and aggregating features from fMRI frames through a neuro-fusion encoder, subsequently employs a feature bridge diffusion model to generate visual features, and ultimately recovers the 3D object via a generative transformer decoder. We assess the performance of MinD-3D using a suite of semantic and structural metrics and analyze the correlation between the features extracted by our model and the visual regions of interest (ROIs) in fMRI signals. Our findings indicate that MinD-3D not only reconstructs 3D objects with high semantic relevance and spatial similarity but also significantly enhances our understanding of the human brain's capabilities in processing 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 対象以外の部分の発見:表現のセグメンテーションを考慮に入れたFiner-Granularity

Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation ( http://arxiv.org/abs/2312.08007v2 )

ライセンス: Link先を確認
Wenxuan Wang, Tongtian Yue, Yisi Zhang, Longteng Guo, Xingjian He, Xinlong Wang, Jing Liu, (参考訳) Referring Expression segmentation (RES)は、記述的な自然言語表現にマッチするエンティティの前景マスクのセグメンテーションを目的としている。 従来のRESタスクのデータセットとメソッドは、1つの式がオブジェクトレベルのターゲットを参照しなければならないという前提に大きく依存しています。 本稿では、よりきめ細かい部分レベルRESタスクをさらに進める。 より粒度の細かい視覚言語理解に向けて,オブジェクトレベルのRESタスクを促進するため,MRESタスクを新たに提案し,手動アノテーションによるRefCOCOmと呼ばれる評価ベンチマークを構築した。 自動モデル支援データエンジンを用いることで、提供された1M画像の32.2M以上の高品質マスクとキャプションを含む、最大の視覚的グラウンドデータセットであるMRES-32Mを構築した。 さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。 MRESのためのRefCOCOmと古典的なRESタスクのための3つのデータセット(RefCOCO(+/g))に関する大規模な実験は、従来の最先端手法よりも、我々の手法の優位性を実証している。 私たちのベンチマークであるRefCOCOm、MRES-32Mデータセット、モデルUniRESは、将来の詳細なビジュアルグラウンドの研究を促進するためにhttps://github.com/Rubics-Xuan/MRESで公開されます。

Referring expression segmentation (RES) aims at segmenting the foreground masks of the entities that match the descriptive natural language expression. Previous datasets and methods for classic RES task heavily rely on the prior assumption that one expression must refer to object-level targets. In this paper, we take a step further to finer-grained part-level RES task. To promote the object-level RES task towards finer-grained vision-language understanding, we put forward a new multi-granularity referring expression segmentation (MRES) task and construct an evaluation benchmark called RefCOCOm by manual annotations. By employing our automatic model-assisted data engine, we build the largest visual grounding dataset namely MRES-32M, which comprises over 32.2M high-quality masks and captions on the provided 1M images. Besides, a simple yet strong model named UniRES is designed to accomplish the unified object-level and part-level grounding task. Extensive experiments on our RefCOCOm for MRES and three datasets (i.e., RefCOCO(+/g) for classic RES task demonstrate the superiority of our method over previous state-of-the-art methods. To foster future research into fine-grained visual grounding, our benchmark RefCOCOm, the MRES-32M dataset and model UniRES will be publicly available at https://github.com/Rubics-Xuan/MRES
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 重み付きアンサンブルモデルは強力な継続的な学習者である

Weighted Ensemble Models Are Strong Continual Learners ( http://arxiv.org/abs/2312.08977v2 )

ライセンス: Link先を確認
Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, Stéphane Lathuilière, (参考訳) 本研究では,タスクのシーケンス上でモデルを学習することを目的とした連続学習(CL)の問題について検討する。 CLは基本的に、新しいタスク(可塑性)で学習できることと、以前に学んだ概念(安定性)のパフォーマンスを維持することのバランスをとる行為である。 安定性と塑性のトレードオフに対処するため,従来の課題と現在の課題のモデルパラメータを重み付けする手法を提案する。 連続モデル平均化(Continual Model Averaging, CoMA)と呼ばれるこの重み付きアンサンブルモデルでは, 可塑性を利用して, 従来の重み設定から過度に逸脱せず, 安定性を確保しながら, 現在の作業において高い精度を達成している。 また、モデル重みのフィッシャー情報を活用することにより、重みアンサンブル内の各パラメータを選択的に重み付けする改良型CoMA(Continuous Fisher-weighted Model Averaging, CoFiMA)を提案する。 どちらの変種も概念的には単純で実装が容易で、いくつかの標準CLベンチマークで最先端のパフォーマンスを達成するのに効果的である。 コードは、https://github.com/IemProg/CoFiMA.comで入手できる。

In this work, we study the problem of continual learning (CL) where the goal is to learn a model on a sequence of tasks, such that the data from the previous tasks becomes unavailable while learning on the current task data. CL is essentially a balancing act between being able to learn on the new task (i.e., plasticity) and maintaining the performance on the previously learned concepts (i.e., stability). Intending to address the stability-plasticity trade-off, we propose to perform weight-ensembling of the model parameters of the previous and current tasks. This weighted-ensembled model, which we call Continual Model Averaging (or CoMA), attains high accuracy on the current task by leveraging plasticity, while not deviating too far from the previous weight configuration, ensuring stability. We also propose an improved variant of CoMA, named Continual Fisher-weighted Model Averaging (or CoFiMA), that selectively weighs each parameter in the weights ensemble by leveraging the Fisher information of the weights of the model. Both variants are conceptually simple, easy to implement, and effective in attaining state-of-the-art performance on several standard CL benchmarks. Code is available at: https://github.com/IemProg/CoFiMA.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 時間-ワープ-アットエンド:力学系のトポロジ的不変性を学ぶ

Let's do the time-warp-attend: Learning topological invariants of dynamical systems ( http://arxiv.org/abs/2312.09234v3 )

ライセンス: Link先を確認
Noa Moriel, Matthew Ricci, Mor Nitzan, (参考訳) 電気回路から生態ネットワークまで、科学全体にわたる力学系は、基礎となるパラメータがしきい値を越えると、定性的かつしばしば破滅的な行動変化が起こる。 既存の方法は、個々のシステムで起こる災害を予測するが、主に時系列に基づいており、様々なシステムにまたがる定性的な動的体制を分類し、実際のデータに一般化するのに苦慮している。 この課題に対処するため,データ駆動型物理インフォームド深層学習フレームワークを提案し,トポロジ的不変な特徴の抽出に基づいて動的状態の分類と分岐境界のキャラクタリゼーションを行う。 超臨界ホップ分岐のパラダイム的ケースに焦点をあて、幅広い応用の周期的ダイナミクスをモデル化するために使用される。 コンボリューショナルアテンション法は, 観測不能なシステムにおける分岐境界の検出や, 振動性遺伝子制御ネットワークなどの生物学的システムのモデルの設計に使用できるトポロジ的不変量の学習を促進するデータ強化を用いて訓練される。 単細胞データに基づく遺伝子発現空間における膵内分泌細胞発生経路に沿った増殖と分化の動態を再現し,実データ解析における本手法の有用性を実証する。 本手法は, 広範囲な力学系の定性的・長期的挙動に関する貴重な知見を提供し, 大規模物理・生物系における分岐や破滅的な遷移を検出することができる。

Dynamical systems across the sciences, from electrical circuits to ecological networks, undergo qualitative and often catastrophic changes in behavior, called bifurcations, when their underlying parameters cross a threshold. Existing methods predict oncoming catastrophes in individual systems but are primarily time-series-based and struggle both to categorize qualitative dynamical regimes across diverse systems and to generalize to real data. To address this challenge, we propose a data-driven, physically-informed deep-learning framework for classifying dynamical regimes and characterizing bifurcation boundaries based on the extraction of topologically invariant features. We focus on the paradigmatic case of the supercritical Hopf bifurcation, which is used to model periodic dynamics across a wide range of applications. Our convolutional attention method is trained with data augmentations that encourage the learning of topological invariants which can be used to detect bifurcation boundaries in unseen systems and to design models of biological systems like oscillatory gene regulatory networks. We further demonstrate our method's use in analyzing real data by recovering distinct proliferation and differentiation dynamics along pancreatic endocrinogenesis trajectory in gene expression space based on single-cell data. Our method provides valuable insights into the qualitative, long-term behavior of a wide range of dynamical systems, and can detect bifurcations or catastrophic transitions in large-scale physical and biological systems.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# Ins-HOI: ヒューマンオブジェクトインタラクションのリカバリを意識したインスタンス

Ins-HOI: Instance Aware Human-Object Interactions Recovery ( http://arxiv.org/abs/2312.09641v2 )

ライセンス: Link先を確認
Jiajun Zhang, Yuxiang Zhang, Hongwen Zhang, Xiao Zhou, Boyao Zhou, Ruizhi Shao, Zonghai Hu, Yebin Liu, (参考訳) 人間の手と物体の詳細な相互作用を正確にモデル化することは、魅力的だが難しい課題だ。 現在のマルチビューキャプチャシステムは、複数の被写体を単一の統一メッシュに再構築するだけで、インタラクション中に各インスタンスの状態を個別にモデル化できない。 これを解決するために、以前のメソッドはテンプレートベースの表現を使用して人や手やオブジェクトを追跡する。 しかし、復元の質はテンプレートの記述能力によって制限されるため、これらの手法は本質的に幾何学的詳細や押圧変形、目に見えない接触面に苦しむ。 本研究では、インスタンスレベルの占有範囲表現を導入し、エンドツーエンドのインスタンス対応ヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。 しかし、実際のキャプチャされたデータは、総合的なメッシュとして表現され、インスタンスレベルの監視を提供することができない。 これを解決するために, 合成データを利用した補完的学習手法を提案し, 異なるインスタンスに対する占有フィールドの絡み合いを解消する。 具体的には、人や手や物体の個々のスキャンをランダムに組み合わせて作成した合成データによって、ネットワークがインスタンスの前に粗いものを学習するように誘導する。 一方、実際のキャプチャーされたデータは、全体の幾何学を学習し、接触領域における相互接続を制限するのに役立つ。 実験で示されたように,本手法はインスタンスレベルの再構築をサポートし,極めて密接な相互作用であっても,合理的かつ現実的な接触面を提供する。 この課題の解明を容易にするため,実世界におけるヒューマンチェアとハンドオブジェクトのインタラクションによる5.2kの高品質スキャンを含む,大規模で高忠実な3Dスキャンデータセットを収集した。 コードとデータは研究目的で公開されます。

Accurately modeling detailed interactions between human/hand and object is an appealing yet challenging task. Current multi-view capture systems are only capable of reconstructing multiple subjects into a single, unified mesh, which fails to model the states of each instance individually during interactions. To address this, previous methods use template-based representations to track human/hand and object. However, the quality of the reconstructions is limited by the descriptive capabilities of the templates so that these methods are inherently struggle with geometry details, pressing deformations and invisible contact surfaces. In this work, we propose an end-to-end Instance-aware Human-Object Interactions recovery (Ins-HOI) framework by introducing an instance-level occupancy field representation. However, the real-captured data is presented as a holistic mesh, unable to provide instance-level supervision. To address this, we further propose a complementary training strategy that leverages synthetic data to introduce instance-level shape priors, enabling the disentanglement of occupancy fields for different instances. Specifically, synthetic data, created by randomly combining individual scans of humans/hands and objects, guides the network to learn a coarse prior of instances. Meanwhile, real-captured data helps in learning the overall geometry and restricting interpenetration in contact areas. As demonstrated in experiments, our method Ins-HOI supports instance-level reconstruction and provides reasonable and realistic invisible contact surfaces even in cases of extremely close interaction. To facilitate the research of this task, we collect a large-scale, high-fidelity 3D scan dataset, including 5.2k high-quality scans with real-world human-chair and hand-object interactions. The code and data will be public for research purposes.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# ギャップを閉じる - クエリベースの攻撃に対する精度とロバスト性のトレードオフの実現

Closing the Gap: Achieving Better Accuracy-Robustness Tradeoffs against Query-Based Attacks ( http://arxiv.org/abs/2312.10132v2 )

ライセンス: Link先を確認
Pascal Zimmer, Sébastien Andreina, Giorgia Azzurra Marson, Ghassan Karame, (参考訳) 有望ではあるが、クエリベースの攻撃に対する既存の防御は共通の制限を共有している。 本研究では、クエリベースの攻撃を緩和する際のロバスト性と精度の確固たるトレードオフを、テスト時に効率的に確立する方法を示す。 これらの攻撃が必ずしも低信頼領域を探索することを考えると、ランダムノイズ防御やランダム画像変換のような専用防御を活性化することは、低信頼入力のみに十分である。 我々のアプローチは訓練とは無関係であり、理論に支えられている。 我々は, CIFAR-10, CIFAR-100, ImageNet に対する広範囲な実験を行うことにより, 既存防衛に対するアプローチの有効性を検証する。 提案手法は, 最先端の手法に比べ, 堅牢性と精度のトレードオフを良好に実現し, 完全トレーニングなしでも有効であることを確認した。

Although promising, existing defenses against query-based attacks share a common limitation: they offer increased robustness against attacks at the price of a considerable accuracy drop on clean samples. In this work, we show how to efficiently establish, at test-time, a solid tradeoff between robustness and accuracy when mitigating query-based attacks. Given that these attacks necessarily explore low-confidence regions, our insight is that activating dedicated defenses, such as random noise defense and random image transformations, only for low-confidence inputs is sufficient to prevent them. Our approach is independent of training and supported by theory. We verify the effectiveness of our approach for various existing defenses by conducting extensive experiments on CIFAR-10, CIFAR-100, and ImageNet. Our results confirm that our proposal can indeed enhance these defenses by providing better tradeoffs between robustness and accuracy when compared to state-of-the-art approaches while being completely training-free.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# T-MAE:ポイントクラウド表現学習のためのテンポラルマスク付きオートエンコーダ

T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning ( http://arxiv.org/abs/2312.10217v2 )

ライセンス: Link先を確認
Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald, (参考訳) LiDARポイントクラウド理解における注釈付きデータの不足は、効果的な表現学習を妨げる。 その結果、学者は自己指導型事前学習パラダイムを積極的に研究している。 それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。 この特性をより有効に活用するために、時間的隣接フレームを入力とし、時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。 2フレーム入力には、シームズエンコーダとウィンドウ付きクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。 Ego-vehicleの移動が同じインスタンスのビューを変えることを考えると、時間モデリングは頑健で自然なデータ拡張としても機能し、対象オブジェクトの理解を高めます。 SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。 我々のT-MAE事前学習戦略は、注釈付きデータに対する需要を軽減する。 総合的な実験により、T-MAEは、競争力のあるセルフ教師付きアプローチの中で、WaymoとONCEの両方のデータセット上で最高のパフォーマンスを達成することが示された。

The scarcity of annotated data in LiDAR point cloud understanding hinders effective representation learning. Consequently, scholars have been actively investigating efficacious self-supervised pre-training paradigms. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked Auto-Encoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a windowed cross-attention (WCA) module, is established for the two-frame input. Considering that the movement of an ego-vehicle alters the view of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. SiamWCA is a powerful architecture but heavily relies on annotated data. Our T-MAE pre-training strategy alleviates its demand for annotated data. Comprehensive experiments demonstrate that T-MAE achieves the best performance on both Waymo and ONCE datasets among competitive self-supervised approaches.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 室内単視点材料推定のための内在的画像拡散

Intrinsic Image Diffusion for Indoor Single-view Material Estimation ( http://arxiv.org/abs/2312.12274v2 )

ライセンス: Link先を確認
Peter Kocsis, Vincent Sitzmann, Matthias Nießner, (参考訳) 室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。 1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。 外観分解は、照明と材料特性のあいまいさと実際のデータセットの欠如により、コンピュータビジョンにおいて大きな課題となる。 この問題に対処するために、確率的定式化(probabilistic formulation)を提唱し、真の物質特性を直接予測するのではなく、条件付き生成モデルを用いて解空間からサンプルを抽出する。 さらに,大規模な実世界の画像に訓練された最近の拡散モデルに対して,学習前の強みを活用することで,物質推定に適応し,実画像への一般化を高度に向上させることができることを示す。 提案手法は,PSNRで1.5dB$,アルベド予測で45\%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。 合成データセットと実世界のデータセットを併用した実験により,本手法の有効性を実証する。

We present Intrinsic Image Diffusion, a generative model for appearance decomposition of indoor scenes. Given a single input view, we sample multiple possible material explanations represented as albedo, roughness, and metallic maps. Appearance decomposition poses a considerable challenge in computer vision due to the inherent ambiguity between lighting and material properties and the lack of real datasets. To address this issue, we advocate for a probabilistic formulation, where instead of attempting to directly predict the true material properties, we employ a conditional generative model to sample from the solution space. Furthermore, we show that utilizing the strong learned prior of recent diffusion models trained on large-scale real-world images can be adapted to material estimation and highly improves the generalization to real images. Our method produces significantly sharper, more consistent, and more detailed materials, outperforming state-of-the-art methods by $1.5dB$ on PSNR and by $45\%$ better FID score on albedo prediction. We demonstrate the effectiveness of our approach through experiments on both synthetic and real-world datasets.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 不確実性に基づく能動学習アルゴリズムと損失の収束について

On the convergence of loss and uncertainty-based active learning algorithms ( http://arxiv.org/abs/2312.13927v2 )

ライセンス: Link先を確認
Daniel Haimovich, Dima Karamshuk, Fridolin Linder, Niek Tax, Milan Vojnovic, (参考訳) 様々な仮定の下で,損失の収束率と不確実性に基づく能動学習アルゴリズムを考察する。 まず,線形分類器や線形分離可能なデータセットに適用した場合の収束率を保証する一連の条件を確立する。 これには、様々な損失関数を持つ損失ベースサンプリングに対する収束率保証を示すことが含まれる。 次に、確率勾配勾配アルゴリズムにおいて、既知の収束率境界を利用して、損失に基づくサンプリングのための収束率境界を導出するフレームワークを提案する。 最後に,点サンプリングと確率的Polyakのステップサイズを組み合わせた新しいアルゴリズムを提案する。 我々はサンプリングプロセスの条件を確立し、特に滑らかな凸損失関数の場合において、このアルゴリズムの収束率を保証する。 本稿では,提案アルゴリズムの効率性を示す数値計算を行った。

We consider the convergence rates of loss and uncertainty-based active learning algorithms under various assumptions. Firstly, we establish a set of conditions that ensure convergence rates when applied to linear classifiers and linearly separable datasets. This includes demonstrating convergence rate guarantees for loss-based sampling with various loss functions. Secondly, we introduce a framework that allows us to derive convergence rate bounds for loss-based sampling by leveraging known convergence rate bounds for stochastic gradient descent algorithms. Lastly, we propose a new algorithm that combines point sampling and stochastic Polyak's step size. We establish a condition on the sampling process, ensuring a convergence rate guarantee for this algorithm, particularly in the case of smooth convex loss functions. Our numerical results showcase the efficiency of the proposed algorithm.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 行列点過程と一般化体積サンプリングによる重み付き最小二乗近似

Weighted least-squares approximation with determinantal point processes and generalized volume sampling ( http://arxiv.org/abs/2312.14057v3 )

ライセンス: Link先を確認
Anthony Nouy, Bertrand Michel, (参考訳) 与えられた$m$-次元空間 $V_m$, ある特徴写像 $\varphi$, 関数のランダム点 $x_1,\dots,x_n$ における評価を用いて, 関数を$L^2$ から所与の$m$次元空間 $V_m$ の要素で近似する問題を考える。 独立分布点と同一分布点を用いた最適重み付き最小二乗に関するいくつかの結果をリコールした後、投射決定点過程(DPP)または体積サンプリングを用いて重み付き最小二乗を考える。 これらの分布は、選択された特徴の多様性を促進する点間の依存を導入し、$\varphi(x_i)$である。 まず, サンプル数$n = O(m\log(m))$, つまり, 期待値$L^2$の誤差は, $L^2$の最良の近似誤差の一定倍に制限される。 さらに、函数があるノルムベクトル空間$H$が$L^2$に連続的に埋め込まれていることを仮定すると、近似が$H$-ノルムで測定された最高の近似誤差によってほぼ確実に有界であることが証明される。 これは、$L^\infty$ あるいは再生カーネルヒルベルト空間からの函数のケースを含む。 最後に、プロジェクションDPP(またはボリュームサンプリング)の独立した繰り返しを用いて、すなわちボリュームサンプリングと同様の誤差境界を出力する代替戦略を提案するが、実際にはサンプル数ははるかに少ない。 数値実験は、異なる戦略のパフォーマンスを例証する。

We consider the problem of approximating a function from $L^2$ by an element of a given $m$-dimensional space $V_m$, associated with some feature map $\varphi$, using evaluations of the function at random points $x_1,\dots,x_n$. After recalling some results on optimal weighted least-squares using independent and identically distributed points, we consider weighted least-squares using projection determinantal point processes (DPP) or volume sampling. These distributions introduce dependence between the points that promotes diversity in the selected features $\varphi(x_i)$. We first provide a generalized version of volume-rescaled sampling yielding quasi-optimality results in expectation with a number of samples $n = O(m\log(m))$, that means that the expected $L^2$ error is bounded by a constant times the best approximation error in $L^2$. Also, further assuming that the function is in some normed vector space $H$ continuously embedded in $L^2$, we further prove that the approximation is almost surely bounded by the best approximation error measured in the $H$-norm. This includes the cases of functions from $L^\infty$ or reproducing kernel Hilbert spaces. Finally, we present an alternative strategy consisting in using independent repetitions of projection DPP (or volume sampling), yielding similar error bounds as with i.i.d. or volume sampling, but in practice with a much lower number of samples. Numerical experiments illustrate the performance of the different strategies.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# フレキシブル・スケーラブル・適応型多モード顔合成に向けて

Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis ( http://arxiv.org/abs/2312.16274v2 )

ライセンス: Link先を確認
Jingjing Ren, Cheng Xu, Haoyu Chen, Xinran Qin, Lei Zhu, (参考訳) マルチモーダル顔合成の最近の進歩により、視覚的に印象的かつ正確に整列された顔画像の作成が可能となった。 しかし、現在の手法は、拡張性、柔軟性の制限、そして、条件エントロピーの異なるレベルを考慮せず、特定の条件が与えられたデータにおける予測不可能さを考慮せずに、制御強度を一律に調整するアプローチという問題に直面している。 これらの課題に対処するため,一様サロゲートを用いた新しい一様トレーニング手法とエントロピー対応型モーダル適応変調を導入し,柔軟でスケーラブルでスケーラブルなマルチモーダル条件付き顔合成ネットワークを実現する。 一様データのみを利用した一様サロゲートを用いた一様トレーニングでは,モーダル・サロゲートを用いて条件をデコレートし,モーダル間協調のリンカーとして機能し,顔合成プロセスにおける各モダリティ制御とモーダル間協調の完全学習を行う。 エントロピー対応モード適応変調は、モード固有特性および与えられた条件に応じて拡散ノイズを微調整し、デノイング軌道に沿った良好なインフォームドステップを可能にし、最終的に高忠実度と品質の合成結果をもたらす。 本フレームワークは様々な条件下でのマルチモーダル顔合成を改良し,画像の画質と忠実さの現在の手法を克服する。

Recent progress in multi-modal conditioned face synthesis has enabled the creation of visually striking and accurately aligned facial images. Yet, current methods still face issues with scalability, limited flexibility, and a one-size-fits-all approach to control strength, not accounting for the differing levels of conditional entropy, a measure of unpredictability in data given some condition, across modalities. To address these challenges, we introduce a novel uni-modal training approach with modal surrogates, coupled with an entropy-aware modal-adaptive modulation, to support flexible, scalable, and scalable multi-modal conditioned face synthesis network. Our uni-modal training with modal surrogate that only leverage uni-modal data, use modal surrogate to decorate condition with modal-specific characteristic and serve as linker for inter-modal collaboration , fully learns each modality control in face synthesis process as well as inter-modal collaboration. The entropy-aware modal-adaptive modulation finely adjust diffusion noise according to modal-specific characteristics and given conditions, enabling well-informed step along denoising trajectory and ultimately leading to synthesis results of high fidelity and quality. Our framework improves multi-modal face synthesis under various conditions, surpassing current methods in image quality and fidelity, as demonstrated by our thorough experimental results.
翻訳日:2024-03-22 19:27:29 公開日:2024-03-21
# 自己監督型視覚変換器の局所表現の解析

Analyzing Local Representations of Self-supervised Vision Transformers ( http://arxiv.org/abs/2401.00463v2 )

ライセンス: Link先を確認
Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Vahan Huroyan, Hrant Khachatrian, Martin Danelljan, (参考訳) 本稿では,各自監督型視覚変換器(ViT)の比較分析を行い,その局所的な代表力に着目した。 大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。 我々は,局所的,すなわちパッチレベルの,少数ショットセマンティックセグメンテーション,インスタンス識別,オブジェクトの検索,追跡といった文脈における表現の質を分析するための評価フレームワークを設計する。 DINOのような対照的な学習に基づく手法は、マスク付き画像モデリングと比較して、パラメータチューニングのない下流タスクに即座に適用可能な、より普遍的なパッチ表現を生成する。 マスク付きオートエンコーダのような後者の手法を用いて学習した埋め込みは、k-NNのような距離ベースのアルゴリズムを害する高分散特性を持ち、ほとんどの下流タスクに有用な情報を含んでいない。 さらに,これらの高分散特徴を除去することで,MAE の k-NN が向上し,最近拡張された Scale-MAE も向上することを示す。 最後に,2桁以上のデータに基づいて事前訓練されたモデルであるDINOv2が,計算量が少ないDINOに劣るオブジェクトインスタンス検索設定を見つける。

In this paper, we present a comparative analysis of various self-supervised Vision Transformers (ViTs), focusing on their local representative power. Inspired by large language models, we examine the abilities of ViTs to perform various computer vision tasks with little to no fine-tuning. We design evaluation framework to analyze the quality of local, i.e.\ patch-level, representations in the context of few-shot semantic segmentation, instance identification, object retrieval and tracking. We discover that contrastive learning based methods like DINO produce more universal patch representations that can be immediately applied for downstream tasks with no parameter tuning, compared to masked image modeling. The embeddings learned using the latter approach, e.g. in masked autoencoders, have high variance features that harm distance-based algorithms, such as k-NN, and do not contain useful information for most downstream tasks. Furthermore, we demonstrate that removing these high-variance features enhances k-NN for MAE, as well as for its recent extension Scale-MAE. Finally, we find an object instance retrieval setting where DINOv2, a model pretrained on two orders of magnitude more data, falls short of its less compute intensive counterpart DINO.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# 一般化不確かさ原理によるクーロンポテンシャルの量子補正について

On Some Quantum Correction to the Coulomb Potential in Generalized Uncertainty Principle Approach ( http://arxiv.org/abs/2401.03463v2 )

ライセンス: Link先を確認
M. Baradaran, L. M. Nieto, S. Zarrinkamar, (参考訳) 量子力学と重力の統一理論の重要性とプランクスケールの順序の最小長の存在を考慮すると、量子情報の領域から大規模物理学への応用を見出す一般化不確実性原理から生じる修正シュリンガー方程式を、量子力学的に修正された重力相互作用を非常に最近提案した。 結果として得られる方程式は、一般的な正確なアプローチでは解けないため、Bethe ansatzアプローチを提案する。

Taking into account the importance of the unified theory of quantum mechanics and gravity, and the existence of a minimal length of the order of the Planck scale, we consider a modified Schr\"odinger equation resulting from a generalized uncertainty principle, which finds applications from the realm of quantum information to large-scale physics, with a quantum mechanically corrected gravitational interaction proposed very recently. As the resulting equation cannot be solved by common exact approaches, we propose a Bethe ansatz approach, which will be applied and whose results we will discuss, commenting on the analogy of the present study with some other interesting physical problems.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# FourCastNeXt: 限定計算のためのFourCastNetトレーニングの最適化

FourCastNeXt: Optimizing FourCastNet Training for Limited Compute ( http://arxiv.org/abs/2401.05584v2 )

ライセンス: Link先を確認
Edison Guo, Maruf Ahmed, Yue Sun, Rui Yang, Harrison Cook, Tennessee Leeuwenburg, Ben Evans, (参考訳) FourCastNeXtは、グローバルな機械学習天気予報モデルであるFourCastNetの最適化である。 本技術報告では、モデル変数のルート平均二乗誤差(RMSE)によって測定された同様の性能を維持するモデル最適化戦略について述べる。 比較トレーニングコストの非常に低いモデルを提供することで、FourCastNeXtは、トレーニング実験やアブレーション研究の実施を目指す研究者にとって、Neural Earth System Modellingをより使いやすくする。 FourCastNeXtのトレーニングと推論コードはhttps://github.com/nci/FourCastNeXtで公開されている。

FourCastNeXt is an optimization of FourCastNet - a global machine learning weather forecasting model - that performs with a comparable level of accuracy and can be trained using around 5% of the original FourCastNet computational requirements. This technical report presents strategies for model optimization that maintain similar performance as measured by the root-mean-square error (RMSE) of the modelled variables. By providing a model with very low comparative training costs, FourCastNeXt makes Neural Earth System Modelling much more accessible to researchers looking to conduct training experiments and ablation studies. FourCastNeXt training and inference code are available at https://github.com/nci/FourCastNeXt
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# アンサンブルモデルによるFew-Shotクラスインクリメンタルラーニングの強化

Enhanced Few-Shot Class-Incremental Learning via Ensemble Models ( http://arxiv.org/abs/2401.07208v2 )

ライセンス: Link先を確認
Mingli Zhu, Zihao Zhu, Sihong Chen, Chen Chen, Baoyuan Wu, (参考訳) FSCIL(Few-shot class-incremental Learning)は、学習済みのクラスのパフォーマンスを維持しつつ、限られたトレーニングデータで新しいクラスを継続的に適合させることを目的としている。 主な課題は、珍しい新しいトレーニングサンプルを過度に適合させ、古いクラスを忘れることである。 破滅的な忘れ物の研究が盛んに行われているが、過度に適合する問題はFSCILではあまり注目されていない。 オーバーフィッティングの課題に対処するため、一般化を促進するためにデータ拡張と連携した新しいアンサンブルモデルフレームワークを設計する。 このように拡張モデルは、下流タスクへの迅速な適応を保証するために、豊富な機能を格納するライブラリとして機能する。 具体的には、多入力多出力アンサンブル構造に空間認識データ拡張戦略を適用し、特徴抽出器の多様化と増分セッションにおける過度な適合の緩和を図る。 さらに、モデル一般化をさらに改善するために、自己教師付き学習も統合されている。 総合的な実験結果から,提案手法はFSCILのオーバーフィッティング問題を軽減し,最先端の手法よりも優れていることが示された。

Few-shot class-incremental learning (FSCIL) aims to continually fit new classes with limited training data, while maintaining the performance of previously learned classes. The main challenges are overfitting the rare new training samples and forgetting old classes. While catastrophic forgetting has been extensively studied, the overfitting problem has attracted less attention in FSCIL. To tackle overfitting challenge, we design a new ensemble model framework cooperated with data augmentation to boost generalization. In this way, the enhanced model works as a library storing abundant features to guarantee fast adaptation to downstream tasks. Specifically, the multi-input multi-output ensemble structure is applied with a spatial-aware data augmentation strategy, aiming at diversifying the feature extractor and alleviating overfitting in incremental sessions. Moreover, self-supervised learning is also integrated to further improve the model generalization. Comprehensive experimental results show that the proposed method can indeed mitigate the overfitting problem in FSCIL, and outperform the state-of-the-art methods.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# Bexcitonics: 開量子力学への準粒子的アプローチ

Bexcitonics: Quasi-particle approach to open quantum dynamics ( http://arxiv.org/abs/2401.11049v2 )

ライセンス: Link先を確認
Xinxian Chen, Ignacio Franco, (参考訳) 我々は,階層的運動方程式(HEOM)に基づいて,任意の複雑性のボソニック熱浴に結合したオープン量子系の力学を捉えるための準粒子アプローチを開発した。 これは、HEOMのダイナミクスを一般化し、ベキシトンと呼ばれるいくつかのボソニックな架空の準粒子と相互作用する系の粒子にマッピングすることで実現される。 ベキシトンは、浴槽相関関数を分解して個々の特徴へと分解する。 具体的には、ベクシトンの生成と消滅はHEOMの補助密度行列を結合させる。 このアプローチは、マルコフ的でない環境においても、全ての順序に対するシステムバス結合を含む正確な量子マスター方程式を構築するための体系的な戦略を提供する。 具体的には、ベクシトンに異なる測度と表現を導入することで、HEOMの異なる変種を直接生成することができ、これらの変種が共通の準粒子図を共有することを示した。 ベキシトニックな性質は非物理的であるが、相関系の基底力学とその数値収束の粗い粒度のビューを提供する。 例えば、お風呂がアンダーダムド発振器でできているときのHEOMの不安定性を分析し、それが非常に励起されたベキシトンの生成につながることを示す。 ベキシトニック・ピクチャーはHEOMを伝播するより効率的なアプローチを開発するためにも用いられる。 例えば、多重構成時間依存のHartree を用いたベキシトンのモード結合を導入し、HEOM のダイナミクスを効率的に伝播する。

We develop a quasiparticle approach to capture the dynamics of open quantum systems coupled to bosonic thermal baths of arbitrary complexity based on the Hierarchical Equations of Motion (HEOM). This is done by generalizing the HEOM dynamics and mapping it into that of the system in interaction with a few bosonic fictitious quasiparticles that we call bexcitons. Bexcitons arise from a decomposition of the bath correlation function into discrete features. Specifically, bexciton creation and annihilation couple the auxiliary density matrices in the HEOM. The approach provides a systematic strategy to construct exact quantum master equations that include the system-bath coupling to all orders even for non-Markovian environments. Specifically, by introducing different metrics and representations for the bexcitons it is possible to straightforwardly generate different variants of the HEOM, demonstrating that all these variants share a common underlying quasiparticle picture. Bexcitonic properties, while unphysical, offer a coarse-grained view of the correlated system-bath dynamics and its numerical convergence. For instance, we use it to analyze the instability of the HEOM when the bath is composed of underdamped oscillators and show that it leads to the creation of highly excited bexcitons. The bexcitonic picture can also be used to develop more efficient approaches to propagate the HEOM. As an example, we use the particle-like nature of the bexcitons to introduce mode-combination of bexcitons that uses the multi-configuration time-dependent Hartree to efficiently propagate the HEOM dynamics.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# 強化学習エージェントにおける創発的支配階層

Emergent Dominance Hierarchies in Reinforcement Learning Agents ( http://arxiv.org/abs/2401.12258v5 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky, (参考訳) 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。 マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。 社会慣習や規範は、しばしば人間の制度にインスパイアされ、このバランスを打つための道具として使用される。 本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行,支配階層について考察する。 我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。 明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを実証する。 支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# コントラスト学習による一貫性強化に基づく深層多視点クラスタリング

Consistency Enhancement-Based Deep Multiview Clustering via Contrastive Learning ( http://arxiv.org/abs/2401.12648v3 )

ライセンス: Link先を確認
Hao Yang, Hua Mao, Wai Lok Woo, Jie Chen, Xi Peng, (参考訳) マルチビュークラスタリング(MVC)は、複数のビューにまたがる情報を合成することによって、データサンプルを意味のあるクラスタに分離する。 さらに、ディープラーニングベースのメソッドは、MVCシナリオで強力な機能学習能力を実証しています。 しかし、一貫性を維持しながら機能表現を効果的に一般化することは、依然として難解な問題である。 さらに、対照的な学習に基づく既存のディープクラスタリング手法は、クラスタリングプロセス中にクラスタリング表現の一貫性を見落としている。 本稿では、上記の問題を克服し、コントラスト学習(CCEC)による一貫した拡張に基づく深層MVC法を提案する。 具体的には、複数のビュー間の一貫性のある情報を保持するために、セマンティック接続ブロックを特徴表現に組み込む。 さらに、スペクトルクラスタリングによりクラスタリングの表現プロセスが強化され、複数のビュー間の一貫性が向上する。 5つのデータセットで行った実験は、最先端(SOTA)手法と比較して、本手法の有効性と優位性を示した。 このメソッドのコードはhttps://anonymous.4open.science/r/CCEC-E84E/でアクセスできる。

Multiview clustering (MVC) segregates data samples into meaningful clusters by synthesizing information across multiple views. Moreover, deep learning-based methods have demonstrated their strong feature learning capabilities in MVC scenarios. However, effectively generalizing feature representations while maintaining consistency is still an intractable problem. In addition, most existing deep clustering methods based on contrastive learning overlook the consistency of the clustering representations during the clustering process. In this paper, we show how the above problems can be overcome and propose a consistent enhancement-based deep MVC method via contrastive learning (CCEC). Specifically, semantic connection blocks are incorporated into a feature representation to preserve the consistent information among multiple views. Furthermore, the representation process for clustering is enhanced through spectral clustering, and the consistency across multiple views is improved. Experiments conducted on five datasets demonstrate the effectiveness and superiority of our method in comparison with the state-of-the-art (SOTA) methods. The code for this method can be accessed at https://anonymous.4open.science/r/CCEC-E84E/.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# 限界を押し上げる:$O(P^2 + T^2)$の非循環音フリーコースワークフローネットにおける並行検出

Pushing the Limits: Concurrency Detection in Acyclic Sound Free-Choice Workflow Nets in $O(P^2 + T^2)$ ( http://arxiv.org/abs/2401.16097v2 )

ライセンス: Link先を確認
Thomas M. Prinz, Julien Klaus, Nick R. T. P. van Beest, (参考訳) 並行性は、複雑なシステムの振る舞いを記述し、シミュレートするペトリネットの重要な側面である。 どの場所と遷移が並列に実行されるかを知ることは、ネットを理解し、因果性、排他性など他の特性の分析技術や計算を可能にする。 並列検出に基づくすべての手法は、この検出手法の効率に依存する。 Kovalyov と Esparza は、O\big((P+T)TP^2\big)$ と有界ネット(ここでは$P$ と $T$ は場所と遷移の数)と $O\big(P(P+T)^2\big)$ と有界自由選択ネット(英語版)$ を同時に計算するアルゴリズムを開発した。 これらのアルゴリズムは計算の複雑さがかなり高いが、多くの並列ノードが長い計算時間に繋がる可能性がある。 本稿では,コンカレント検出アルゴリズムのパレットと,音声自由選択ワークフローネットのためのコンカレントパス(CP)アルゴリズムを補完する。 このアルゴリズムは並列化が可能であり、非巡回ネットは$O(P^2 + T^2)$、巡回ネットは$O(P^3 + PT^2)$である。 循環網の計算複雑性は改善されていないが、CPの利点、特に並列関係において多くのノードを含む場合の利点が評価されている。

Concurrency is an important aspect of Petri nets to describe and simulate the behavior of complex systems. Knowing which places and transitions could be executed in parallel helps to understand nets and enables analysis techniques and the computation of other properties, such as causality, exclusivity, etc.. All techniques based on concurrency detection depend on the efficiency of this detection methodology. Kovalyov and Esparza have developed algorithms that compute all concurrent places in $O\big((P+T)TP^2\big)$ for live and bounded nets (where $P$ and $T$ are the numbers of places and transitions) and in $O\big(P(P+T)^2\big)$ for live and bounded free-choice nets. Although these algorithms have a reasonably good computational complexity, large numbers of concurrent pairs of nodes may still lead to long computation times. This paper complements the palette of concurrency detection algorithms with the Concurrent Paths (CP) algorithm for sound free-choice workflow nets. The algorithm allows parallelization and has a worst-case computational complexity of $O(P^2 + T^2)$ for acyclic nets and of $O(P^3 + PT^2)$ for cyclic nets. Although the computational complexity of cyclic nets has not improved, the evaluation shows the benefits of CP, especially, if the net contains many nodes in concurrency relation.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# SLIM: 複数批判によるスキル学習

SLIM: Skill Learning with Multiple Critics ( http://arxiv.org/abs/2402.00823v2 )

ライセンス: Link先を確認
David Emukpere, Bingbing Wu, Julien Perez, Jean-Michel Renders, (参考訳) 自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。 相互情報の最大化に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。 環境を構成する大きな自由度に影響を及ぼす必要があるため、相互情報の最大化は、有用で安全な操作行動を生み出すのに単独で失敗する。 さらに、この問題に対処するためには、素直な組み合わせを通じて、スキル発見報酬を追加の報酬で増やすことで、望ましい行動を生み出すことができない可能性がある。 この制限に対処するために,我々は,ロボット操作に特に焦点をあてた,スキル発見のための多批判学習アプローチであるSLIMを導入する。 主な洞察は,複数の報酬関数を優雅に組み合わせるために,複数の批評家をアクタ批判的枠組みで活用することで,ロボット操作における潜時変化可能なスキル発見が大幅に向上すると同時に,有用スキルへの収束を妨げる報酬間の干渉を克服する,ということである。 さらに、テーブルトップ操作の文脈では、安全で効率的なモータープリミティブを階層的な強化学習方式で獲得し、それらを計画を通じて活用し、スキル発見のためのベースラインアプローチを大幅に上回る、新しいスキル発見アプローチの適用性を示す。

Self-supervised skill learning aims to acquire useful behaviors that leverage the underlying dynamics of the environment. Latent variable models, based on mutual information maximization, have been successful in this task but still struggle in the context of robotic manipulation. As it requires impacting a possibly large set of degrees of freedom composing the environment, mutual information maximization fails alone in producing useful and safe manipulation behaviors. Furthermore, tackling this by augmenting skill discovery rewards with additional rewards through a naive combination might fail to produce desired behaviors. To address this limitation, we introduce SLIM, a multi-critic learning approach for skill discovery with a particular focus on robotic manipulation. Our main insight is that utilizing multiple critics in an actor-critic framework to gracefully combine multiple reward functions leads to a significant improvement in latent-variable skill discovery for robotic manipulation while overcoming possible interference occurring among rewards which hinders convergence to useful skills. Furthermore, in the context of tabletop manipulation, we demonstrate the applicability of our novel skill discovery approach to acquire safe and efficient motor primitives in a hierarchical reinforcement learning fashion and leverage them through planning, significantly surpassing baseline approaches for skill discovery.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# 格子フェルミオンに対するトポロジー的に保護されたカシミール効果

Topologically protected Casimir effect for lattice fermions ( http://arxiv.org/abs/2402.02477v2 )

ライセンス: Link先を確認
C. W. J. Beenakker, (参考訳) 電磁カシミール効果は、トポロジカル絶縁体においてフェルミオン性を持つ: 質量のないディラックフェルミオン場のゼロ点ゆらぎは、磁気散乱体間の力を媒介する。 カシミールの力は、不対面のディラックコーンのトポロジカルな保護を維持する障害に敏感である。 ディラック方程式が離散化され、カシミール効果が指数的に抑制されると、ディラック点にギャップが開くと、保護は破られる。 ここでは、最近開発されたユークリッド作用の局所的な離散化を適用し、ハミルトニアンの局所的な離散化のフェルミオンダブル障害に苦しむことなく、この格子アーチファクトをいかに避けるかを示す。

The electromagnetic Casimir effect has a fermionic counterpart in topological insulators: Zero-point fluctuations of a massless Dirac fermion field mediate a force between magnetic scatterers. The Casimir force is insensitive to disorder that preserves the topological protection of an unpaired Dirac cone. The protection may be broken if the Dirac equation is discretized, and an exponential suppression of the Casimir effect will result if a gap opens at the Dirac point. Here we show how this lattice artefact may be avoided, by applying a recently developed local discretization of the Euclidean action that does not suffer from the fermion-doubling obstruction of local discretizations of the Hamiltonian.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# DenseFormer: 深さ重み付け平均化によるトランスフォーマーの情報フロー向上

DenseFormer: Enhancing Information Flow in Transformers via Depth Weighted Averaging ( http://arxiv.org/abs/2402.02622v2 )

ライセンス: Link先を確認
Matteo Pagliardini, Amirkeivan Mohtashami, Francois Fleuret, Martin Jaggi, (参考訳) Vaswani et al (2017)によるトランスフォーマーアーキテクチャは、自然言語処理から音声処理、画像理解に至るまで、アプリケーション領域で広く使われている。 DenseFormerは,100Bのパラメータ範囲で大規模なモデルに対する数千のパラメータを追加することで,モデルのサイズを増大させることなく,モデルの複雑度を改善する,標準アーキテクチャの簡単な修正である。 提案手法は,各変圧器ブロックの後の付加的な平均化ステップに依存し,この演算をDWA(Depth-Weighted-Average)と呼ぶ。 学習したDWA重みは情報フローのコヒーレントなパターンを示し、遠い層からの活性化の強く構造化された再利用を明らかにする。 実験により、DenseFormerはよりデータ効率が高く、より深いトランスフォーマーモデルと同じパープレキシティに達し、同じパープレキシティに対して、これらの新しいモデルはメモリ効率と推論時間の観点からトランスフォーマーベースラインを上回っていることが示された。

The transformer architecture by Vaswani et al. (2017) is now ubiquitous across application domains, from natural language processing to speech processing and image understanding. We propose DenseFormer, a simple modification to the standard architecture that improves the perplexity of the model without increasing its size -- adding a few thousand parameters for large-scale models in the 100B parameters range. Our approach relies on an additional averaging step after each transformer block, which computes a weighted average of current and past representations -- we refer to this operation as Depth-Weighted-Average (DWA). The learned DWA weights exhibit coherent patterns of information flow, revealing the strong and structured reuse of activations from distant layers. Experiments demonstrate that DenseFormer is more data efficient, reaching the same perplexity of much deeper transformer models, and that for the same perplexity, these new models outperform transformer baselines in terms of memory efficiency and inference time.
翻訳日:2024-03-22 19:17:37 公開日:2024-03-21
# Easy Instruct: 大規模言語モデルのための使いやすい命令処理フレームワーク

EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models ( http://arxiv.org/abs/2402.03049v3 )

ライセンス: Link先を確認
Yixin Ou, Ningyu Zhang, Honghao Gui, Ziwen Xu, Shuofei Qiao, Yida Xue, Runnan Fang, Kangwei Liu, Lei Li, Zhen Bi, Guozhou Zheng, Huajun Chen, (参考訳) 近年,大規模言語モデル(LLM)の能力向上のための重要な技術として,命令チューニングが注目されている。 高品質な命令データセットを構築するために,データ量とデータ品質の微妙なバランスを実現するために,多くの命令処理手法が提案されている。 しかし、様々な命令処理方法に矛盾があるため、コミュニティで利用可能な標準のオープンソース命令処理実装フレームワークが存在しないため、実践者がさらなる開発や進歩を妨げている。 命令処理の研究と開発を容易にするために,命令生成,選択,プロンプトをモジュール化し,それらの組み合わせや相互作用を考慮しつつ,LLMの使い易い命令処理フレームワークであるEasyInstructを提案する。 EasyInstructはhttps://github.com/zjunlp/EasyInstructで公開され、オンラインデモアプリとクイックスタート用のデモビデオとともに、インストラクションデータと合成データを中心とした広範な研究を求めている。

In recent years, instruction tuning has gained increasing attention and emerged as a crucial technique to enhance the capabilities of Large Language Models (LLMs). To construct high-quality instruction datasets, many instruction processing approaches have been proposed, aiming to achieve a delicate balance between data quantity and data quality. Nevertheless, due to inconsistencies that persist among various instruction processing methods, there is no standard open-source instruction processing implementation framework available for the community, which hinders practitioners from further developing and advancing. To facilitate instruction processing research and development, we present EasyInstruct, an easy-to-use instruction processing framework for LLMs, which modularizes instruction generation, selection, and prompting, while also considering their combination and interaction. EasyInstruct is publicly released and actively maintained at https://github.com/zjunlp/EasyInstruct, along with an online demo app and a demo video for quick-start, calling for broader research centered on instruction data and synthetic data.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# セグメンテーション任意のモデルのFew-Shot適応のための条件付きチューニングネットワーク

Conditional Tuning Network for Few-Shot Adaptation of Segmentation Anything Model ( http://arxiv.org/abs/2402.03631v2 )

ライセンス: Link先を確認
Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Ruijie Ren, Xiaoqin Zhang, Ling Shao, Shijian Lu, (参考訳) 最近のSegment Anything Model (SAM) は、一般画像のセグメンテーションにおいて顕著なゼロショット能力と柔軟な幾何学的プロンプトを示した。 しかしSAMは、航空、医療、非RGB画像など、様々な非伝統的なイメージを扱う際にしばしば苦労する。 本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。 CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。 コア設計は、重厚画像エンコーダと軽量マスクデコーダのデコーダ条件付きジョイントチューニングを可能にするプロンプトブリッジ構造である。 ブリッジングはマスクデコーダのプロンプトトークンを画像エンコーダにマッピングし、エンコーダとデコーダの相乗的適応を相互に促進する。 我々は、入力空間に学習可能なプロンプトトークンを注入する1つのCAT-SAMと、軽量なアダプタネットワークを挿入する2つのCAT-SAM変異をもたらすイメージエンコーダの2つの代表的チューニング戦略を開発する。 11の非従来型タスクに対する大規模な実験により、CAT-SAMはどちらも、非常に困難なワンショット適応設定の下でも、より優れた目標セグメンテーション性能を達成することが示された。 プロジェクトページ: https://xiaoaoran.github.io/projects/CAT-SAM

The recent Segment Anything Model (SAM) has demonstrated remarkable zero-shot capability and flexible geometric prompting in general image segmentation. However, SAM often struggles when handling various unconventional images, such as aerial, medical, and non-RGB images. This paper presents CAT-SAM, a ConditionAl Tuning network that adapts SAM toward various unconventional target tasks with just few-shot target samples. CAT-SAM freezes the entire SAM and adapts its mask decoder and image encoder simultaneously with a small number of learnable parameters. The core design is a prompt bridge structure that enables decoder-conditioned joint tuning of the heavyweight image encoder and the lightweight mask decoder. The bridging maps the prompt token of the mask decoder to the image encoder, fostering synergic adaptation of the encoder and the decoder with mutual benefits. We develop two representative tuning strategies for the image encoder which leads to two CAT-SAM variants: one injecting learnable prompt tokens in the input space and the other inserting lightweight adapter networks. Extensive experiments over 11 unconventional tasks show that both CAT-SAM variants achieve superior target segmentation performance consistently even under the very challenging one-shot adaptation setup. Project page: https://xiaoaoran.github.io/projects/CAT-SAM
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス

ANLS* -- A Universal Document Processing Metric for Generative Large Language Models ( http://arxiv.org/abs/2402.03848v3 )

ライセンス: Link先を確認
David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger, (参考訳) 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。 これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。 しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。 しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。 本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。 また,ANLS*メトリックを用いた7つの異なるデータセット,6つの異なるGLLM,3つの異なるプロンプト手法の評価を行い,提案手法の重要性を実証した。 また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。 35件中27件では、SFTは他のテクニックよりも優れ、最先端の技術を改善している。 ソースはhttps://github.com/deepopinion/anls_star_metricにある。

Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, 6 different GLLMs and 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 27 out of 35 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $18$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# ガウス雑音を考慮した選択機構のプライバシーについて

On the Privacy of Selection Mechanisms with Gaussian Noise ( http://arxiv.org/abs/2402.06137v2 )

ライセンス: Link先を確認
Jonathan Lebensold, Doina Precup, Borja Balle, (参考訳) ノイズマックスとAbove Thresholdは古典的微分プライベート(DP)選択機構である。 それらの出力は、低感度なクエリのシーケンスにノイズを加え、(ノイズの)答えが一定の条件を満たすクエリのアイデンティティを報告することによって得られる。 これらのメカニズムのPure DP保証は、クエリにLaplaceノイズを追加すると容易に取得できる。 一方、ガウス雑音を用いてインスタンス化されると、標準解析は、これらの機構の出力が離散空間にあるにもかかわらず、近似DP保証しか得られない。 本研究では,Report Noisy MaxとAbove Thresholdの分析をガウス雑音で再検討し,基礎となるクエリが有界であるという仮定の下で,Report Noisy MaxとAbove Thresholdの純元DP境界を提供することができることを示す。 得られた境界は厳密であり、標準手法を用いて数値的に評価できる閉形式式に依存している。 これらのことが、プライバシーと低データ体制において、より厳格なプライバシ会計につながることを実証的に見いだしています。 さらに, 純粋なポストDP保証を構成するためのシンプルなプライバシフィルタを提案し, 完全適応型ガウススパースベクトル法を導出する。 最後に、我々のスパースベクトル技術が従来のアプローチと実質的に競合し、ハイパーパラメータチューニングがより少ないことを示すモビリティとエネルギー消費のデータセットに関する実験を行った。

Report Noisy Max and Above Threshold are two classical differentially private (DP) selection mechanisms. Their output is obtained by adding noise to a sequence of low-sensitivity queries and reporting the identity of the query whose (noisy) answer satisfies a certain condition. Pure DP guarantees for these mechanisms are easy to obtain when Laplace noise is added to the queries. On the other hand, when instantiated using Gaussian noise, standard analyses only yield approximate DP guarantees despite the fact that the outputs of these mechanisms lie in a discrete space. In this work, we revisit the analysis of Report Noisy Max and Above Threshold with Gaussian noise and show that, under the additional assumption that the underlying queries are bounded, it is possible to provide pure ex-ante DP bounds for Report Noisy Max and pure ex-post DP bounds for Above Threshold. The resulting bounds are tight and depend on closed-form expressions that can be numerically evaluated using standard methods. Empirically we find these lead to tighter privacy accounting in the high privacy, low data regime. Further, we propose a simple privacy filter for composing pure ex-post DP guarantees, and use it to derive a fully adaptive Gaussian Sparse Vector Technique mechanism. Finally, we provide experiments on mobility and energy consumption datasets demonstrating that our Sparse Vector Technique is practically competitive with previous approaches and requires less hyper-parameter tuning.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# CPSDBench:中国の公開セキュリティドメインのための大規模言語モデル評価ベンチマークとベースライン

CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain ( http://arxiv.org/abs/2402.07234v3 )

ライセンス: Link先を確認
Xin Tong, Bo Jin, Zhi Lin, Binjun Wang, Ting Yu, Qiang Cheng, (参考訳) 大規模言語モデル(LLM)は、複数のアプリケーションドメインにまたがる大きな可能性と効果を示している。 公安業務におけるLLMの性能を評価するため,中国公安ドメイン-CPSDbenchに合わせた特別評価ベンチマークを構築することを目的とした。 CPSDbenchは、現実のシナリオから収集された公開セキュリティに関連するデータセットを統合し、テキスト分類、情報抽出、質問応答、テキスト生成の4つの主要な側面にわたるLCMの包括的な評価をサポートする。 さらに,公安に関わるタスクの実行において,LLMの有効性をより正確に定量化するための,革新的な評価指標のセットを紹介する。 本研究で実施した詳細な分析と評価を通じて,我々は,公安問題に対処する上で,既存のモデルの性能強度と限界に対する理解を深めるとともに,この分野のアプリケーションを対象とした,より正確でカスタマイズされたLLMモデルの開発に向けたリファレンスを提供する。

Large Language Models (LLMs) have demonstrated significant potential and effectiveness across multiple application domains. To assess the performance of mainstream LLMs in public security tasks, this study aims to construct a specialized evaluation benchmark tailored to the Chinese public security domain--CPSDbench. CPSDbench integrates datasets related to public security collected from real-world scenarios, supporting a comprehensive assessment of LLMs across four key dimensions: text classification, information extraction, question answering, and text generation. Furthermore, this study introduces a set of innovative evaluation metrics designed to more precisely quantify the efficacy of LLMs in executing tasks related to public security. Through the in-depth analysis and evaluation conducted in this research, we not only enhance our understanding of the performance strengths and limitations of existing models in addressing public security issues but also provide references for the future development of more accurate and customized LLM models targeted at applications in this field.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# LLMとヒューマン・コンディション

LLMs and the Human Condition ( http://arxiv.org/abs/2402.08403v2 )

ライセンス: Link先を確認
Peter Wallis, (参考訳) 本稿では,人間の意思決定の確立された3つの理論について述べる。 言語をアクションとして真剣に考えると、モデルが会話のユーザーインターフェイスに適用されます。 理論に基づくAI研究は最近難しかったが、この研究の目的は、LLMが実際に何をしているのかを理解することへの関心を再活性化することにある。 50USD以下のラズベリーのパイコンピュータが、最初の商用Crayスーパーコンピュータの最大400倍高速になったとき、Big Techは、ランダムにタイプしてテキストを生成する無限のサルに近づき、そのいくつかは理にかなっているだろう。 ChatGPTの明らかなインテリジェンスがどこから来たのかを理解することで、リソースが少ないと同時に、私たちの世界との関係についてある程度の理解を得ることができます。

This paper presents three established theories of human decision-making and describes how they can be integrated to provide a model of purposive human action. Taking seriously the idea of language as action the model is then applied to the conversational user interfaces. Theory based AI research has had a hard time recently and the aim here is to revitalise interest in understanding what LLMs are actually doing other than running poorly understood machine learning routines over all the data the relevant Big Tech company can hoover up. When a raspberry pi computer for under 50USD is up to 400 times faster than the first commercial Cray super computer~\cite{crayVpi}, Big Tech can get really close to having an infinite number of monkeys typing at random and producing text, some of which will make sense. By understanding where ChatGPT's apparent intelligence comes from, perhaps we can perform the magic with fewer resources and at the same time gain some understanding about our relationship with our world.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# Intelligent Canvas: 高速プロトタイピング、イテレーション、キュレーションによるジェネレーティブAIによるデザインライクな探索的ビジュアルデータ分析の実現

Intelligent Canvas: Enabling Design-Like Exploratory Visual Data Analysis with Generative AI through Rapid Prototyping, Iteration and Curation ( http://arxiv.org/abs/2402.08812v3 )

ライセンス: Link先を確認
Zijian Ding, Joel Chan, (参考訳) 複雑なデータ分析は、本質的には、探索的視覚分析手法によって予期せぬ洞察を求め、論理的、段階的に処理する。 しかし、ノートやダッシュボードのような既存のインターフェースは、ビジュアルデータ分析の探索と比較に制限がある。 これらの制限に対処するために、生成AIをデータ分析に統合し、高速なプロトタイピング、イテレーション、および比較視覚化管理を提供する、“デザインライクな”インテリジェントキャンバス環境を導入します。 この2つのコントリビューションには、生成AIコンポーネントをキャンバスインターフェースに統合することや、キャンバスインターフェースの有効性を評価するユーザスタディ(N=10)による経験的発見が含まれている。

Complex data analysis inherently seeks unexpected insights through exploratory visual analysis methods, transcending logical, step-by-step processing. However, existing interfaces such as notebooks and dashboards have limitations in exploration and comparison for visual data analysis. Addressing these limitations, we introduce a "design-like" intelligent canvas environment integrating generative AI into data analysis, offering rapid prototyping, iteration, and comparative visualization management. Our dual contributions include the integration of generative AI components into a canvas interface, and empirical findings from a user study (N=10) evaluating the effectiveness of the canvas interface.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# LLMにおけるニューロン相互作用と創発の探索:多フラクタル解析の観点から

Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective ( http://arxiv.org/abs/2402.09099v4 )

ライセンス: Link先を確認
Xiongye Xiao, Chenyu Zhou, Heng Ping, Defu Cao, Yaxing Li, Yizhuo Zhou, Shixuan Li, Paul Bogdan, (参考訳) 大規模モデルの出現に関する以前の研究は、主に、大規模言語モデル(LLM)の機能的機能とモデルサイズとのスケール性に焦点を当てていた。 しかしながら、我々の研究は従来のパラダイムを超越し、モデルのサイズだけでなく、トレーニングプロセス中のニューロン相互作用の複雑な振る舞いにも特に重点を置いて、LSMの出現に対する理解を深めることを目的としています。 自己組織化」と「マルチフラクタル解析」の概念を導入することで、トレーニング中にニューロンの相互作用が動的に進化し、単純なミクロレベルの相互作用が複雑なマクロレベルの振る舞いを引き起こす自然システムにおける現象を反映する「創発」へと導くかを探る。 トレーニング中の大モデルにおけるニューロン間の継続的な相互作用を定量的に解析するために,ニューロンに基づくマルチフラクタル解析(NeuroMFA)を提案する。 NeuroMFAを用いて、モデルサイズとトレーニングプロセスの両方のレンズを通してLLMの創発的挙動を包括的に検証し、大規模モデルの出現を研究するための新たな道を開く。

Prior studies on the emergence in large models have primarily focused on how the functional capabilities of large language models (LLMs) scale with model size. Our research, however, transcends this traditional paradigm, aiming to deepen our understanding of the emergence within LLMs by placing a special emphasis not just on the model size but more significantly on the complex behavior of neuron interactions during the training process. By introducing the concepts of "self-organization" and "multifractal analysis," we explore how neuron interactions dynamically evolve during training, leading to "emergence," mirroring the phenomenon in natural systems where simple micro-level interactions give rise to complex macro-level behaviors. To quantitatively analyze the continuously evolving interactions among neurons in large models during training, we propose the Neuron-based Multifractal Analysis (NeuroMFA). Utilizing NeuroMFA, we conduct a comprehensive examination of the emergent behavior in LLMs through the lens of both model size and training process, paving new avenues for research into the emergence in large models.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# 2ビット位相空間におけるシンプレクティック線形変換の解釈

Interpreting symplectic linear transformations in a two-qubit phase space ( http://arxiv.org/abs/2402.09922v4 )

ライセンス: Link先を確認
William K. Wootters, (参考訳) 連続ウィグナー函数とある種の離散ウィグナー函数に対して、シンプレクティック線型変換に従ってウィグナー函数の値を置換することは、状態に対してあるユニタリ変換を実行することと等価である。 すなわち、このユニタリ変換を実行することは、単に位相空間の中でウィグナー函数の値を移動させる問題である。 この結果は、ヒルベルト空間の次元 $d$ が奇数であるとき、$d \times d$ 位相空間上で定義される最も単純な離散ウィグナー函数に対して特に成り立つ。 次元が偶数であれば、$d \times d$ 位相空間を保たない。 しかし、ここでは、この対応の一般化されたバージョンが2量子位相空間の場合に適用可能であることを示す。 この場合、位相空間の点のシンプレクティック線型置換とウィグナー函数のある種の再解釈はユニタリ変換と同値である。

For the continuous Wigner function and for certain discrete Wigner functions, permuting the values of the Wigner function in accordance with a symplectic linear transformation is equivalent to performing a certain unitary transformation on the state. That is, performing this unitary transformation is simply a matter of moving Wigner-function values around in phase space. This result holds in particular for the simplest discrete Wigner function defined on a $d \times d$ phase space when the Hilbert-space dimension $d$ is odd. It does not hold for a $d \times d$ phase space if the dimension is even. Here we show, though, that a generalized version of this correspondence does apply in the case of a two-qubit phase space. In this case, a symplectic linear permutation of the points of the phase space, together with a certain reinterpretation of the Wigner function, is equivalent to a unitary transformation.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# 健康と場所)研究における独自のストリートビュー画像の使用の有無 : それが問題である

To use or not to use proprietary street view images in (health and place) research? That is the question ( http://arxiv.org/abs/2402.11504v2 )

ライセンス: Link先を確認
Marco Helbich, Matthew Danish, SM Labib, Britta Ricker, (参考訳) コンピュータビジョンによるストリートビュー画像の分析は環境評価に変革をもたらす。 インタラクティブなWebサービス、特にGoogleストリートビューは、画像データをユビキタスにするための重要な役割を担っている。 何百万ものGoogleストリートビュー画像を利用する技術的容易さにもかかわらず、この記事ではヨーロッパの観点から、このプロプライエタリなデータソースを使用する際の現在のプラクティスに疑問を投げかけます。 画像の大量ダウンロードやストリートビュー画像ベースのインデックスの生成を制限するGoogleのサービス規約に懸念があります。 データライセンス契約と法的整合性を維持しつつ、基礎研究を通じて社会を前進させることの課題を和解させるためには、それが不可欠であると信じている。 1) プロプライエタリなストリートビューデータとそれに関連するディレクティブの使用に関する著者の声明を含む。 2) Googleストリートビューのデータアクセスを民主化するために学術固有のライセンスを交渉し、 3)オープンデータ原則に固執し、将来の研究にオープンイメージソースを活用する。

Computer vision-based analysis of street view imagery has transformative impacts on environmental assessments. Interactive web services, particularly Google Street View, play an ever-important role in making imagery data ubiquitous. Despite the technical ease of harnessing millions of Google Street View images, this article questions the current practices in using this proprietary data source from a European viewpoint. Our concern lies with Google's terms of service, which restrict bulk image downloads and the generation of street view image-based indices. To reconcile the challenge of advancing society through groundbreaking research while maintaining data license agreements and legal integrity, we believe it is crucial to 1) include an author's statement on using proprietary street view data and the directives it entails, 2) negotiate academic-specific license to democratize Google Street View data access, and 3) adhere to open data principles and utilize open image sources for future research.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# ハルキエフのフロンティア都市における量子教育

Quantum education in the frontier city of Kharkiv ( http://arxiv.org/abs/2402.14302v2 )

ライセンス: Link先を確認
Pylyp Kuznietsov, Igor Girka, Igor Kyryllin, Andrii Sotnikov, (参考訳) 本稿では、ウクライナのカラジン・ハルキウ国立大学(V.N. Karazin Kharkiv National University)のSPT(School of Physics and Technology)において、量子物理学の現在のトレーニングプロセスと教育構造について述べる。 SPTにおける量子教育の重大な特徴は、この分野で積極的に活動している国内外の研究センターの科学者と専門家の関与である。 特定の量子コースの例を挙げることで、大規模軍事攻撃時の教育過程における主な課題と、講師、科学系従業員、学生がそれらを克服する方法について概説する。 我々はまた、カルキフにおける量子教育の持続と発展を指向した最近出現したイニシアチブと、より広範な影響を持つ国際イベントの概要を概説する。 学校の歴史とその主な業績は簡潔に述べられている。

This article provides the description of current training processes and structure of education in quantum physics at the Education and Research Institute "School of Physics and Technology" (SPT) of V.N. Karazin Kharkiv National University, Ukraine. Crucial feature of quantum education at the SPT is the involvement of scientists and experts from national and international research centers who are actively working in the field. By taking example of particular quantum courses, we outline the main challenges in the educational process during the large-scale military aggression and the ways the lecturers, scientific employees, and students manage to overcome them. We also overview the recently emerged initiatives oriented on sustaining and development of quantum education in Kharkiv, as well as the international events with a broader impact. History of the School and its main achievements are provided in brief.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# ROS-Causal:人間-ロボットインタラクションアプリケーションのためのROSベースの因果解析フレームワーク

ROS-Causal: A ROS-based Causal Analysis Framework for Human-Robot Interaction Applications ( http://arxiv.org/abs/2402.16068v3 )

ライセンス: Link先を確認
Luca Castri, Gloria Beraldo, Sariah Mghames, Marc Hanheide, Nicola Bellotto, (参考訳) 人間と共有された空間にロボットを配置するには、近くのエージェントとオブジェクト間の相互作用を理解する必要がある。 因果推論による因果関係のモデル化は、人間の行動を予測し、ロボットの介入を予測する。 しかし、既存の因果発見法は、ロボット工学における標準的なデファクトであるROSエコシステム内に実装されていないため、ロボット工学における効果的な利用を妨げるため、重大な課題が生じる。 このギャップに対処するために,人間とロボットの空間的相互作用におけるデータ収集と因果発見のためのROSベースのフレームワークであるROS-Causalを紹介した。 ROSと統合されたアドホックシミュレータは、そのアプローチの有効性を示し、データ収集中にロボットが搭載した因果モデルの生成を示す。 ROS-CausalはGitHubで入手できる。

Deploying robots in human-shared spaces requires understanding interactions among nearby agents and objects. Modelling cause-and-effect relations through causal inference aids in predicting human behaviours and anticipating robot interventions. However, a critical challenge arises as existing causal discovery methods currently lack an implementation inside the ROS ecosystem, the standard de facto in robotics, hindering effective utilisation in robotics. To address this gap, this paper introduces ROS-Causal, a ROS-based framework for onboard data collection and causal discovery in human-robot spatial interactions. An ad-hoc simulator, integrated with ROS, illustrates the approach's effectiveness, showcasing the robot onboard generation of causal models during data collection. ROS-Causal is available on GitHub: https://github.com/lcastri/roscausal.git.
翻訳日:2024-03-22 19:07:50 公開日:2024-03-21
# NocPlace: 生成的および継承的知識伝達による夜間視覚的位置認識

NocPlace: Nocturnal Visual Place Recognition via Generative and Inherited Knowledge Transfer ( http://arxiv.org/abs/2402.17159v2 )

ライセンス: Link先を確認
Bingxi Liu, Yiqun Wang, Huaqi Tao, Tingjun Huang, Fulin Tang, Yihong Wu, Jinqiang Cui, Hong Zhang, (参考訳) 視覚的位置認識(VPR)はコンピュータビジョンにおいて重要であり、既知の画像の広範なコレクションからクエリ画像に似たデータベースイメージを取得することを目的としている。 しかし、多くの視覚タスクと同様に、VPRは常に夜間画像の不足のために夜間に劣化する。 さらに、VPRは単一の夜間ドメインの問題ではなく、夜間のドメイン間の問題に対処する必要がある。 これらの問題に対する対応として,NacPlaceを提案する。このNacPlaceは生成的および継承的知識伝達を利用して,ダズリングライトや極暗光に対するレジリエンスをグローバルディスクリプタに埋め込む。 まず、NightCitiesと呼ばれる日夜の都市シーンのデータセットを作成し、世界中の60都市で様々な照明のバリエーションと暗いシナリオを捉えます。 そして、このデータセットに基づいて画像生成ネットワークをトレーニングし、大規模なVPRデータセットを処理し、その夜間バージョンを取得する。 最後に、VPRモデルは、自分自身から継承されたディスクリプタと、明示的なクロスドメインのコントラスト関係を構築するナイトスタイルのイメージを使用して、微調整される。 さまざまなデータセットに関する総合的な実験は、私たちの貢献とNocPlaceの優位性を示しています。 NocPlaceはリアルタイムコンピューティングリソースを追加せずに、東京24/7夜のEigenplacesのパフォーマンスを7.6%改善し、SVOX Nightは16.8%向上した。

Visual Place Recognition (VPR) is crucial in computer vision, aiming to retrieve database images similar to a query image from an extensive collection of known images. However, like many vision tasks, VPR always degrades at night due to the scarcity of nighttime images. Moreover, VPR needs to address the cross-domain problem of night-to-day rather than just the issue of a single nighttime domain. In response to these issues, we present NocPlace, which leverages generative and inherited knowledge transfer to embed resilience against dazzling lights and extreme darkness in the global descriptor. First, we establish a day-night urban scene dataset called NightCities, capturing diverse lighting variations and dark scenarios across 60 cities globally. Then, an image generation network is trained on this dataset and processes a large-scale VPR dataset, obtaining its nighttime version. Finally, VPR models are fine-tuned using descriptors inherited from themselves and night-style images, which builds explicit cross-domain contrastive relationships. Comprehensive experiments on various datasets demonstrate our contributions and the superiority of NocPlace. Without adding any real-time computing resources, NocPlace improves the performance of Eigenplaces by 7.6% on Tokyo 24/7 Night and 16.8% on SVOX Night.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# ICP-Flow:ICPを用いたLiDARシーンフロー推定

ICP-Flow: LiDAR Scene Flow Estimation with ICP ( http://arxiv.org/abs/2402.17351v2 )

ライセンス: Link先を確認
Yancong Lin, Holger Caesar, (参考訳) シーンフローは、近くの時間ステップで自動運転車が捉えた2つのLiDARスキャン間の3D運動を特徴付ける。 代表的な方法は、シーンフローを、大規模トレーニングまたは推論時の時間的最適化によって学習できる、ポイントワイズな非制約フローベクトルとして考えることである。 しかし、これらの手法は、自律運転中の物体がしばしば厳格に動くことを考慮しない。 この剛体運動の仮定を我々の設計に取り入れ、目的はスキャン上のオブジェクトを関連付け、局所的な剛体変換を推定することである。 学習不要なフロー推定器であるICP-Flowを提案する。 我々の設計の中核は、オブジェクトを時間とともに整列させ、対応する剛性変換を出力する従来の反復閉点(ICP)アルゴリズムである。 重要なことは、ICPを支援するために、最も可能性の高い翻訳を発見するヒストグラムに基づく初期化を提案し、ICPの出発点となる。 完全なシーンフローは、剛性変換から回復される。 教師付きモデルを含む最先端のベースラインをWaymoデータセットで上回り、Argoverse-v2とnuScenesで競合的に実行します。 さらに,我々のモデルから擬似ラベルによって教師されるフィードフォワードニューラルネットワークを訓練し,リアルタイム推論が可能なすべてのモデルでトップパフォーマンスを実現する。 我々は,他のモデルで有意義な結果が得られなかった場合の時間差を最大0.4秒に抑えながら,シーンフロー推定におけるモデルの有用性を検証する。

Scene flow characterizes the 3D motion between two LiDAR scans captured by an autonomous vehicle at nearby timesteps. Prevalent methods consider scene flow as point-wise unconstrained flow vectors that can be learned by either large-scale training beforehand or time-consuming optimization at inference. However, these methods do not take into account that objects in autonomous driving often move rigidly. We incorporate this rigid-motion assumption into our design, where the goal is to associate objects over scans and then estimate the locally rigid transformations. We propose ICP-Flow, a learning-free flow estimator. The core of our design is the conventional Iterative Closest Point (ICP) algorithm, which aligns the objects over time and outputs the corresponding rigid transformations. Crucially, to aid ICP, we propose a histogram-based initialization that discovers the most likely translation, thus providing a good starting point for ICP. The complete scene flow is then recovered from the rigid transformations. We outperform state-of-the-art baselines, including supervised models, on the Waymo dataset and perform competitively on Argoverse-v2 and nuScenes. Further, we train a feedforward neural network, supervised by the pseudo labels from our model, and achieve top performance among all models capable of real-time inference. We validate the advantage of our model on scene flow estimation with longer temporal gaps, up to 0.4 seconds where other models fail to deliver meaningful results.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 画像ゴールナビゲーションのためのインスタンス対応探索-検証-探索

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation ( http://arxiv.org/abs/2402.17587v2 )

ライセンス: Link先を確認
Xiaohan Lei, Min Wang, Wengang Zhou, Li Li, Houqiang Li, (参考訳) 新しい具体的視覚タスクとして、インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された特定のオブジェクトにナビゲートすることを目的としている。 このタスクの主な課題は、異なる視点からターゲットオブジェクトを識別すると同時に、同様の注意散らしを拒絶することである。 既存のImageGoal Navigationメソッドは通常、単純なExploration-Exploitationフレームワークを採用し、ナビゲーション中に特定のインスタンスの識別を無視する。 本研究では,物体を距離から区別する際の「確認に近づいた」人間の動作を模倣することを提案する。 具体的には、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE) を設計する。 本手法は,探索,検証,搾取行動の活発な切り替えを可能にし,エージェントが異なる状況下で合理的な意思決定を行うのを容易にする。 挑戦的なHabitatMatterport 3Dセマンティック(HM3D-SEM)データセットでは、古典的セグメンテーションモデル(0.684 対 0.561 成功)やロバストモデル(0.702 対 0.561 成功)を用いて、従来の最先端の作業よりも優れている。 私たちのコードはhttps://github.com/XiaohanLei/IEVE.comで公開されます。

As a new embodied vision task, Instance ImageGoal Navigation (IIN) aims to navigate to a specified object depicted by a goal image in an unexplored environment. The main challenge of this task lies in identifying the target object from different viewpoints while rejecting similar distractors. Existing ImageGoal Navigation methods usually adopt the simple Exploration-Exploitation framework and ignore the identification of specific instance during navigation. In this work, we propose to imitate the human behaviour of ``getting closer to confirm" when distinguishing objects from a distance. Specifically, we design a new modular navigation framework named Instance-aware Exploration-Verification-Exploitation (IEVE) for instance-level image goal navigation. Our method allows for active switching among the exploration, verification, and exploitation actions, thereby facilitating the agent in making reasonable decisions under different situations. On the challenging HabitatMatterport 3D semantic (HM3D-SEM) dataset, our method surpasses previous state-of-the-art work, with a classical segmentation model (0.684 vs. 0.561 success) or a robust model (0.702 vs. 0.561 success). Our code will be made publicly available at https://github.com/XiaohanLei/IEVE.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 液体抽出誘導体(LSD)の市場ダイナミクスの探索

Exploring the Market Dynamics of Liquid Staking Derivatives (LSDs) ( http://arxiv.org/abs/2402.17748v2 )

ライセンス: Link先を確認
Xihan Xiong, Zhipeng Wang, Qin Wang, (参考訳) StakeはEthereumがProof-of-Stakeコンセンサスに移行した後、重要なコンセプトとして登場した。 LSD(Liquid Stake Derivatives)の導入は、ソロステイクに伴う不公平な問題に効果的に対処し、市場の注目を集めている。 本稿では流動性テイカー(LT)と流動性プロバイダ(LP)の両方の観点からLCD市場のダイナミクスを分析する。 まず、LSDプライマリとセカンダリマーケットの価格差を定量化する。 そこで我々は,LSD仲裁に対する潜在的な障壁を明らかにするために,このような不一致を利用して調停機会を活用できるかを実験的に検討した。 また,流動性確保のためにLSDを供給しているLPが経験した財政利益と損失を評価した。 以上の結果から,LSD液状化位置の66%は,LSDを単に保持した値よりも低い値を生成することがわかった。

Staking has emerged as a crucial concept following Ethereum's transition to Proof-of-Stake consensus. The introduction of Liquid Staking Derivatives (LSDs) has effectively addressed the illiquidity issue associated with solo staking, gaining significant market attention. This paper analyzes the LSD market dynamics from the perspectives of both liquidity takers (LTs) and liquidity providers (LPs). We first quantify the price discrepancy between the LSD primary and secondary markets. Then we investigate and empirically measure how LTs can leverage such discrepancy to exploit arbitrage opportunities, unveiling the potential barriers to LSD arbitrages. In addition, we evaluate the financial profit and losses experienced by LPs who supply LSDs for liquidity provision. Our results show that 66% of LSD liquidity positions generate returns lower than those from simply holding the corresponding LSDs.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 医用画像における神経放射場 : 課題と次のステップ

Neural Radiance Fields in Medical Imaging: Challenges and Next Steps ( http://arxiv.org/abs/2402.17797v3 )

ライセンス: Link先を確認
Xin Wang, Shu Hu, Heng Fan, Hongtu Zhu, Xin Li, (参考訳) コンピュータビジョンの先駆的技術であるNeRF(Neural Radiance Fields)は、投影された2次元画像データから3次元表現を合成することにより、医用画像に革命をもたらす大きな可能性を秘めている。 しかし、医療応用にはユニークな課題がある。 本稿では,NeRFの医用画像への応用を包括的に検討し,基礎画像原理,内部構造要件,オブジェクト境界定義,色密度の4つの重要な課題について述べる。 異なる臓器に関する現在の方法について議論し、関連する制限について論じる。 また、いくつかのデータセットと評価指標をレビューし、今後の研究に向けていくつかの有望な方向性を提案する。

Neural Radiance Fields (NeRF), as a pioneering technique in computer vision, offer great potential to revolutionize medical imaging by synthesizing three-dimensional representations from the projected two-dimensional image data. However, they face unique challenges when applied to medical applications. This paper presents a comprehensive examination of applications of NeRFs in medical imaging, highlighting four imminent challenges, including fundamental imaging principles, inner structure requirement, object boundary definition, and color density significance. We discuss current methods on different organs and discuss related limitations. We also review several datasets and evaluation metrics and propose several promising directions for future research.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 分離と畳み込み--分割と表現による重み付きセマンティックセマンティックセグメンテーションにおける共起の分離と表現

Separate and Conquer: Decoupling Co-occurrence via Decomposition and Representation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2402.18467v3 )

ライセンス: Link先を確認
Zhiwei Yang, Kexue Fu, Minghong Duan, Linhao Qu, Shuo Wang, Zhijian Song, (参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)は、高密度アノテーションなしでセマンティクスタスクを実現することを目的としている。 しかし、共起オブジェクトの頻繁な結合と画像レベルのラベルからの限定的な監督のため、難解な共起問題は広く存在し、WSSSにおけるオブジェクトの誤活性化につながる。 本研究では、画像空間と特徴空間の次元からこの問題に対処するために、SeCoの「分離コンバータ」スキームを考案する。 画像空間では,イメージをパッチに分割することで,画像分解を伴う共起オブジェクトを分離することを提案する。 重要なことは、各パッチがクラスアクティベーションマップ(CAM)からカテゴリタグを割り当てることである。 特徴空間において,多粒度知識コントラストを用いた意味表現の強化により,偽のアクティベーションを「一致」することを提案する。 この目的のために、知識の正しさを保証し、ココンテクスト間の相違を一層促進するデュアル教師・シングル学生アーキテクチャを設計し、タグ誘導コントラストを行う。 マルチステージのWSSSパイプラインをエンドツーエンドで合理化し、外部の監視なしにこの問題に対処します。 PASCAL VOCおよびMS COCOにおいて,従来の単段・多段コンペティタよりも効率と優位性を検証した。 コードはhttps://github.com/zwyang6/SeCo.gitで入手できる。

Weakly supervised semantic segmentation (WSSS) with image-level labels aims to achieve segmentation tasks without dense annotations. However, attributed to the frequent coupling of co-occurring objects and the limited supervision from image-level labels, the challenging co-occurrence problem is widely present and leads to false activation of objects in WSSS. In this work, we devise a 'Separate and Conquer' scheme SeCo to tackle this issue from dimensions of image space and feature space. In the image space, we propose to 'separate' the co-occurring objects with image decomposition by subdividing images into patches. Importantly, we assign each patch a category tag from Class Activation Maps (CAMs), which spatially helps remove the co-context bias and guide the subsequent representation. In the feature space, we propose to 'conquer' the false activation by enhancing semantic representation with multi-granularity knowledge contrast. To this end, a dual-teacher-single-student architecture is designed and tag-guided contrast is conducted, which guarantee the correctness of knowledge and further facilitate the discrepancy among co-contexts. We streamline the multi-staged WSSS pipeline end-to-end and tackle this issue without external supervision. Extensive experiments are conducted, validating the efficiency of our method and the superiority over previous single-staged and even multi-staged competitors on PASCAL VOC and MS COCO. Code is available at https://github.com/zwyang6/SeCo.git.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# タイポグラフィーの欠陥の解き放つ:大視野言語モデルにおけるタイポグラフィーの脆弱性の考察

Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model ( http://arxiv.org/abs/2402.19150v2 )

ライセンス: Link先を確認
Hao Cheng, Erjia Xiao, Jindong Gu, Le Yang, Jinhao Duan, Jize Zhang, Jiahang Cao, Kaidi Xu, Renjing Xu, (参考訳) Large Vision-Language Models (LVLM) は視覚エンコーダとLarge Language Models (LLM) に依存し、視覚と言語の共同空間における様々なマルチモーダルタスクに顕著な能力を示す。 しかし、CLIP(Contrastive Language- Image Pretraining)のような視覚言語モデル(VLM)を妨害するTypographic AttackもLVLMのセキュリティ上の脅威として期待されている。 まず、現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証し、この脅威が広範に存在することを明らかにする。 第二に、この脆弱性をよりよく評価するために、これまでで最も包括的で大規模なTypographic Datasetを提案する。 タイポグラフィーデータセットは, 多様なマルチモーダルタスク下でのタイポグラフィー攻撃の評価だけでなく, 多様な要因で生成されたテキストに影響されたタイポグラフィー攻撃の効果も考慮している。 評価結果から,VLM や LVLM にタイポグラフィー攻撃が及ぼす影響について検討した。 タイポグラフィーデータセットにおける我々の発見と実験的検証により、LVLMがタイポグラフィー攻撃に直面する場合、性能劣化を42.07\%から13.90\%に低減する。

Large Vision-Language Models (LVLMs) rely on vision encoders and Large Language Models (LLMs) to exhibit remarkable capabilities on various multi-modal tasks in the joint space of vision and language. However, the Typographic Attack, which disrupts vision-language models (VLMs) such as Contrastive Language-Image Pretraining (CLIP), has also been expected to be a security threat to LVLMs. Firstly, we verify typographic attacks on current well-known commercial and open-source LVLMs and uncover the widespread existence of this threat. Secondly, to better assess this vulnerability, we propose the most comprehensive and largest-scale Typographic Dataset to date. The Typographic Dataset not only considers the evaluation of typographic attacks under various multi-modal tasks but also evaluates the effects of typographic attacks, influenced by texts generated with diverse factors. Based on the evaluation results, we investigate the causes why typographic attacks may impact VLMs and LVLMs, leading to three highly insightful discoveries. By the examination of our discoveries and experimental validation in the Typographic Dataset, we reduce the performance degradation from $42.07\%$ to $13.90\%$ when LVLMs confront typographic attacks.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# PrPSeg:パノラマ性腎疾患分類のための普遍的仮説学習

PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation ( http://arxiv.org/abs/2402.19286v2 )

ライセンス: Link先を確認
Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Jialin Yue, Juming Xiong, Lining Yu, Yifei Wu, Mengmeng Yin, Yu Wang, Shilin Zhao, Yucheng Tang, Haichun Yang, Yuankai Huo, (参考訳) 腎病理の解剖を理解することは、疾患診断、治療評価、臨床研究の進展に不可欠である。 複合腎臓系は、領域(皮質、髄質)、機能単位(糸球体、尿細管)、細胞(糸球体、メサンギウム細胞)を含む複数のレベルにまたがる様々な成分からなる。 以前の研究では、臨床知識からオブジェクト間の複雑な空間的相互関係を主に見落としていた。 本研究では,パノラマ性腎病理領域(PrPSeg)と呼ばれる新しい普遍的命題学習手法を導入し,腎臓解剖学の広範な知識を統合することにより,腎臓内に包括的にパノラマ性構造を区分することを目的とした。 本稿では, 腎病理学における包括的普遍的命題行列の設計について, 分類と空間的関係のセグメンテーションプロセスへの組み入れを容易にすること, トークンベースの動的頭部ネットワークアーキテクチャ, 部分ラベル画像セグメンテーションの改善, 将来的なデータ拡張機能, および, 腎臓間のオブジェクト間関係を定量化するための解剖学的損失関数を提案する。

Understanding the anatomy of renal pathology is crucial for advancing disease diagnostics, treatment evaluation, and clinical research. The complex kidney system comprises various components across multiple levels, including regions (cortex, medulla), functional units (glomeruli, tubules), and cells (podocytes, mesangial cells in glomerulus). Prior studies have predominantly overlooked the intricate spatial interrelations among objects from clinical knowledge. In this research, we introduce a novel universal proposition learning approach, called panoramic renal pathology segmentation (PrPSeg), designed to segment comprehensively panoramic structures within kidney by integrating extensive knowledge of kidney anatomy. In this paper, we propose (1) the design of a comprehensive universal proposition matrix for renal pathology, facilitating the incorporation of classification and spatial relationships into the segmentation process; (2) a token-based dynamic head single network architecture, with the improvement of the partial label image segmentation and capability for future data enlargement; and (3) an anatomy loss function, quantifying the inter-object relationships across the kidney.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 窒素空孔中心を用いた小型磁界センサ

A miniaturized magnetic field sensor based on nitrogen-vacancy centers ( http://arxiv.org/abs/2402.19372v2 )

ライセンス: Link先を確認
Stefan Dix, Dennis Lönard, Isabel Cardoso Barbosa, Jonas Gutsche, Jonas Witzenrath, Artur Widera, (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、量子センシング技術の主要な候補である。 常に小型のセンサーが優れた測定性能を維持するため、小型化が進められている。 ここでは,5.9\,\mathrm{nT}/ \sqrt{\mathrm{Hz}}$磁場感度を$15\,\mathrm{\mu m}$マイクロ波パワー50\,\mathrm{mW}$および光パワー2.15\,\mathrm{mW}$とする,完全集積型繊維ベース内視鏡センサを提案する。 直接レーザーによる筆記法を用いて、NVを含むダイヤモンドを繊維の芯の上にポリマー構造で局在させる。 この構造は、異なる光ファイバにおける安定した光アクセスと励起と蛍光光の独立誘導を可能にする。 この分離は、光ファイバ中の励起光からの自己蛍光の寄与を強く減少させる。 さらに、ファイバの面の横に金属製の直接レーザーによるアンテナ構造が作られ、NV中心のスピンをマイクロ波で操作することができる。 製造された内視鏡センサーは、先端直径が1.25\,\mathrm{mm}$の頑丈なプラットフォームを提供する。 このデバイスは、リモート光とマイクロ波のアクセスを可能にし、NV中心で15,\mathrm{\mu m}$の空間解像度で完全なコヒーレントスピン測定を行う。 我々は、最先端の超低温量子ガス実験で用いられる磁場におけるベクトル磁場測定の能力を実証し、高分解能と高感度を必要とするポテンシャル場を開く。

The nitrogen-vacancy (NV) center in diamond is a prime candidate for quantum sensing technologies. Ongoing miniaturization calls for ever-smaller sensors maintaining good measurement performance. Here, we present a fully integrated mechanically robust fiber-based endoscopic sensor capable of $5.9\,\mathrm{nT}/ \sqrt{\mathrm{Hz}}$ magnetic field sensitivity utilizing $15\,\mathrm{\mu m}$ sized microdiamonds at a microwave power of $50\,\mathrm{mW}$ and optical power of $2.15\,\mathrm{mW}$. A direct laser writing process is used to localize a diamond containing NV centers above the fiber's core by a polymer structure. This structure enables stable optical access and independent guiding of excitation and fluorescent light in different optical fibers. This separation strongly reduces the contribution of autofluorescence from the excitation light in the optical fiber. Moreover, a metallic direct laser written antenna structure is created next to the fibers' facet, allowing microwave manipulation of the NV centers' spins. The fabricated endoscopic sensor provides a robust platform with a tip diameter of $1.25\,\mathrm{mm}$. The device enables remote optical and microwave access to perform the full range of coherent spin measurements with NV centers at a spatial resolution of $15\,\mathrm{\mu m}$. We demonstrate the capability of vector magnetic field measurements in a magnetic field as used in state-of-the-art ultracold quantum gas experiments, opening a potential field in which high resolution and high sensitivity are necessary.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# オールシーティングプロジェクトV2:オープンワールドの総合的理解を目指して

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World ( http://arxiv.org/abs/2402.19474v2 )

ライセンス: Link先を確認
Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai, (参考訳) 本稿では、画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。 具体的には、テキスト生成、オブジェクトローカライゼーション、関係理解の定式化をRelation conversation (ReC)タスクに統合するAll-Seeing Model V2 (ASMv2)を提案する。 この統合タスクを活用することで、我々のモデルは画像内の全てのオブジェクトを認識・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れ、マルチモーダル大言語モデル(MLLM)でしばしば発生する関係幻覚を減少させる。 関係理解におけるMLLMのトレーニングと評価を容易にするため,我々は,標準命令チューニングデータの形式に適合した最初の高品質ReCデータセット({AS-V2)を作成した。 さらに,MLLMの関連理解能力を包括的に評価するために,Circular-based Relation Probing Evaluation (CRPE) と呼ばれる新しいベンチマークを設計した。 特に、我々のASMv2は、LLaVA-1.5の43.14よりも大きなマージンで、この関係対応ベンチマークで52.04の全体的な精度を達成した。 私たちの研究が、より将来の研究を刺激し、人工知能への進化に貢献できることを願っています。 私たちのプロジェクトはhttps://github.com/OpenGVLab/all-seeing.comで公開されています。

We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# AlloyASG: Alloy Predicate Code Representation as a compact structurely Balanced Graph

AlloyASG: Alloy Predicate Code Representation as a Compact Structurally Balanced Graph ( http://arxiv.org/abs/2403.00170v3 )

ライセンス: Link先を確認
Guanxuan Wu, Allison Sullivan, (参考訳) プログラム解析と自動バグフィックスフィールドでは、プログラムのソースコードを抽象構文木(AST)として抽象的な解釈を作成することが一般的である。 しかし、ASTはデータサイズが指数関数的に大きくなるのは、ASTが木に別々にリストされた同一ノードを持つことが多いためである。 この問題に対処するために、我々はCSBASG(Compplex Structurely Balanced Abstract Semantic Graph)という新しいコード表現スキーマを導入する。これは、コードを複雑な重み付き有向グラフとして表現し、セマンティック要素をグラフ内のノードとしてリストし、モデリング言語アロイのようなほぼ有限個の可算符号セグメントに対してその構造バランスを確保する。 実験により,CSBASGは複雑な重み付きグラフに対する合金述語を1対1で対応させることを確認した。 我々は,合金モデルに対するCSBASG表現の有効性と有効性を評価し,CSBASGのアロイコード生成と自動修復への応用について検討する。

In the program analysis and automated bug-fixing fields, it is common to create an abstract interpretation of a program's source code as an Abstract Syntax Tree (AST), which enables programs written in a high-level language to have various static and dynamic analyses applied. However, ASTs suffer from exponential growth in their data size due to the limitation that ASTs will often have identical nodes separately listed in the tree. To address this issue, we introduce a novel code representation schema, Complex Structurally Balanced Abstract Semantic Graph (CSBASG), which represents code as a complex-weighted directed graph that lists a semantic element as a node in the graph and ensures its structural balance for almost finitely enumerable code segments, such as the modeling language Alloy. Our experiment ensures that CSBASG provides a one-on-one correspondence of Alloy predicates to complex-weighted graphs. We evaluate the effectiveness and efficiency of our CSBASG representation for Alloy models and identify future applications of CSBASG for Alloy code generation and automated repair.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# NewsBench:中国のジャーナリズム編集応用における筆記能力と安全性向上のためのLCMの体系的評価

NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications ( http://arxiv.org/abs/2403.00862v2 )

ライセンス: Link先を確認
Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo, (参考訳) 本研究は,中国のジャーナリズム書記能力(JWP)におけるLarge Language Models(LLMs)の能力と,ジャーナリズム倫理とAI利用に伴うリスクとのギャップに対処するための,新たなベンチマークフレームワークであるNewsBenchを提案する。 5つの編集アプリケーションにわたる1,267のタスクと7つの側面(安全性と4つの詳細なファセットを持つジャーナリストの執筆を含む)、24のニューストピックドメインを含むNewsBenchでは、人間の評価によって検証された2つのGPT-4ベースの自動評価プロトコルが採用されている。 GPT-4とERNIE Botをトップパフォーマーとして強調した10個のLCMの包括的分析から,クリエイティブな文章作成作業において,ジャーナリストの倫理的順守が比較的欠如していることが判明した。 これらの発見は、AIが生成するジャーナリストコンテンツにおける倫理的ガイダンスの強化の必要性を強調しており、AI能力をジャーナリストの基準と安全に関する考慮に合わせるための一歩である。

This study presents NewsBench, a novel benchmark framework developed to evaluate the capability of Large Language Models (LLMs) in Chinese Journalistic Writing Proficiency (JWP) and their Safety Adherence (SA), addressing the gap between journalistic ethics and the risks associated with AI utilization. Comprising 1,267 tasks across 5 editorial applications, 7 aspects (including safety and journalistic writing with 4 detailed facets), and spanning 24 news topics domains, NewsBench employs two GPT-4 based automatic evaluation protocols validated by human assessment. Our comprehensive analysis of 10 LLMs highlighted GPT-4 and ERNIE Bot as top performers, yet revealed a relative deficiency in journalistic ethic adherence during creative writing tasks. These findings underscore the need for enhanced ethical guidance in AI-generated journalistic content, marking a step forward in aligning AI capabilities with journalistic standards and safety considerations.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# ウィキペディア規模のビジュアルエンティティ認識のための生成的アプローチ

A Generative Approach for Wikipedia-Scale Visual Entity Recognition ( http://arxiv.org/abs/2403.02041v2 )

ライセンス: Link先を確認
Mathilde Caron, Ahmet Iscen, Alireza Fathi, Cordelia Schmid, (参考訳) 本稿では,Webスケールのビジュアルエンティティ認識,特にクエリイメージをウィキペディアに存在する600万の既存エンティティの1つにマッピングするタスクに対処する。 このようなスケールの問題にアプローチする方法の1つはデュアルエンコーダモデル(eg CLIP)を使用することで、すべてのエンティティ名とクエリイメージが統一された空間に埋め込まれ、近似k-NN探索の道を開く。 あるいは、キャプションモデルを再使用して、与えられた画像のエンティティ名を直接生成することもできる。 対照的に、入力画像に意味的・識別的な ``code'' を自動再帰的にデコードすることを学習する、新しい生成エンティティ認識(GER)フレームワークを導入する。 我々は,このGERパラダイムの有効性を実証し,挑戦的なOVENベンチマーク上での最先端性能を示す。 GERは、強力なキャプション、デュアルエンコーダ、ビジュアルマッチング、階層的な分類ベースラインを超え、Webスケール認識の複雑さに対処する上での優位性を確認している。

In this paper, we address web-scale visual entity recognition, specifically the task of mapping a given query image to one of the 6 million existing entities in Wikipedia. One way of approaching a problem of such scale is using dual-encoder models (eg CLIP), where all the entity names and query images are embedded into a unified space, paving the way for an approximate k-NN search. Alternatively, it is also possible to re-purpose a captioning model to directly generate the entity names for a given image. In contrast, we introduce a novel Generative Entity Recognition (GER) framework, which given an input image learns to auto-regressively decode a semantic and discriminative ``code'' identifying the target entity. Our experiments demonstrate the efficacy of this GER paradigm, showcasing state-of-the-art performance on the challenging OVEN benchmark. GER surpasses strong captioning, dual-encoder, visual matching and hierarchical classification baselines, affirming its advantage in tackling the complexities of web-scale recognition.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# 光空洞近傍に単一原子を押下する

Pushing single atoms near an optical cavity ( http://arxiv.org/abs/2403.03019v2 )

ライセンス: Link先を確認
Dowon Lee, Taegyu Ha, Donggeon Kim, Keumhyun Kim, Kyungwon An, Moonjoo Lee, (参考訳) 光散乱力は、単一原子のキャビティモードへのロード時間を短縮するために用いられる。 共振器上の冷間原子アンサンブルを緩和し、重力方向に沿ってプッシュビームを印加し、狭い速度分布で高速な原子輸送を実現する。 また、プッシュビームが重力に照らされると、単一の原子が減速し、キャビティ-透過測定によってモードを旋回する様子をリアルタイムで観察する。 本手法は, 原子空洞実験をより効率的にするためのものである。

Optical scattering force is used to reduce the loading time of single atoms to a cavity mode. Releasing a cold atomic ensemble above the resonator, we apply a push beam along the direction of gravity, offering fast atomic transport with narrow velocity distribution. We also observe in real time that, when the push beam is illuminated against gravity, single atoms slow down and even turn around in the mode, through the cavity-transmission measurement. Our method can be employed to make atom-cavity experiments more efficient.
翻訳日:2024-03-22 18:58:05 公開日:2024-03-21
# MedMamba:Vision Mamba for Medical Image Classification (動画)

MedMamba: Vision Mamba for Medical Image Classification ( http://arxiv.org/abs/2403.03849v2 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li, (参考訳) 医用画像分類は、コンピュータビジョンの分野において、非常に基本的で重要な課題である。 近年、CNNベースのモデルとTransformerベースのモデルは、様々な医療画像の分類に広く利用されている。 残念なことに、長距離モデリング機能におけるCNNの制限は、医療画像の特徴を効果的に抽出することを妨げる一方で、トランスフォーマーはその2次計算複雑性によって妨げられている。 近年の研究では、マンバが表現する状態空間モデル(SSM)が線形計算複雑性を維持しつつ、長距離相互作用を効率的にモデル化できることが示されている。 そこで我々は,医療画像分類(MedMamba)のためのVision Mambaを提案する。 具体的には,新しいConv-SSMモジュールを紹介する。 Conv-SSMは、畳み込み層の局所的特徴抽出能力と、長距離依存を捉えるSSMの機能を組み合わせることで、異なるモダリティで医療画像のモデリングを行う。 MedMambaの可能性を実証するために、我々は14の公開医療データセットと2つのプライベートデータセットを用いて広範囲にわたる実験を行った。 その結果,MedMambaは様々な医用画像の病変の検出に有効であることが示唆された。 私たちの知る限りでは、Vision Mambaは医療画像分類用に作られた最初のVision Mambaだ。 本研究の目的は、医用画像分類タスクの新たなベースラインを確立し、より効率的で効率的なSSMベースの人工知能アルゴリズムと医療応用システムの開発に有用な洞察を提供することである。 ソースコードはhttps://github.com/YubiaoYue/MedMamba.comで公開されている。

Medical image classification is a very fundamental and crucial task in the field of computer vision. These years, CNN-based and Transformer-based models have been widely used to classify various medical images. Unfortunately, The limitation of CNNs in long-range modeling capabilities prevents them from effectively extracting features in medical images, while Transformers are hampered by their quadratic computational complexity. Recent research has shown that the state space model (SSM) represented by Mamba can efficiently model long-range interactions while maintaining linear computational complexity. Inspired by this, we propose Vision Mamba for medical image classification (MedMamba). More specifically, we introduce a novel Conv-SSM module. Conv-SSM combines the local feature extraction ability of convolutional layers with the ability of SSM to capture long-range dependency, thereby modeling medical images with different modalities. To demonstrate the potential of MedMamba, we conducted extensive experiments using 14 publicly available medical datasets with different imaging techniques and two private datasets built by ourselves. Extensive experimental results demonstrate that the proposed MedMamba performs well in detecting lesions in various medical images. To the best of our knowledge, this is the first Vision Mamba tailored for medical image classification. The purpose of this work is to establish a new baseline for medical image classification tasks and provide valuable insights for the future development of more efficient and effective SSM-based artificial intelligence algorithms and application systems in the medical. Source code has been available at https://github.com/YubiaoYue/MedMamba.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# Few-Shotナレッジグラフ補完のための不確実性を考慮した関係グラフニューラルネットワーク

Uncertainty-Aware Relational Graph Neural Network for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2403.04521v2 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Yinjia Chen, Cheng Ji, Jiawei Sheng, Jianxin Li, (参考訳) FKGC (Few-shot Knowledge Graph completion) は、少数の参照エンティティ対を考えると、関係の見えない事実を問うことを目的としている。 エンティティやトリプルの不確実性によるノイズの副作用は、数発の学習を制限する可能性があるが、既存のFKGCはそのような不確実性を無視しており、ノイズのある限られた参照サンプルにより影響を受けやすい。 本稿では,ガウス分布下での学習表現による限られたデータの理解を深めるために,不確実性をモデル化するための新しい不確実性対応小ショットKG補完フレームワーク(UFKGC)を提案する。 不確実性表現は、特徴表現をガウス分布に転送した後、エンティティペアの不確実性の範囲を推定するために最初に設計される。 さらに,近隣住民と実体特性の不確実性特性をよりよく統合するため,ガウス分布間の畳み込み操作を行うために,不確実性を考慮した関係グラフニューラルネットワーク(UR-GNN)を設計する。 次に、ガウス分布内の参照トリプルに対して複数のランダムサンプリングを行い、最適化中にスムーズな参照表現を生成する。 各クエリインスタンスの最終的な完了スコアは、設計した不確実性最適化によって測定され、いくつかのシナリオにおけるノイズに対するアプローチをより堅牢にします。 実験の結果,提案手法は2つのベンチマークデータセットに対して,競合相手と比較して優れた性能を示すことがわかった。

Few-shot knowledge graph completion (FKGC) aims to query the unseen facts of a relation given its few-shot reference entity pairs. The side effect of noises due to the uncertainty of entities and triples may limit the few-shot learning, but existing FKGC works neglect such uncertainty, which leads them more susceptible to limited reference samples with noises. In this paper, we propose a novel uncertainty-aware few-shot KG completion framework (UFKGC) to model uncertainty for a better understanding of the limited data by learning representations under Gaussian distribution. Uncertainty representation is first designed for estimating the uncertainty scope of the entity pairs after transferring feature representations into a Gaussian distribution. Further, to better integrate the neighbors with uncertainty characteristics for entity features, we design an uncertainty-aware relational graph neural network (UR-GNN) to conduct convolution operations between the Gaussian distributions. Then, multiple random samplings are conducted for reference triples within the Gaussian distribution to generate smooth reference representations during the optimization. The final completion score for each query instance is measured by the designed uncertainty optimization to make our approach more robust to the noises in few-shot scenarios. Experimental results show that our approach achieves excellent performance on two benchmark datasets compared to its competitors.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# スケーリング法則の謎を解き明かす:パート1

Unraveling the Mystery of Scaling Laws: Part I ( http://arxiv.org/abs/2403.06563v2 )

ライセンス: Link先を確認
Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai, (参考訳) 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。 これらの原則はモデル事前学習の様々な側面を最適化する上で重要な役割を担い、最終的にGPT-4、Llama、Geminiといった大規模言語モデルの成功に寄与する。 しかし、OpenAIの当初のスケーリング法論文は、正確なスケーリング法則を導出するために必要な完全な詳細を明らかにしておらず、その結論は15億のパラメータを含むモデルのみに基づいている。 その後の研究では、これらの詳細を明らかにして、より大きなモデルにスケールしようとするが、学習率、コンテキスト長、バッチサイズといった重要な要素のトレーニング依存性を無視することが多く、テスト損失軌跡を予測するための信頼性の高い公式の確立に失敗した。 本稿では,従来のOpenAI論文で提案されたスケーリング法則の定式化が,モデルサイズを最大33億までスケールする場合においても有効であることが確認されるが,これらの公式の定数係数は実験装置によって大きく異なる。 1M~60Mのパラメータしか持たないモデルでトレーニングすることで,有効な因子を慎重に同定し,拡張法則の全ての定数項を推定するための透過的,ステップバイステップの指示を与える。 これらの推定式を用いて,(1)最小限のテスト損失の最小化,(2)特定の損失を達成するために必要な最小限のトレーニングステップと処理トークン,(3)任意の損失値で最適時間/計算トレードオフを持つクリティカルバッチサイズ,(4)任意のバッチサイズを持つ完全テスト損失軌跡など,トレーニング前に最大33Bパラメータのモデルに対して,様々な属性を正確に予測する能力を示す。

Scaling law principles indicate a power-law correlation between loss and variables such as model size, dataset size, and computational resources utilized during training. These principles play a vital role in optimizing various aspects of model pre-training, ultimately contributing to the success of large language models such as GPT-4, Llama and Gemini. However, the original scaling law paper by OpenAI did not disclose the complete details necessary to derive the precise scaling law formulas, and their conclusions are only based on models containing up to 1.5 billion parameters. Though some subsequent works attempt to unveil these details and scale to larger models, they often neglect the training dependency of important factors such as the learning rate, context length and batch size, leading to their failure to establish a reliable formula for predicting the test loss trajectory. In this technical report, we confirm that the scaling law formulations proposed in the original OpenAI paper remain valid when scaling the model size up to 33 billion, but the constant coefficients in these formulas vary significantly with the experiment setup. We meticulously identify influential factors and provide transparent, step-by-step instructions to estimate all constant terms in scaling-law formulas by training on models with only 1M~60M parameters. Using these estimated formulas, we showcase the capability to accurately predict various attributes for models with up to 33B parameters before their training, including (1) the minimum possible test loss; (2) the minimum required training steps and processed tokens to achieve a specific loss; (3) the critical batch size with an optimal time/computation trade-off at any loss value; and (4) the complete test loss trajectory with arbitrary batch size.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# アフリカにおける砂漠ロカスト繁殖地予測のための地理空間的アプローチ

A Geospatial Approach to Predicting Desert Locust Breeding Grounds in Africa ( http://arxiv.org/abs/2403.06860v2 )

ライセンス: Link先を確認
Ibrahim Salihu Yusuf, Mukhtar Opeyemi Yusuf, Kobby Panford-Quainoo, Arnu Pretorius, (参考訳) 砂漠のロカスト群れは農業と食料安全保障に大きな脅威をもたらす。 この課題に対処するため,本研究では,早期警戒システムと目標制御対策を強化する可能性を秘めた,ロカスト繁殖地を予測できる操作可能なモデルを開発した。 国連食糧農業機関(UN-FAO)のロカスト観測記録から得られたデータセットを収集し、リモートセンシングされた環境・気候データとマルチスペクトル地球観測画像の2種類の時空間入力特徴を用いて分析した。 Jakubikらによって最近リリースされたPrithviとともに、カスタムディープラーニングモデル(3次元およびLSTMに基づく再帰的畳み込みネットワーク)を採用した。 これらのモデルはプリスヴィベースのモデルで、NASAのハーモナイズド・ランドサットとセンチネル2(HLS)データセットのマルチスペクトル画像を微調整し、最高精度のF1とROC-AUCスコア(83.03%、81.53%、87.69%)を達成した。 本研究から得られた重要な発見は,マルチスペクトル地球観測画像だけでは,気候や環境の特徴を明示的に組み込む必要がなく,効果的な地中繁殖予測に十分であるということである。

Desert locust swarms present a major threat to agriculture and food security. Addressing this challenge, our study develops an operationally-ready model for predicting locust breeding grounds, which has the potential to enhance early warning systems and targeted control measures. We curated a dataset from the United Nations Food and Agriculture Organization's (UN-FAO) locust observation records and analyzed it using two types of spatio-temporal input features: remotely-sensed environmental and climate data as well as multi-spectral earth observation images. Our approach employed custom deep learning models (three-dimensional and LSTM-based recurrent convolutional networks), along with the geospatial foundational model Prithvi recently released by Jakubik et al., 2023. These models notably outperformed existing baselines, with the Prithvi-based model, fine-tuned on multi-spectral images from NASA's Harmonized Landsat and Sentinel-2 (HLS) dataset, achieving the highest accuracy, F1 and ROC-AUC scores (83.03%, 81.53% and 87.69%, respectively). A significant finding from our research is that multi-spectral earth observation images alone are sufficient for effective locust breeding ground prediction without the need to explicitly incorporate climatic or environmental features.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# ワークロード制約のある複数のエキスパートに対処するためのコスト感的な学習

Cost-Sensitive Learning to Defer to Multiple Experts with Workload Constraints ( http://arxiv.org/abs/2403.06906v2 )

ライセンス: Link先を確認
Jean V. Alves, Diogo Leitão, Sérgio Jesus, Marco O. P. Sampaio, Javier Liébana, Pedro Saleiro, Mário A. T. Figueiredo, Pedro Bizarro, (参考訳) L2D(Learning to Defer)は、ML分類器よりも正確である可能性が高いときに、人間に意思決定を延期する方法を学ぶことによって、人間とAIのコラボレーションシステムを改善することを目的としている。 L2Dの既存の研究は、現実のシステムにおいて、その実践的採用を妨げる重要な側面を見落としている。 一 タイプ1及びタイプ2のエラーが異なるコストのかかる費用に敏感なシナリオを無視すること。 二 訓練データセットのすべての事例に同時人為的な予測を必要とすること。 三 人間の労働力の制限に対処しないこと。 これらの問題に対処するため、コストとキャパシティ制約の枠組み(DeCCaF)を提案する。 DeCCaFは新しいL2Dアプローチであり、教師付き学習を用いて、制約の少ないデータ要件(インスタンス毎に1つの専門家予測のみ)下でのヒューマンエラーの確率をモデル化し、制約プログラミングを使用して、ワークロード制限によるエラーコストを世界規模で最小化する。 そこで我々は,DeCCaFを,9人の総合詐欺分析家の異なるチームを対象に,作業能力に制約のある一連のコスト感受性詐欺検出シナリオで検証した。 その結果,提案手法は幅広いシナリオのベースラインよりも優れた性能を示し,誤分類コストの平均8.4%削減を実現している。

Learning to defer (L2D) aims to improve human-AI collaboration systems by learning how to defer decisions to humans when they are more likely to be correct than an ML classifier. Existing research in L2D overlooks key aspects of real-world systems that impede its practical adoption, namely: i) neglecting cost-sensitive scenarios, where type 1 and type 2 errors have different costs; ii) requiring concurrent human predictions for every instance of the training dataset and iii) not dealing with human work capacity constraints. To address these issues, we propose the deferral under cost and capacity constraints framework (DeCCaF). DeCCaF is a novel L2D approach, employing supervised learning to model the probability of human error under less restrictive data requirements (only one expert prediction per instance) and using constraint programming to globally minimize the error cost subject to workload limitations. We test DeCCaF in a series of cost-sensitive fraud detection scenarios with different teams of 9 synthetic fraud analysts, with individual work capacity constraints. The results demonstrate that our approach performs significantly better than the baselines in a wide array of scenarios, achieving an average 8.4% reduction in the misclassification cost.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# ハイブリッド符号付き圧力関数によるアクティブ輪郭モデル

An Active Contour Model Driven By the Hybrid Signed Pressure Function ( http://arxiv.org/abs/2403.07570v2 )

ライセンス: Link先を確認
Jing Zhao, (参考訳) 撮像装置や複雑な撮像環境の影響により、日常生活のほとんどの画像は強度不均一性とノイズの特徴を持っている。 そのため、多くの研究者がこれらの問題に対処するために多くの画像分割アルゴリズムを設計している。 このうち, アクティブな輪郭モデルが最も有効な画像分割アルゴリズムの1つである。本稿では, グローバルな情報とローカルな情報構造を組み合わせたハイブリッド符号付き圧力関数によって駆動される, アクティブな輪郭モデルを提案する。 まず、曲線の内および外領域の平均強度と、進化曲線の内領域の中央強度とを組み合わせて、新しい大域的領域に基づく符号付き圧力関数を導入する。 そこで本論文では, 局所領域における曲線の内外領域間のエネルギー差を利用して, 局所項の符号付き圧力関数を設計する。 2つのSPF関数を組み合わせて、新しい符号付き圧力関数を取得し、新しいモデルの進化方程式を得る。 最後に、実験と数値解析により、このモデルが強度不均一画像と雑音画像の両方に対して優れたセグメンテーション性能を有することを示す。

Due to the influence of imaging equipment and complex imaging environments, most images in daily life have features of intensity inhomogeneity and noise. Therefore, many scholars have designed many image segmentation algorithms to address these issues. Among them, the active contour model is one of the most effective image segmentation algorithms.This paper proposes an active contour model driven by the hybrid signed pressure function that combines global and local information construction. Firstly, a new global region-based signed pressure function is introduced by combining the average intensity of the inner and outer regions of the curve with the median intensity of the inner region of the evolution curve. Then, the paper uses the energy differences between the inner and outer regions of the curve in the local region to design the signed pressure function of the local term. Combine the two SPF function to obtain a new signed pressure function and get the evolution equation of the new model. Finally, experiments and numerical analysis show that the model has excellent segmentation performance for both intensity inhomogeneous images and noisy images.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# ドメイン適応のためのフーリエ変換フレームワーク

A Fourier Transform Framework for Domain Adaptation ( http://arxiv.org/abs/2403.07798v2 )

ライセンス: Link先を確認
Le Luo, Bingrong Xu, Qingyong Zhang, Cheng Lian, Jie Luo, (参考訳) 教師なしドメイン適応(UDA)を使用することで、知識をラベル豊富なソースドメインから、関連する情報を含むがラベルを持たないターゲットドメインに転送することができる。 既存のUDAアルゴリズムの多くは、生画像を直接入力として使用することに悩まされており、結果として冗長な情報に過度にフォーカスし、一般化能力に乏しいモデルとなっている。 この問題に対処するために、フーリエ法(FTF)を用いて教師なし領域適応の性能改善を試みる。 具体的には、FTFは、主に低レベル統計情報を保存しているフーリエスペクトルの振幅にインスパイアされている。 FTFでは、フーリエ領域内の両方の領域の振幅を拡散することにより、ターゲットドメインからの低レベル情報をソースドメインに効果的に組み込む。 さらに、画像のバッチから特徴を抽出することで、タスクに関連するクラス固有の特徴を保持しながら冗長な情報を排除できることが観察された。 この観測に基づいて、初めてデータストリームレベルでフーリエ変換を適用する。 複数のデータソースをアライメントするために,相関アライメントの概念を導入する。 提案手法の有効性を評価するため,Office-31,Office-Home,ImageCLEF-DA,Office-Caltechの4つのベンチマークデータセットを用いて評価を行った。 我々の結果は優れた性能を示している。

By using unsupervised domain adaptation (UDA), knowledge can be transferred from a label-rich source domain to a target domain that contains relevant information but lacks labels. Many existing UDA algorithms suffer from directly using raw images as input, resulting in models that overly focus on redundant information and exhibit poor generalization capability. To address this issue, we attempt to improve the performance of unsupervised domain adaptation by employing the Fourier method (FTF).Specifically, FTF is inspired by the amplitude of Fourier spectra, which primarily preserves low-level statistical information. In FTF, we effectively incorporate low-level information from the target domain into the source domain by fusing the amplitudes of both domains in the Fourier domain. Additionally, we observe that extracting features from batches of images can eliminate redundant information while retaining class-specific features relevant to the task. Building upon this observation, we apply the Fourier Transform at the data stream level for the first time. To further align multiple sources of data, we introduce the concept of correlation alignment. To evaluate the effectiveness of our FTF method, we conducted evaluations on four benchmark datasets for domain adaptation, including Office-31, Office-Home, ImageCLEF-DA, and Office-Caltech. Our results demonstrate superior performance.
翻訳日:2024-03-22 18:48:21 公開日:2024-03-21
# BiTT:2方向のテクスチャ再構築

BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image ( http://arxiv.org/abs/2403.08262v2 )

ライセンス: Link先を確認
Minje Kim, Tae-Kyun Kim, (参考訳) パーソナライズされたハンドアバターを作ることは、AR/VRプラットフォーム上のユーザに現実的な体験を提供することが重要です。 従来の研究は3次元手形状の再構築に重点を置いていたが、近年の研究では形状上の手形状の再構築に取り組んできた。 しかし、これらの手法は手の見える側のピクセルを捉えることに制限されることが多く、ビデオや複数の画像を入力として手の動きを多様に見る必要がある。 本稿では,1枚のRGB画像のみを取り入れた2つのインタラクションハンドの2つのテクスチャ再構築を,3つの新しいコンポーネントで実現した,最初のエンドツーエンドのトレーニング可能な手法であるBiTT(Bi-directional Texture Restruction of Two Hand)を提案する。 1)左右手のテクスチャ対称性を用いた双方向(左$\leftrightarrow$ right)テクスチャ再構成 2手触覚回復のためのテクスチャパラメトリックモデルの利用、及び 3)2つの相互作用する手のテクスチャをパーソナライズする全体的粗大なステージパイプライン。 BiTTは、まず、入力画像からシーン光条件とアルベド画像を推定し、その後、テクスチャパラメトリックモデルと双方向テクスチャコンストラクタを通して両手のテクスチャを再構成する。 In experiment using InterHand2.6M and RGB2Hands datasets, we method significantlyforms state-of-the-the-art hand texture reconstruction methods quantitatively and qualitatively。 コードはhttps://github.com/yunminjin2/BiTTで入手できる。

Creating personalized hand avatars is important to offer a realistic experience to users on AR / VR platforms. While most prior studies focused on reconstructing 3D hand shapes, some recent work has tackled the reconstruction of hand textures on top of shapes. However, these methods are often limited to capturing pixels on the visible side of a hand, requiring diverse views of the hand in a video or multiple images as input. In this paper, we propose a novel method, BiTT(Bi-directional Texture reconstruction of Two hands), which is the first end-to-end trainable method for relightable, pose-free texture reconstruction of two interacting hands taking only a single RGB image, by three novel components: 1) bi-directional (left $\leftrightarrow$ right) texture reconstruction using the texture symmetry of left / right hands, 2) utilizing a texture parametric model for hand texture recovery, and 3) the overall coarse-to-fine stage pipeline for reconstructing personalized texture of two interacting hands. BiTT first estimates the scene light condition and albedo image from an input image, then reconstructs the texture of both hands through the texture parametric model and bi-directional texture reconstructor. In experiments using InterHand2.6M and RGB2Hands datasets, our method significantly outperforms state-of-the-art hand texture reconstruction methods quantitatively and qualitatively. The code is available at https://github.com/yunminjin2/BiTT
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 大規模カラーセンター量子プロセッサのための電気インタフェースの最適化

Optimizing the Electrical Interface for Large-Scale Color-Center Quantum Processors ( http://arxiv.org/abs/2403.09526v2 )

ライセンス: Link先を確認
Luc Enthoven, Masoud Babaie, Fabio Sebastiano, (参考訳) ダイヤモンドのカラーセンタに基づく量子プロセッサは、フレキシブルな光インターフェース、(比較的)高い動作温度、高忠実度操作のおかげで、将来の大規模量子コンピュータの候補として期待されている。 他の量子コンピューティングプラットフォームと同様に、そのような量子ビットを制御して読み出すために必要な電気インターフェースは、システム全体の性能とスケーラビリティの両方を制限する可能性がある。 この課題に対処するために、電気インターフェースの要件を分析し、多数の同一単位セルからなるスケーラブルなアーキテクチャにおいて、電子コントローラを効率的に実装する方法を検討する。 様々な論じられた機能の中で、電子と核スピンを駆動する静磁場と動的磁場の生成に特に焦点が当てられている。 導出要求に従うと、キュービット周波数多重化方式のような異なるシステムアーキテクチャは、特にプロセッサ全体のキュービットラーモア周波数の不均一性の存在において、最も電力効率のよいアプローチを識別すると考えられる。 その結果,3mWの平均消費電力で最大1個の電子スピン量子ビットと9個の原子スピン量子ビットに対処できる1-mm$^2$単位セルアーキテクチャを最適解として提案した。

Quantum processors based on color centers in diamond are promising candidates for future large-scale quantum computers thanks to their flexible optical interface, (relatively) high operating temperature, and high-fidelity operation. Similar to other quantum-computing platforms, the electrical interface required to control and read out such qubits may limit both the performance of the whole system and its scalability. To address this challenge, this work analyzes the requirements of the electrical interface and investigates how to efficiently implement the electronic controller in a scalable architecture comprising a large number of identical unit cells. Among the different discussed functionalities, a specific focus is devoted to the generation of the static and dynamic magnetic fields driving the electron and nuclear spins, because of their major impact on fidelity and scalability. Following the derived requirements, different system architectures, such as a qubit frequency-multiplexing scheme, are considered to identify the most power efficient approach, especially in the presence of inhomogeneity of the qubit Larmor frequency across the processor. As a result, a non-frequency-multiplexed, 1-mm$^2$ unit-cell architecture is proposed as the optimal solution, able to address up to one electron-spin qubit and 9 nuclear-spin qubits within a 3-mW average power consumption, thus establishing the baseline for the scalable electrical interface for future large-scale color-center quantum computers.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# より少ないもの:ビジュアルインストラクションチューニングのためのデータ値推定

Less is More: Data Value Estimation for Visual Instruction Tuning ( http://arxiv.org/abs/2403.09559v2 )

ライセンス: Link先を確認
Zikang Liu, Kun Zhou, Wayne Xin Zhao, Dawei Gao, Yaliang Li, Ji-Rong Wen, (参考訳) 視覚インストラクションチューニングは、視覚シナリオにおける大規模言語モデル(LLM)の推論能力を大幅に向上させるマルチモーダルな大言語モデル(MLLM)を構築するための鍵である。 しかし、既存のMLLMは、訓練のための複数の高度に多様な視覚的命令データセット(100万以上の命令)の混合に依存しており、データ冗長性をもたらす可能性がある。 そこで本研究では,視覚的命令データセットに有意な冗長性を示す一連の経験的研究を行い,複数の命令データセットの量を著しく削減しても性能に影響を与えないことを示す。 そこで本研究では,視覚的インストラクションデータの冗長性を解消するため,新たなデータ選択手法であるTIVEを提案する。 TIVEはまず、計算された勾配に基づいて視覚命令のタスクレベルとインスタンスレベルを推定する。 そして、推定値に従って、TIVEは視覚命令内のタスク比率を決定し、代表インスタンスを選択して、トレーニング用のより小さな視覚命令サブセットを構成する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチは、7つのベンチマークにまたがるフルデータ微調整モデルと同等のパフォーマンスを達成できる。 コードとデータは公開されます。

Visual instruction tuning is the key to building multimodal large language models (MLLMs), which greatly improves the reasoning capabilities of large language models (LLMs) in vision scenario. However, existing MLLMs mostly rely on a mixture of multiple highly diverse visual instruction datasets for training (even more than a million instructions), which may introduce data redundancy. To investigate this issue, we conduct a series of empirical studies, which reveal a significant redundancy within the visual instruction datasets, and show that greatly reducing the amount of several instruction dataset even do not affect the performance. Based on the findings, we propose a new data selection approach TIVE, to eliminate redundancy within visual instruction data. TIVE first estimates the task-level and instance-level value of the visual instructions based on computed gradients. Then, according to the estimated values, TIVE determines the task proportion within the visual instructions, and selects representative instances to compose a smaller visual instruction subset for training. Experiments on LLaVA-1.5 show that our approach using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks. Our code and data will be publicly released.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 対称性に保護された非アベリア統計を持つパラフェルミオン

Parafermions with symmetry-protected non-Abelian statistics ( http://arxiv.org/abs/2403.09602v2 )

ライセンス: Link先を確認
Jian-Song Hong, Su-Qi Zhang, Xin Liu, Xiong-Jun Liu, (参考訳) 非アベリア・エノンは、エキゾチックな非アベリア統計に従うことと、フォールトトレラント量子コンピューティングへの潜在的な応用について、広範囲に注意を払っている。 以前の研究では、対称性の保護を必要としない非アベリア統計に主に焦点が当てられていたが、近年の進歩により、対称性が重要な役割を担い、対称性に保護された非アベリア統計(SPNA)の概念をもたらすことが示されている。 本研究では、SPNA統計学の概念をパラフェミオンゼロモード(PZM)をホストする強相関系に拡張する。 この研究は、ここで証明されたいくつかの基本的な結果を含んでいる。 まず、PZMを局所結合から保護する一般ユニタリ対称性機構を公表する。 この対称性の保護により、PZMは2つの非自明なセクターに分類でき、それぞれがそれぞれのパリティ保存を維持している。 最後に、各セクターのパリティ保存と実効ブレイディングハミルトニアンの一般的な性質を活用して、PZMが本質的にSPNA統計に従うことを厳密に証明する。 結果をさらに確認するため,三接合におけるブレイディング行列を導出する。 また、ミラー対称性で保護され、一般的な理論を満たす一対のPZMに対応する相関量子ナノワイヤモデルを提案する。 この研究は、分数的なSPNA準粒子をホストし、交換ダイナミクスを管理する対称性に関連する基本量子統計学の理解を深めることのできる、強相関系の幅広いスペクトルを示す。

Non-Abelian anyons have garnered extensive attention for obeying exotic non-Abelian statistics and having potential applications to fault-tolerant quantum computing. While the prior research has predominantly focused on non-Abelian statistics without the necessity of symmetry protection, recent progresses have shown that symmetries can play essential roles and bring a notion of the symmetry-protected non-Abelian (SPNA) statistics. In this work, we extend the concept of SPNA statistics to strongly-correlated systems which host parafermion zero modes (PZMs). This study involves a few fundamental results proved here. First, we unveil a generic unitary symmetry mechanism that protects PZMs from local couplings. Then, with this symmetry protection, the PZMs can be categorized into two nontrivial sectors, each maintaining its own parity conservation, even though the whole system cannot be dismantled into separate subsystems due to nonlinear interactions. Finally, by leveraging the parity conservation of each sector and the general properties of the effective braiding Hamiltonian, we prove rigorously that the PZMs intrinsically obey SPNA statistics. To further confirm the results, we derive the braiding matrix at a tri-junction. We also propose a correlated quantum nanowire model that accommodates a pair of PZMs protected by mirror symmetry and satisfying the generic theory. This work shows a broad spectrum of strongly-correlated systems capable of hosting fractional SPNA quasiparticles and enriches our comprehension of fundamental quantum statistics linked to the symmetries that govern the exchange dynamics.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 量子ビット上のすべての非互換な測定は、多粒子ベル非局所性をもたらす

All incompatible measurements on qubits lead to multiparticle Bell nonlocality ( http://arxiv.org/abs/2403.10564v2 )

ライセンス: Link先を確認
Martin Plávala, Otfried Gühne, Marco Túlio Quintino, (参考訳) ベル非局所性(英: Bell nonlocality)は、量子物理学の基本的な現象であり、量子情報処理における様々なタスクに不可欠な資源である。 非局所性の観測のためには、量子系の測定は相容れない必要があることが知られているが、相容れない測定が有用であるかどうかという問題は未解決のままである。 ここでは、量子ビット上の任意の非互換な測定セットが、すべての当事者が同じ測定セットを実行する多粒子シナリオにおいて、適切なベル不等式に違反することを示す。 二つの粒子のベル非局所性に繋がらない量子ビット上では不整合性の測定結果が存在するため,この結果から,2粒子と多粒子非局所性の基本的な相違が示され,測定不整合性が資源として過剰に活性化されることが示唆された。 さらに,本研究の結果から,量子ビットの計測不整合性が常にデバイスに依存しない方法で証明できることが示唆された。

Bell nonlocality is a fundamental phenomenon of quantum physics as well as an essential resource for various tasks in quantum information processing. It is known that for the observation of nonlocality the measurements on a quantum system have to be incompatible, but the question which incompatible measurements are useful, remained open. Here we prove that any set of incompatible measurements on qubits leads to a violation of a suitable Bell inequality in a multiparticle scenario, where all parties perform the same set of measurements. Since there exists incompatible measurements on qubits which do not lead to Bell nonlocality for two particles, our results demonstrate a fundamental difference between two-particle and multi-particle nonlocality, pointing at the superactivation of measurement incompatibility as a resource. In addition, our results imply that measurement incompatibility for qubits can always be certified in a device-independent manner.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 多言語大言語モデルに対する言語拡張の最適化:韓国語を事例として

Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean ( http://arxiv.org/abs/2403.10882v2 )

ライセンス: Link先を確認
ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim, (参考訳) 大規模言語モデル (LLM) は、事前学習を用いてその後の単語を予測するが、その拡張にはかなりの計算資源が必要である。 多くの大手テック企業や研究機関が、現在の需要に応えるためにMLLM(Multilingual LLM)を開発し、低リソース言語(LRL)を見下ろしている。 本研究では, 公開されているMLLMをベースとしたLRLの性能向上のための3つの手法を提案する。 まず、LRLのMLLM語彙を拡張して表現性を高めた。 第二に、バイリンガルデータを事前トレーニングに使用して、高レベルの言語と低レベルの言語を調整した。 第三に、高品質の小型命令データセットを構築し、LRLを増強するために命令チューニングを行った。 実験ではLlama2モデルを使用し、韓国はLRLとして用いられ、8つのタスクで他のLLMに対して定量的に評価された。 また,人体評価とGPT4に基づいて定性評価を行った。 実験結果から,提案したBllossomモデルは韓国語単言語モデルと比較して定性解析において優れた性能を示した。

Large language models (LLMs) use pretraining to predict the subsequent word; however, their expansion requires significant computing resources. Numerous big tech companies and research institutes have developed multilingual LLMs (MLLMs) to meet current demands, overlooking less-resourced languages (LRLs). This study proposed three strategies to enhance the performance of LRLs based on the publicly available MLLMs. First, the MLLM vocabularies of LRLs were expanded to enhance expressiveness. Second, bilingual data were used for pretraining to align the high- and less-resourced languages. Third, a high-quality small-scale instruction dataset was constructed and instruction-tuning was performed to augment the LRL. The experiments employed the Llama2 model and Korean was used as the LRL, which was quantitatively evaluated against other developed LLMs across eight tasks. Furthermore, a qualitative assessment was performed based on human evaluation and GPT4. Experimental results showed that our proposed Bllossom model exhibited superior performance in qualitative analyses compared to previously proposed Korean monolingual models.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# m&m's: マルチステップマルチモーダルタスクのためのツール利用評価ベンチマーク

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks ( http://arxiv.org/abs/2403.11085v3 )

ライセンス: Link先を確認
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna, (参考訳) 実世界のマルチモーダル問題は、単一の機械学習モデルではほとんど解決されず、しばしば複数のモデルを縫合する多段階の計算計画を必要とする。 ツール拡張 LLM は、そのような計算計画の自動生成に非常に有望である。 しかし、マルチステップマルチモーダルタスクのプランナーとしてLLMを評価するための標準ベンチマークが欠如していることは、プランナー設計決定の体系的な研究を妨げている。 LLMは、ひとつのショットで完全なプランを生成するべきか、ステップバイステップで生成すべきか? ツールを直接PythonコードやJSONのような構造化データフォーマットで呼び出すべきか? フィードバックは計画を改善するか? マルチモーダルモデル、(無料)パブリックAPI、画像処理モジュールを含む33のツールを含む4K以上のマルチモーダルタスクを含むベンチマーク。 これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。 我々はさらに,人間による検証と正確な実行が可能な,1,565のタスクプランの高品質なサブセットを提供する。 m&mでは,2つの計画戦略(複数ステップ対ステップバイステッププランニング),2つの計画形式(JSON対コード),3種類のフィードバック(パーシング/検証/実行)を備えた6つのLLMを評価した。 最後に、我々の広範な実験の要点を要約する。 私たちのデータセットとコードは、HuggingFace (https://huggingface.co/datasets/zixianma/mnms)とGithub (https://github.com/RAIVNLab/mnms)で利用可能です。

Real-world multi-modal problems are rarely solved by a single machine learning model, and often require multi-step computational plans that involve stitching several models. Tool-augmented LLMs hold tremendous promise for automating the generation of such computational plans. However, the lack of standardized benchmarks for evaluating LLMs as planners for multi-step multi-modal tasks has prevented a systematic study of planner design decisions. Should LLMs generate a full plan in a single shot or step-by-step? Should they invoke tools directly with Python code or through structured data formats like JSON? Does feedback improve planning? To answer these questions and more, we introduce m&m's: a benchmark containing 4K+ multi-step multi-modal tasks involving 33 tools that include multi-modal models, (free) public APIs, and image processing modules. For each of these task queries, we provide automatically generated plans using this realistic toolset. We further provide a high-quality subset of 1,565 task plans that are human-verified and correctly executable. With m&m's, we evaluate 6 popular LLMs with 2 planning strategies (multi-step vs. step-by-step planning), 2 plan formats (JSON vs. code), and 3 types of feedback (parsing/verification/execution). Finally, we summarize takeaways from our extensive experiments. Our dataset and code are available on HuggingFace (https://huggingface.co/datasets/zixianma/mnms) and Github (https://github.com/RAIVNLab/mnms).
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 単相多面体融合による情緒的偏見の予測

Unimodal Multi-Task Fusion for Emotional Mimicry Prediciton ( http://arxiv.org/abs/2403.11879v2 )

ライセンス: Link先を確認
Tobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André, (参考訳) 本研究では,第6回ワークショップおよび感情行動分析コンペティションにおける情緒的不安度(EMI)推定の方法論を提案する。 提案手法では,包括的ポッドキャストデータセットで事前学習したWav2Vec 2.0フレームワークを利用して,言語的およびパラ言語的要素を含む幅広い音声特徴を抽出する。 我々は,グローバルな平均ベクトルと個々の特徴を統合する融合手法により特徴表現を強化し,分析にグローバルな文脈的洞察を導入する。 さらに,Wav2Vec 2.0モデルから,事前学習したVAD(valence-arousal-dominance)モジュールを組み込んだ。 我々の融合では、音声データの時間的効率的な分析にLong Short-Term Memory (LSTM) アーキテクチャを採用している。 提案手法は,提供された音声データのみを利用することで,確立されたベースラインよりも大幅に改善されたことを示す。

In this study, we propose a methodology for the Emotional Mimicry Intensity (EMI) Estimation task within the context of the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild. Our approach leverages the Wav2Vec 2.0 framework, pre-trained on a comprehensive podcast dataset, to extract a broad range of audio features encompassing both linguistic and paralinguistic elements. We enhance feature representation through a fusion technique that integrates individual features with a global mean vector, introducing global contextual insights into our analysis. Additionally, we incorporate a pre-trained valence-arousal-dominance (VAD) module from the Wav2Vec 2.0 model. Our fusion employs a Long Short-Term Memory (LSTM) architecture for efficient temporal analysis of audio data. Utilizing only the provided audio data, our approach demonstrates significant improvements over the established baseline.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 医用画像分類のためのディープラーニングモデルの一般化

Generalizing deep learning models for medical image classification ( http://arxiv.org/abs/2403.12167v2 )

ライセンス: Link先を確認
Matta Sarah, Lamard Mathieu, Zhang Philippe, Alexandre Le Guilcher, Laurent Borderie, Béatrice Cochener, Gwenolé Quellec, (参考訳) 多くのDeep Learning(DL)モデルが、医療実践のさまざまな側面を再形成することを約束する医療画像分析アプリケーションのために開発されている。 医療機関がそれを採用することを奨励するDLモデル検証と実装の進歩にもかかわらず、いくつかの根本的な疑問が残る:DLモデルは一般化可能であるか? DLモデルのパフォーマンスが低下する原因は何でしょう? DLモデルのパフォーマンス低下を克服するには? 医療機器のアップデート、新しい画像ワークフロー、患者人口や人口の変化など、複数の要因により、時間とともにこのドリフトが引き起こされるため、医療データは動的でドメインシフトの傾向にある。 本稿では,DLに基づく分類モデルの一般化手法の最近の展開を概観する。 また、評価プロトコルやベンチマークの改善の必要性など今後の課題についても論じ、医用画像分類のための堅牢で一般化されたモデルを実現するための今後の発展を構想する。

Numerous Deep Learning (DL) models have been developed for a large spectrum of medical image analysis applications, which promises to reshape various facets of medical practice. Despite early advances in DL model validation and implementation, which encourage healthcare institutions to adopt them, some fundamental questions remain: are the DL models capable of generalizing? What causes a drop in DL model performances? How to overcome the DL model performance drop? Medical data are dynamic and prone to domain shift, due to multiple factors such as updates to medical equipment, new imaging workflow, and shifts in patient demographics or populations can induce this drift over time. In this paper, we review recent developments in generalization methods for DL-based classification models. We also discuss future challenges, including the need for improved evaluation protocols and benchmarks, and envisioned future developments to achieve robust, generalized models for medical image classification.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# Chain-of-Spot: 対話型推論は大規模視覚言語モデルを改善する

Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models ( http://arxiv.org/abs/2403.12966v2 )

ライセンス: Link先を確認
Zuyan Liu, Yuhao Dong, Yongming Rao, Jie Zhou, Jiwen Lu, (参考訳) 視覚言語理解の領域では、視覚的内容の解釈と推論におけるモデルの習熟度は多くの応用の基盤となっている。 しかし、LVLM(Large Vision-Language Models)における視覚エンコーダは、言語モデルの応答を支援する質問に適した有用な特徴を抽出することが困難である。 さらに、既存のLVLMでは低解像度画像を利用するのが一般的であり、視覚認識の能力を制限する。 本研究は,画像内の関心領域(ROI)に着目して特徴抽出を強化する手法であるInteractive Reasoning (Interactive Reasoning) を,提案した質問や指示に応じて提案するChain-of-Spot(CoS)手法を紹介する。 この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスでき、多彩な画像特徴を提供する。 Chain-of-Spotと命令追従型LLaVA-1.5モデルを統合することで、画像推論のプロセスは、ベルやホイッスルを使わずに、幅広いマルチモーダルデータセットやベンチマークのパフォーマンスを一貫して改善し、新しい最先端の結果を達成する。 実験により,LVLMの視覚的内容の理解と推論能力が向上し,より高度な視覚的指示追従アプリケーションへの道が開けた。 コードとモデルはhttps://github.com/dongyh20/Chain-of-Spotで公開されている。

In the realm of vision-language understanding, the proficiency of models in interpreting and reasoning over visual content has become a cornerstone for numerous applications. However, it is challenging for the visual encoder in Large Vision-Language Models (LVLMs) to extract useful features tailored to questions that aid the language model's response. Furthermore, a common practice among existing LVLMs is to utilize lower-resolution images, which restricts the ability for visual recognition. Our work introduces the Chain-of-Spot (CoS) method, which we describe as Interactive Reasoning, a novel approach that enhances feature extraction by focusing on key regions of interest (ROI) within the image, corresponding to the posed questions or instructions. This technique allows LVLMs to access more detailed visual information without altering the original image resolution, thereby offering multi-granularity image features. By integrating Chain-of-Spot with instruct-following LLaVA-1.5 models, the process of image reasoning consistently improves performance across a wide range of multimodal datasets and benchmarks without bells and whistles and achieves new state-of-the-art results. Our empirical findings demonstrate a significant improvement in LVLMs' ability to understand and reason about visual content, paving the way for more sophisticated visual instruction-following applications. Code and models are available at https://github.com/dongyh20/Chain-of-Spot
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 空間的・時間的整合性規則付き自己監督型クラス非依存動作予測

Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations ( http://arxiv.org/abs/2403.13261v2 )

ライセンス: Link先を確認
Kewei Wang, Yizheng Wu, Jun Cen, Zhiyu Pan, Xingyi Li, Zhe Wang, Zhiguo Cao, Guosheng Lin, (参考訳) 動的環境における運動行動の知覚は自律運転システムにおいて重要な意味を持ち、クラスに依存しない運動予測手法は点群全体の運動を直接予測する。 既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。 そのため、この課題に対処するために、アノテーション効率のよいいくつかの手法が提案されている。 効果はあるものの、これらの手法は弱いアノテーションや画像のような追加のマルチモーダルデータに依存しており、ポイントクラウドシークエンスに固有の潜在的な利点はまだ探索されていない。 この目的のために、未ラベルのLiDAR点雲のみを用いた自己教師あり動作予測の実現可能性について検討する。 当初、我々は、現在と将来の点雲間の粗い対応を粗い擬似動作ラベルとして確立するために最適な輸送解決器を用いていた。 このような粗いラベルを直接使用したトレーニングモデルは、顕著な空間的および時間的予測の不整合をもたらす。 これらの問題を緩和するために,3つの簡易な空間正規化損失と時間正規化損失を導入し,自己指導型トレーニングプロセスを効果的に実現した。 実験により,最先端の自己管理手法に対するアプローチの有意な優位性を示した。

The perception of motion behavior in a dynamic environment holds significant importance for autonomous driving systems, wherein class-agnostic motion prediction methods directly predict the motion of the entire point cloud. While most existing methods rely on fully-supervised learning, the manual labeling of point cloud data is laborious and time-consuming. Therefore, several annotation-efficient methods have been proposed to address this challenge. Although effective, these methods rely on weak annotations or additional multi-modal data like images, and the potential benefits inherent in the point cloud sequence are still underexplored. To this end, we explore the feasibility of self-supervised motion prediction with only unlabeled LiDAR point clouds. Initially, we employ an optimal transport solver to establish coarse correspondences between current and future point clouds as the coarse pseudo motion labels. Training models directly using such coarse labels leads to noticeable spatial and temporal prediction inconsistencies. To mitigate these issues, we introduce three simple spatial and temporal regularization losses, which facilitate the self-supervised training process effectively. Experimental results demonstrate the significant superiority of our approach over the state-of-the-art self-supervised methods.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# MedCycle: サイクル一貫性による障害のない医療レポート生成

MedCycle: Unpaired Medical Report Generation via Cycle-Consistency ( http://arxiv.org/abs/2403.13444v2 )

ライセンス: Link先を確認
Elad Hirsch, Gefen Dawidowicz, Ayellet Tal, (参考訳) X線画像の医療報告を生成することは、特にペア化された画像レポートデータへのアクセスが不可能な未解決のシナリオにおいて、大きな課題となる。 これまでの研究では、画像とレポートの共同埋め込みスペースを学習しており、どちらも特定のラベル付けスキーマを必要とする。 我々は、一貫性のあるラベリングスキーマの必要性を排除し、データアクセシビリティを向上し、非互換なデータセットの使用を可能にする革新的なアプローチを導入する。 このアプローチは、画像埋め込みをレポート埋め込みに変換するサイクル一貫性マッピング関数と、医療報告生成のためのレポート自動エンコーディングに基づいている。 我々のモデルと目的は、画像やレポート内の複雑な局所的詳細と包括的な意味的文脈を考察する。 このアプローチは効果的なマッピング関数の学習を容易にし、コヒーレントなレポートを生成する。 胸部X線所見の発生は、最先端の結果よりも優れており、言語と臨床の両方の指標の改善が示されている。

Generating medical reports for X-ray images presents a significant challenge, particularly in unpaired scenarios where access to paired image-report data for training is unavailable. Previous works have typically learned a joint embedding space for images and reports, necessitating a specific labeling schema for both. We introduce an innovative approach that eliminates the need for consistent labeling schemas, thereby enhancing data accessibility and enabling the use of incompatible datasets. This approach is based on cycle-consistent mapping functions that transform image embeddings into report embeddings, coupled with report auto-encoding for medical report generation. Our model and objectives consider intricate local details and the overarching semantic context within images and reports. This approach facilitates the learning of effective mapping functions, resulting in the generation of coherent reports. It outperforms state-of-the-art results in unpaired chest X-ray report generation, demonstrating improvements in both language and clinical metrics.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# PyVRP:高性能VRP解決パッケージ

PyVRP: a high-performance VRP solver package ( http://arxiv.org/abs/2403.13795v2 )

ライセンス: Link先を確認
Niels A. Wouda, Leon Lan, Wouter Kool, (参考訳) 我々は、最先端の車両ルーティング問題(VRP)解決において、ハイブリッドな遺伝的検索を実装するPythonパッケージであるPyVRPを紹介する。 このパッケージは、時間窓付きVRP(VRPTW)用に設計されているが、他のVRPバージョンをサポートするために容易に拡張できる。 PyVRPは、Pythonレベルで完全にカスタマイズ可能でありながら、アルゴリズムの(唯一の)パフォーマンスクリティカルな部分をC++で実装することで、Pythonの柔軟性とC++のパフォーマンスを兼ね備えている。 PyVRPは、2021年のDIMACS VRPTWチャレンジで1位、改良後、EUROの静的変種であるNeurIPS 2022車両ルーティングコンペティションで1位にランクインしたアルゴリズムの洗練された実装である。 コードは優れたソフトウェアエンジニアリングプラクティスに従っており、文書化され、単体テストされています。 PyVRPはMITライセンス下で無料で利用できる。 数値実験により、PyVRPはVRPTWおよび静電容量VRPの最先端結果が得られることを示す。 PyVRPによって、研究者や実践者が最先端のVRPソルバを簡単かつ迅速に構築できることを願っている。

We introduce PyVRP, a Python package that implements hybrid genetic search in a state-of-the-art vehicle routing problem (VRP) solver. The package is designed for the VRP with time windows (VRPTW), but can be easily extended to support other VRP variants. PyVRP combines the flexibility of Python with the performance of C++, by implementing (only) performance critical parts of the algorithm in C++, while being fully customisable at the Python level. PyVRP is a polished implementation of the algorithm that ranked 1st in the 2021 DIMACS VRPTW challenge and, after improvements, ranked 1st on the static variant of the EURO meets NeurIPS 2022 vehicle routing competition. The code follows good software engineering practices, and is well-documented and unit tested. PyVRP is freely available under the liberal MIT license. Through numerical experiments we show that PyVRP achieves state-of-the-art results on the VRPTW and capacitated VRP. We hope that PyVRP enables researchers and practitioners to easily and quickly build on a state-of-the-art VRP solver.
翻訳日:2024-03-22 18:38:36 公開日:2024-03-21
# 静的および動的プルーニングによるFPGA上のViT推論の高速化

Accelerating ViT Inference on FPGA through Static and Dynamic Pruning ( http://arxiv.org/abs/2403.14047v1 )

ライセンス: Link先を確認
Dhruv Parikh, Shouyi Li, Bingyi Zhang, Rajgopal Kannan, Carl Busart, Viktor Prasanna, (参考訳) 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。 しかし、計算の複雑さが高いため、現実世界の多くのアプリケーションに適用できない。 ウェイトプルーニングはモデルサイズと関連する計算要求を減らし、トークンプルーニングは入力に基づく計算をさらに動的に減らし、ウェイトプルーニングとトークンプルーニングは複雑さを減らすためのよく知られた方法である。 これらの2つの手法を組み合わせることで、計算の複雑さとモデルサイズを大幅に削減できるが、この2つの手法を鼻で統合すると不規則な計算パターンとなり、ハードウェアアクセラレーションの大幅な精度低下と困難が生じる。 上記の課題に対処するため、我々はFPGA上でのViTの高速化を同時に行うための包括的なアルゴリズムハードウェア符号を提案する。 アルゴリズム設計において,モデルパラメータのプルーニングのためのハードウェア対応構造化ブロックプルーニング法と,重要でないトークンベクトルを除去する動的トークンプルーニング法を体系的に組み合わせた。 さらに,モデルの精度を回復するための新しいトレーニングアルゴリズムを設計する。 ハードウェア設計のための新しいハードウェアアクセラレーションを開発した。 提案するハードウェア設計では,2つのプルーニング手法によって導かれる不規則な計算パターンを効率的に処理するために,負荷分散戦略を用いたマルチレベル並列処理を用いる。 さらに、オンザフライトークンプルーニングを効率的に実行するための効率的なハードウェア機構を開発する。

Vision Transformers (ViTs) have achieved state-of-the-art accuracy on various computer vision tasks. However, their high computational complexity prevents them from being applied to many real-world applications. Weight and token pruning are two well-known methods for reducing complexity: weight pruning reduces the model size and associated computational demands, while token pruning further dynamically reduces the computation based on the input. Combining these two techniques should significantly reduce computation complexity and model size; however, naively integrating them results in irregular computation patterns, leading to significant accuracy drops and difficulties in hardware acceleration. Addressing the above challenges, we propose a comprehensive algorithm-hardware codesign for accelerating ViT on FPGA through simultaneous pruning -combining static weight pruning and dynamic token pruning. For algorithm design, we systematically combine a hardware-aware structured block-pruning method for pruning model parameters and a dynamic token pruning method for removing unimportant token vectors. Moreover, we design a novel training algorithm to recover the model's accuracy. For hardware design, we develop a novel hardware accelerator for executing the pruned model. The proposed hardware design employs multi-level parallelism with load balancing strategy to efficiently deal with the irregular computation pattern led by the two pruning approaches. Moreover, we develop an efficient hardware mechanism for efficiently executing the on-the-fly token pruning.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-21
# The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and New Data

The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data ( http://arxiv.org/abs/2403.14048v1 )

ライセンス: Link先を確認
Alice Baird, Rachel Manzelli, Panagiotis Tzirakis, Chris Gagne, Haoqi Li, Sadie Allen, Sander Dieleman, Brian Kulis, Shrikanth S. Narayanan, Alan Cowen, (参考訳) NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。 音声感情認識から音声イベント検出まで、音声駆動のMLタスクはいくつかあるが、コミュニティはコンピュータビジョンや自然言語処理など、他のML領域と比べて疎い。 オーディオは時間依存のモダリティであり、高品質なデータ収集は時間と費用がかかるため、学術グループがしばしば最先端の戦略をより大きく、より一般化可能なデータセットに適用することは困難である。 この短いホワイトペーパーでは、大規模なデータセットへのアクセスが限られている研究者を奨励するため、主催者はまず、コミュニティで利用可能ないくつかのオープンソースデータセットを概説し、ワークショップの期間中にいくつかのプロプライエティデータセットを利用可能にしている。 すなわち、3つの音声データセット、Hume-Prosody、Hume-VocalBurst、行動的な感情的音声データセットModulate-Sonata、ゲーム内のストリームデータセットModulate-Streamである。 これらのデータセットの現在のベースラインを概説するが、初期のベースラインタスク以外では、オーディオ全体からの研究者の活用を奨励する。

The NeurIPS 2023 Machine Learning for Audio Workshop brings together machine learning (ML) experts from various audio domains. There are several valuable audio-driven ML tasks, from speech emotion recognition to audio event detection, but the community is sparse compared to other ML areas, e.g., computer vision or natural language processing. A major limitation with audio is the available data; with audio being a time-dependent modality, high-quality data collection is time-consuming and costly, making it challenging for academic groups to apply their often state-of-the-art strategies to a larger, more generalizable dataset. In this short white paper, to encourage researchers with limited access to large-datasets, the organizers first outline several open-source datasets that are available to the community, and for the duration of the workshop are making several propriety datasets available. Namely, three vocal datasets, Hume-Prosody, Hume-VocalBurst, an acted emotional speech dataset Modulate-Sonata, and an in-game streamer dataset Modulate-Stream. We outline the current baselines on these datasets but encourage researchers from across audio to utilize them outside of the initial baseline tasks.
翻訳日:2024-03-22 17:49:40 公開日:2024-03-21
# 自動制御ロボットシステムに向けたロードマップ

A Roadmap Towards Automated and Regulated Robotic Systems ( http://arxiv.org/abs/2403.14049v1 )

ライセンス: Link先を確認
Yihao Liu, Mehran Armand, (参考訳) 生成技術の急速な発展により、より高度な自動化が可能となり、ロボットシステムにおける人工知能(AI)の実施が差し迫っている。 しかし、生成技術のブラックボックス性のため、特に動的環境や複雑な場面において、知識とワークフローのスキームの生成は制御されない。 これは、医療シーンなどの安全要求アプリケーションにおける規制に課題をもたらす。 我々は、AIからの非規制生成プロセスが低レベルのタスクに適合していると主張するが、手動または自動化された規制の形式への介入は、ワークフロー生成後およびロボット前実行時に起こるべきである。 そこで本研究では,完全に自動化され,制御されたロボットシステムを実現するためのロードマップを提案する。 このパラダイムでは、高レベルのポリシーは構造化グラフデータとして生成され、規制の監視と再利用を可能にし、低レベルのタスクのコードベースは生成モデルによって生成される。 我々のアプローチは、専門家の知識から規制された行動への転換を目標とし、人間のタスクにおける研究、実践、精査、実行の反復的なプロセスに類似する。 生成過程がテキストベースの世界シミュレータとして機能し、決定過程が実行可能なシステムを生成する設計サイクルにおける生成過程と決定過程を同定する。 本研究では,テキストシミュレータと実行可能なワークフロー制御の変換点として,ステートマシンシリアライズ言語(SMSL)を提案する。 そこで我々は,現在の文献に基づいて関連するモジュールを分析し,ループ内で人間を議論する。 ロードマップとして、この作業は、現在可能な実装と将来の作業を特定する。 この作業は、実装されたシステムを提供していないが、ロードマップの方向性に取り組む研究者に刺激を与えることを期待している。 ロードマップの出発点となるSMSLおよびD-SFOパラダイムを実装した。

The rapid development of generative technology opens up possibility for higher level of automation, and artificial intelligence (AI) embodiment in robotic systems is imminent. However, due to the blackbox nature of the generative technology, the generation of the knowledge and workflow scheme is uncontrolled, especially in a dynamic environment and a complex scene. This poses challenges to regulations in safety-demanding applications such as medical scenes. We argue that the unregulated generative processes from AI is fitted for low level end tasks, but intervention in the form of manual or automated regulation should happen post-workflow-generation and pre-robotic-execution. To address this, we propose a roadmap that can lead to fully automated and regulated robotic systems. In this paradigm, the high level policies are generated as structured graph data, enabling regulatory oversight and reusability, while the code base for lower level tasks is generated by generative models. Our approach aims the transitioning from expert knowledge to regulated action, akin to the iterative processes of study, practice, scrutiny, and execution in human tasks. We identify the generative and deterministic processes in a design cycle, where generative processes serve as a text-based world simulator and the deterministic processes generate the executable system. We propose State Machine Seralization Language (SMSL) to be the conversion point between text simulator and executable workflow control. From there, we analyze the modules involved based on the current literature, and discuss human in the loop. As a roadmap, this work identifies the current possible implementation and future work. This work does not provide an implemented system but envisions to inspire the researchers working on the direction in the roadmap. We implement the SMSL and D-SFO paradigm that serve as the starting point of the roadmap.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# 低照度環境下での熱モダリティとエンハンスレコンストラクション

Leveraging Thermal Modality to Enhance Reconstruction in Low-Light Conditions ( http://arxiv.org/abs/2403.14053v1 )

ライセンス: Link先を確認
Jiacong Xu, Mingqian Liao, K Ram Prabhakar, Vishal M. Patel, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、多視点画像からシーンの暗黙の容積表現を学習し、色覚情報を忠実に伝達することで、フォトリアリスティックなノベルビュー合成を実現する。 しかし、センサノイズは低値の画素信号を汚染し、失明したカメラ画像信号処理装置は、極暗い状況下では、ほぼゼロに近い強度を除去し、合成性能を低下させる。 既存のアプローチは、生画像から低照度シーンを再構築するが、暗黒領域におけるテクスチャや境界の詳細の回復に苦慮している。 さらに、それらは明示的な表現に依存する高速モデルには適さない。 これらの問題に対処するため、熱カメラは照明変動に頑健であり、生画像は暗黒における任意の手がかりを保存し、同時に可視・可視画像合成を行う熱-NeRFを提案する。 また、マルチモーダルNeRFの研究を支援するために、最初のマルチビュー熱可視データセット(MVTV)が確立されている。 Thermal-NeRFは、ディテール保存とノイズスムーシングの最良のトレードオフを実現し、以前の作業よりも優れた合成性能を提供する。 最後に,2つのモダリティが互いに有益であることを示す。

Neural Radiance Fields (NeRF) accomplishes photo-realistic novel view synthesis by learning the implicit volumetric representation of a scene from multi-view images, which faithfully convey the colorimetric information. However, sensor noises will contaminate low-value pixel signals, and the lossy camera image signal processor will further remove near-zero intensities in extremely dark situations, deteriorating the synthesis performance. Existing approaches reconstruct low-light scenes from raw images but struggle to recover texture and boundary details in dark regions. Additionally, they are unsuitable for high-speed models relying on explicit representations. To address these issues, we present Thermal-NeRF, which takes thermal and visible raw images as inputs, considering the thermal camera is robust to the illumination variation and raw images preserve any possible clues in the dark, to accomplish visible and thermal view synthesis simultaneously. Also, the first multi-view thermal and visible dataset (MVTV) is established to support the research on multimodal NeRF. Thermal-NeRF achieves the best trade-off between detail preservation and noise smoothing and provides better synthesis performance than previous work. Finally, we demonstrate that both modalities are beneficial to each other in 3D reconstruction.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# 宇宙からのセマンティックス:宇宙飛行ロボットのための衛星誘導熱セマンティックセマンティックセマンティックアノテーション

Semantics from Space: Satellite-Guided Thermal Semantic Segmentation Annotation for Aerial Field Robots ( http://arxiv.org/abs/2403.14056v1 )

ライセンス: Link先を確認
Connor Lee, Saraswati Soedarmadji, Matthew Anderson, Anthony J. Clark, Soon-Jo Chung, (参考訳) 本研究では,衛星から得られたデータから得られた熱画像のセマンティックセグメンテーションアノテーションを自動的に生成する手法を提案する。 この新たな能力は、注釈付き熱フィールドデータセットの欠如と手動アノテーションの時間とコストにより、フィールドロボットの熱意味認識アルゴリズムを開発するという課題を克服し、大規模に並列化可能なフィールド収集作業から熱データの精密かつ迅速なアノテーションを可能にする。 視覚基礎モデルに熱条件改良工程を組み込むことで,低解像度衛星土地被覆データを用いて高精度なセマンティックセグメンテーションラベルを低コストで作成することができる。 コストの高い高解像度オプションを使用することで98.5%のパフォーマンスを実現し、RGB画像のアノテーションを生成するために現在使われている大きな視覚言語モデルに基づいて、一般的なゼロショットセマンティックセグメンテーション法よりも70-160%改善されていることを示す。 コードは以下の通り。 https://github.com/connorlee77/aerial-auto-segment。

We present a new method to automatically generate semantic segmentation annotations for thermal imagery captured from an aerial vehicle by utilizing satellite-derived data products alongside onboard global positioning and attitude estimates. This new capability overcomes the challenge of developing thermal semantic perception algorithms for field robots due to the lack of annotated thermal field datasets and the time and costs of manual annotation, enabling precise and rapid annotation of thermal data from field collection efforts at a massively-parallelizable scale. By incorporating a thermal-conditioned refinement step with visual foundation models, our approach can produce highly-precise semantic segmentation labels using low-resolution satellite land cover data for little-to-no cost. It achieves 98.5% of the performance from using costly high-resolution options and demonstrates between 70-160% improvement over popular zero-shot semantic segmentation methods based on large vision-language models currently used for generating annotations for RGB imagery. Code will be available at: https://github.com/connorlee77/aerial-auto-segment.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# 分布検出のための仮説駆動型ディープラーニング

Hypothesis-Driven Deep Learning for Out of Distribution Detection ( http://arxiv.org/abs/2403.14058v1 )

ライセンス: Link先を確認
Yasith Jayawardana, Azeem Ahmad, Balpreet S. Ahluwalia, Rafi Ahmad, Sampath Jayarathna, Dushan N. Wadduwage, (参考訳) 不透明なブラックボックスシステムの予測は、医療などの高度なアプリケーションに頻繁にデプロイされる。 このようなアプリケーションにとって、モデルがトレーニングデータの領域を超えたサンプルをどのように扱うかを評価することは重要である。 In-distriion(InD)データからDeep Neural Network(DNN)データへのアウト・オブ・ディストリビューション(OoD)データを検出するために、いくつかのメトリクスとテストが存在するが、それらのパフォーマンスはデータセット、モデル、タスクによって大きく異なり、実際の使用を制限する。 本稿では,新しいサンプルがInDなのかOoDなのかを定量化する仮説駆動型手法を提案する。 訓練されたDNNといくつかの入力が与えられた場合、まずDNNを介して入力をフィードし、OoDメトリクスのアンサンブルを計算する。 次に、OoD検出問題を、異なるグループの潜伏応答間の仮説テストとして定式化し、置換に基づく再サンプリングを用いて、観測された潜伏応答の意義をヌル仮説で推測する。 細菌のサンプルを学習した深層学習モデルに適応させ,InDとOoDの潜伏反応の解釈的差異を明らかにする。 我々の研究は,ラベルのサブセットで訓練された分類器から,体系的な新規性検出と情報決定に影響を及ぼす。

Predictions of opaque black-box systems are frequently deployed in high-stakes applications such as healthcare. For such applications, it is crucial to assess how models handle samples beyond the domain of training data. While several metrics and tests exist to detect out-of-distribution (OoD) data from in-distribution (InD) data to a deep neural network (DNN), their performance varies significantly across datasets, models, and tasks, which limits their practical use. In this paper, we propose a hypothesis-driven approach to quantify whether a new sample is InD or OoD. Given a trained DNN and some input, we first feed the input through the DNN and compute an ensemble of OoD metrics, which we term latent responses. We then formulate the OoD detection problem as a hypothesis test between latent responses of different groups, and use permutation-based resampling to infer the significance of the observed latent responses under a null hypothesis. We adapt our method to detect an unseen sample of bacteria to a trained deep learning model, and show that it reveals interpretable differences between InD and OoD latent responses. Our work has implications for systematic novelty detection and informed decision-making from classifiers trained on a subset of labels.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# DiffSTOCK:拡散モデルを用いた確率的リレーショナルストックマーケット予測

DiffSTOCK: Probabilistic relational Stock Market Predictions using Diffusion Models ( http://arxiv.org/abs/2403.14063v1 )

ライセンス: Link先を確認
Divyanshu Daiya, Monika Yadav, Harshit Singh Rao, (参考訳) 本研究では,市場予測とポートフォリオ管理のための拡散確率モデルを一般化するアプローチを提案する。 本研究は,市場時系列予測におけるストック間関係のモデル化の有効性を実証し,価値予測とポートフォリオ管理にグラフベースの学習モデルを用いた。 しかし、これらの決定論的アプローチは、金融データの信号対雑音比が低いため、不確実性を扱うには依然として不足しているため、効果的な決定論的モデルを学ぶことは極めて困難である。 確率論的手法は時系列予測において高い不確実性を効果的にエミュレートすることを示した。 この目的のために、歴史的金融指標とストック間関係を前提としたより良い市場予測を提供するためのアーキテクチャを開発するために、DDPM(Denoising Diffusion Probabilistic Models)を効果的に活用することを紹介する。 また,Masked Relational Transformer (MRT) を用いて,ストック間関係と歴史的ストックの特徴を生かした新しい決定論的アーキテクチャ MTCHS も提供する。 本モデルは,移動予測とポートフォリオ管理のためのSOTA性能を実現することを実証する。

In this work, we propose an approach to generalize denoising diffusion probabilistic models for stock market predictions and portfolio management. Present works have demonstrated the efficacy of modeling interstock relations for market time-series forecasting and utilized Graph-based learning models for value prediction and portfolio management. Though convincing, these deterministic approaches still fall short of handling uncertainties i.e., due to the low signal-to-noise ratio of the financial data, it is quite challenging to learn effective deterministic models. Since the probabilistic methods have shown to effectively emulate higher uncertainties for time-series predictions. To this end, we showcase effective utilisation of Denoising Diffusion Probabilistic Models (DDPM), to develop an architecture for providing better market predictions conditioned on the historical financial indicators and inter-stock relations. Additionally, we also provide a novel deterministic architecture MaTCHS which uses Masked Relational Transformer(MRT) to exploit inter-stock relations along with historical stock features. We demonstrate that our model achieves SOTA performance for movement predication and Portfolio management.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# Lesion-Focus Diffusion Modelを用いた心臓MRIにおける心筋病変の合成

LeFusion: Synthesizing Myocardial Pathology on Cardiac MRI via Lesion-Focus Diffusion Models ( http://arxiv.org/abs/2403.14066v1 )

ライセンス: Link先を確認
Hantao Zhang, Jiancheng Yang, Shouhong Wan, Pascal Fua, (参考訳) 臨床で生成されたデータは、長い尾の不均衡やアルゴリズム上の不公平など、しばしばバイアスを示す。 本研究では,これらの課題をデータ合成によって緩和することを目的とする。 医用画像合成におけるこれまでの取り組みは、背景から病変情報を分離するのに苦労しており、高品質な背景を生成するのに困難であり、合成出力を制限している。 拡散に基づく画像の塗布に着想を得て,病変に焦点を絞った拡散モデルLeFusionを提案する。 拡散学習目標を再設計して病変領域に集中させることにより、逆拡散過程に前方拡散背景コンテキストを組み込むことで、モデル学習プロセスを簡素化し、合成出力の制御性を高める。 さらに, マルチクラスの病変を共同処理し, さらに, 合成多様性を高めるために, 病変マスクの生成モデルを導入する。 DE-MRI心病変セグメンテーションデータセット (Emidec) で検証し, 一般的な nnUNet を用いて, 合成データにより, 最先端モデルを効果的に拡張できることを実証した。 コードとモデルはhttps://github.com/M3DV/LeFusion.comで入手できる。

Data generated in clinical practice often exhibits biases, such as long-tail imbalance and algorithmic unfairness. This study aims to mitigate these challenges through data synthesis. Previous efforts in medical imaging synthesis have struggled with separating lesion information from background context, leading to difficulties in generating high-quality backgrounds and limited control over the synthetic output. Inspired by diffusion-based image inpainting, we propose LeFusion, lesion-focused diffusion models. By redesigning the diffusion learning objectives to concentrate on lesion areas, it simplifies the model learning process and enhance the controllability of the synthetic output, while preserving background by integrating forward-diffused background contexts into the reverse diffusion process. Furthermore, we generalize it to jointly handle multi-class lesions, and further introduce a generative model for lesion masks to increase synthesis diversity. Validated on the DE-MRI cardiac lesion segmentation dataset (Emidec), our methodology employs the popular nnUNet to demonstrate that the synthetic data make it possible to effectively enhance a state-of-the-art model. Code and model are available at https://github.com/M3DV/LeFusion.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# 最適輸送による自動外周整流

Automatic Outlier Rectification via Optimal Transport ( http://arxiv.org/abs/2403.14067v1 )

ライセンス: Link先を確認
Jose Blanchet, Jiajin Li, Markus Pelger, Greg Zanotti, (参考訳) 本稿では,コンケーブコスト関数を用いた最適輸送を用いた外乱検出のための新しい概念的枠組みを提案する。 従来の外れ値検出手法では、通常2段階の手順を用いる: まず、外れ値を検出して除去し、次にクリーン化されたデータ上で推定を行う。 しかし, この手法では, 推定作業で外乱除去を通知せず, 改善の余地は残されている。 この制限に対処するため,共同最適化フレームワーク内での修正と推定を統合する自動外乱補正機構を提案する。 本稿では, コンケーブコスト関数を用いた最適輸送距離を利用するための第一歩として, 確率分布の空間における補正セットを構築する。 次に、推定タスクを実行するための修正セット内での最適分布を選択する。 特に,本論文で紹介した凹凸コスト関数は,最適化過程におけるアウトラヤを効果的に同定する鍵となる。 我々は,我々の推定器と最適輸送に基づく分散ロバスト最適化推定器の基本的な相違について論じる。 最後に, 従来手法に対するアプローチの有効性と優位性を実証し, 平均推定法, 最小絶対回帰法, オプションインプリートボラティリティ面の適合性について検討した。

In this paper, we propose a novel conceptual framework to detect outliers using optimal transport with a concave cost function. Conventional outlier detection approaches typically use a two-stage procedure: first, outliers are detected and removed, and then estimation is performed on the cleaned data. However, this approach does not inform outlier removal with the estimation task, leaving room for improvement. To address this limitation, we propose an automatic outlier rectification mechanism that integrates rectification and estimation within a joint optimization framework. We take the first step to utilize an optimal transport distance with a concave cost function to construct a rectification set in the space of probability distributions. Then, we select the best distribution within the rectification set to perform the estimation task. Notably, the concave cost function we introduced in this paper is the key to making our estimator effectively identify the outlier during the optimization process. We discuss the fundamental differences between our estimator and optimal transport-based distributionally robust optimization estimator. finally, we demonstrate the effectiveness and superiority of our approach over conventional approaches in extensive simulation and empirical analyses for mean estimation, least absolute regression, and the fitting of option implied volatility surfaces.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# ナイーブベイズ分類器を用いた聴覚証拠のサンプリング

Sampling Audit Evidence Using a Naive Bayes Classifier ( http://arxiv.org/abs/2403.14069v1 )

ライセンス: Link先を確認
Guang-Yih Sheu, Nai-Ru Liu, (参考訳) 台湾の監査官は、過剰な監査データ処理に苦しんだ。 本研究は,機械学習とサンプリングを統合することで,サンプリング手法を進歩させる。 この機械学習の統合は、サンプリングバイアスを回避し、ランダム性と可変性を保ち、リスクサンプルをターゲットする。 まず、Naive Bayes分類器を用いてデータをいくつかのクラスに分類する。 次に、監査証拠を引き出すために、ユーザベース、アイテムベース、ハイブリッドアプローチを採用する。 代表性指数はその代表性を測定するための主要な指標である。 ユーザベースのアプローチは、監査証拠としてクラスの中央値の周りに対称なデータをサンプリングする。 これは通貨と可変サンプリングの組み合わせと等価である。 項目ベースアプローチは、リスクのあるサンプルを取得するための後部確率に基づく非対称サンプリングを監査証拠として表現する。 これは統計的でないサンプリングと金銭的なサンプリングの組み合わせと同一であるかもしれない。 監査者は、これらのユーザベースのアプローチとアイテムベースのアプローチをハイブリダイズして、監査証拠を選択する際の代表性とリスクのバランスをとることができる。 3つの実験により、機械学習統合を使用したサンプリングには、バイアスのないサンプルの描画、複雑なパターンの処理、相関、非構造化データの処理、ビッグデータのサンプリング効率の向上といったメリットがあることが示された。 しかし、その限界は、機械学習アルゴリズムによって出力される分類精度と、事前確率の範囲である。

Taiwan's auditors have suffered from processing excessive audit data, including drawing audit evidence. This study advances sampling techniques by integrating machine learning with sampling. This machine learning integration helps avoid sampling bias, keep randomness and variability, and target risker samples. We first classify data using a Naive Bayes classifier into some classes. Next, a user-based, item-based, or hybrid approach is employed to draw audit evidence. The representativeness index is the primary metric for measuring its representativeness. The user-based approach samples data symmetric around the median of a class as audit evidence. It may be equivalent to a combination of monetary and variable samplings. The item-based approach represents asymmetric sampling based on posterior probabilities for obtaining risky samples as audit evidence. It may be identical to a combination of non-statistical and monetary samplings. Auditors can hybridize those user-based and item-based approaches to balance representativeness and riskiness in selecting audit evidence. Three experiments show that sampling using machine learning integration has the benefits of drawing unbiased samples, handling complex patterns, correlations, and unstructured data, and improving efficiency in sampling big data. However, the limitations are the classification accuracy output by machine learning algorithms and the range of prior probabilities.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# QSMDiff:定量的サセプティビリティマッピングのための教師なし3次元拡散モデル

QSMDiff: Unsupervised 3D Diffusion Models for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2403.14070v1 )

ライセンス: Link先を確認
Zhuang Xiong, Wei Jiang, Yang Gao, Feng Liu, Hongfu Sun, (参考訳) QSM双極子インバージョン(QSM dipole inversion)はMRI組織相からの磁化率分布の定量化のための逆問題である。 教師付きディープラーニング手法は特定のQSMタスクで成功したが、その一般化可能性には制約がある。 拡散モデルの最近の進歩は、2次元医用画像逆問題の解決の可能性を示している。 しかし、QSMのような3Dモダリティへの応用は、高い計算要求のため、依然として困難である。 本研究では,3次元画像パッチを用いた拡散モデル,すなわちQSMDiffを開発した。 QSMDiffは、制御された画像生成のための推論中に、教師なしの3Dイメージパッチトレーニングとフルサイズ測定ガイダンスを採用する。 異なる取得パラメータ間での勾配エコーおよびエコー平面画像シーケンスを用いて、シミュレーションされたヒト脳と生存中のヒト脳の評価を行い、優れた性能を示す。 QSMDiffで提案された手法は、QSM以外の他の3D医療画像アプリケーションにも影響を与えると約束している。

Quantitative Susceptibility Mapping (QSM) dipole inversion is an ill-posed inverse problem for quantifying magnetic susceptibility distributions from MRI tissue phases. While supervised deep learning methods have shown success in specific QSM tasks, their generalizability across different acquisition scenarios remains constrained. Recent developments in diffusion models have demonstrated potential for solving 2D medical imaging inverse problems. However, their application to 3D modalities, such as QSM, remains challenging due to high computational demands. In this work, we developed a 3D image patch-based diffusion model, namely QSMDiff, for robust QSM reconstruction across different scan parameters, alongside simultaneous super-resolution and image-denoising tasks. QSMDiff adopts unsupervised 3D image patch training and full-size measurement guidance during inference for controlled image generation. Evaluation on simulated and in-vivo human brains, using gradient-echo and echo-planar imaging sequences across different acquisition parameters, demonstrates superior performance. The method proposed in QSMDiff also holds promise for impacting other 3D medical imaging applications beyond QSM.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# NLPのためのあいまいさ型分類法

A Taxonomy of Ambiguity Types for NLP ( http://arxiv.org/abs/2403.14072v1 )

ライセンス: Link先を確認
Margaret Y. Li, Alisa Liu, Zhaofeng Wu, Noah A. Smith, (参考訳) あいまいさは、話者間のより効果的なコミュニケーションを可能にする言語の重要コンポーネントであるが、NLPでは無視されることが多い。 最近の研究は、NLPシステムが人間の言語理解の特定の要素を理解するのに苦労していることを示唆している。 さらに、異なるタイプの曖昧さは、異なる目的に役立ち、解決のための異なるアプローチを必要とする可能性がある。 NLP分析を容易にするために,英語で見られるあいまいさの分類法を提案する。 私たちの分類学は、言語あいまいさデータにおいて意味のある分割を実現するのに役立ち、データセットとモデルパフォーマンスのよりきめ細かい評価を可能にします。

Ambiguity is an critical component of language that allows for more effective communication between speakers, but is often ignored in NLP. Recent work suggests that NLP systems may struggle to grasp certain elements of human language understanding because they may not handle ambiguities at the level that humans naturally do in communication. Additionally, different types of ambiguity may serve different purposes and require different approaches for resolution, and we aim to investigate how language models' abilities vary across types. We propose a taxonomy of ambiguity types as seen in English to facilitate NLP analysis. Our taxonomy can help make meaningful splits in language ambiguity data, allowing for more fine-grained assessments of both datasets and model performance.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# M3: Open-Domain Multi-Hop Dense Sentence Retrievalのためのマルチタスク混合目的学習フレームワーク

M3: A Multi-Task Mixed-Objective Learning Framework for Open-Domain Multi-Hop Dense Sentence Retrieval ( http://arxiv.org/abs/2403.14074v1 )

ライセンス: Link先を確認
Yang Bai, Anthony Colas, Christan Grant, Daisy Zhe Wang, (参考訳) 近年の研究では、コントラスト学習は表現学習の非常に効果的な方法であることが証明されており、密集検索に広く利用されている。 しかし、コントラスト学習のみに依存すると、最適下検索性能が向上する可能性がある。 一方、コントラスト学習以外にも様々な学習目標をサポートする検索データセットが多数存在するが、マルチタスク学習シナリオに効率的に組み合わせることは困難である。 本稿では,高次テキスト表現学習のための新しいマルチタスク混在オブジェクトを用いた高度再帰型マルチホップ文検索システムであるM3を紹介し,その課題に対処する。 提案手法は,大規模オープンドメイン事実検証ベンチマークデータセットであるFEVER上での最先端性能を実現する。 コードとデータは、https://github.com/TonyBY/M3.comで入手できる。

In recent research, contrastive learning has proven to be a highly effective method for representation learning and is widely used for dense retrieval. However, we identify that relying solely on contrastive learning can lead to suboptimal retrieval performance. On the other hand, despite many retrieval datasets supporting various learning objectives beyond contrastive learning, combining them efficiently in multi-task learning scenarios can be challenging. In this paper, we introduce M3, an advanced recursive Multi-hop dense sentence retrieval system built upon a novel Multi-task Mixed-objective approach for dense text representation learning, addressing the aforementioned challenges. Our approach yields state-of-the-art performance on a large-scale open-domain fact verification benchmark dataset, FEVER. Code and data are available at: https://github.com/TonyBY/M3
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# 正規化フローによる領域適応による$$$信号抽出の改善

Improving $Λ$ Signal Extraction with Domain Adaptation via Normalizing Flows ( http://arxiv.org/abs/2403.14076v1 )

ライセンス: Link先を確認
Rowan Kelleher, Matthew McEneaney, Anselm Vossen, (参考訳) 本研究では,領域適応のための流れの正規化のための新しい応用法を提案する。 この研究は、CLAS12における$\Lambda$ Hyperonsの信号抽出を改善するためのフローベースニューラルネットワークの能力について検討した。 正規化フローは、物理過程を記述する複雑な確率密度関数をモデル化し、イベント生成のような利用を可能にする。 本研究は,モンテカルロシミュレーションとデータ間の領域適応のフローを利用して,分類器ネットワークを用いて信号抽出を行う。 我々は、潜在物理空間と正規分布を変換するフローネットワークのトレーニングに成功した。 また, フローの適用により, 分類器出力のカットに対する有益値の依存性が小さくなり, カットが類似の有益値となる範囲が広くなったことも見出した。

The present study presents a novel application for normalizing flows for domain adaptation. The study investigates the ability of flow based neural networks to improve signal extraction of $\Lambda$ Hyperons at CLAS12. Normalizing Flows can help model complex probability density functions that describe physics processes, enabling uses such as event generation. $\Lambda$ signal extraction has been improved through the use of classifier networks, but differences in simulation and data domains limit classifier performance; this study utilizes the flows for domain adaptation between Monte Carlo simulation and data. We were successful in training a flow network to transform between the latent physics space and a normal distribution. We also found that applying the flows lessened the dependence of the figure of merit on the cut on the classifier output, meaning that there was a broader range where the cut results in a similar figure of merit.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# ChatGPTはディープフェイクを検出できるか? : メディアフォサイシクスにおける多モーダル大言語モデルを用いた検討

Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics ( http://arxiv.org/abs/2403.14077v1 )

ライセンス: Link先を確認
Shan Jia, Reilin Lyu, Kangran Zhao, Yize Chen, Zhiyuan Yan, Yan Ju, Chuanbo Hu, Xin Li, Baoyuan Wu, Siwei Lyu, (参考訳) AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。 DeepFakesの検出は現在、プログラムされた機械学習アルゴリズムで解決されている。 本研究では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。 我々は,マルチモーダルLLMを実証するために定性的かつ定量的な実験を行い,慎重に設計し,迅速な技術によってAI生成画像を公開できることを実証した。 LLMは本質的にはメディアの法医学的タスクに向いておらず、そのプロセスはプログラミングを必要としないことを考慮すれば興味深い。 本稿では,これらのタスクに対するマルチモーダル LLM の限界について論じ,改善の可能性を提案する。

DeepFakes, which refer to AI-generated media content, have become an increasing concern due to their use as a means for disinformation. Detecting DeepFakes is currently solved with programmed machine learning algorithms. In this work, we investigate the capabilities of multimodal large language models (LLMs) in DeepFake detection. We conducted qualitative and quantitative experiments to demonstrate multimodal LLMs and show that they can expose AI-generated images through careful experimental design and prompt engineering. This is interesting, considering that LLMs are not inherently tailored for media forensic tasks, and the process does not require programming. We discuss the limitations of multimodal LLMs for these tasks and suggest possible improvements.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# EventDance: イベントベースオブジェクト認識のための教師なしソースフリーのクロスモーダル適応

EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition ( http://arxiv.org/abs/2403.14082v1 )

ライセンス: Link先を確認
Xu Zheng, Lin Wang, (参考訳) 本稿では,プライバシや商業上の問題に係わるラベル付きソース画像データにアクセスすることなく,イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。 この問題に対処するのは、イベントカメラの新規性と、画像とイベント間の明確なモダリティギャップのため、簡単ではない。 特に、ソースモデルのみが利用可能であるように、ハードルは、知識伝達を達成しつつラベル付けされていないターゲットイベントデータのみを使用することで、ソースモデルから知識を抽出する方法である。 そこで我々は,この教師なしソースフリーのクロスモーダル適応問題に対して,EventDanceと呼ばれる新しいフレームワークを提案する。 重要なことは、イベント・ツー・ビデオの再構成法に着想を得て、自己監督的な方法でイベントから強度フレームを再構成するリコンストラクションベースのモダリティブリッジング(RMB)モジュールを提案することである。 これにより、サロゲートイメージを構築して、ソースモデルから知識(ラベル)を抽出することができる。 次に、複数の表現型を持つ学習イベントを対象とするモデルに知識を伝達し、イベントの時空間情報を完全に探索する多表現知識適応(MKA)モジュールを提案する。 ソースとターゲットモデルを接続する2つのモジュールは、最高のパフォーマンスを達成するために相互に更新される。 2つの適応設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。

In this paper, we make the first attempt at achieving the cross-modal (i.e., image-to-events) adaptation for event-based object recognition without accessing any labeled source image data owning to privacy and commercial issues. Tackling this novel problem is non-trivial due to the novelty of event cameras and the distinct modality gap between images and events. In particular, as only the source model is available, a hurdle is how to extract the knowledge from the source model by only using the unlabeled target event data while achieving knowledge transfer. To this end, we propose a novel framework, dubbed EventDance for this unsupervised source-free cross-modal adaptation problem. Importantly, inspired by event-to-video reconstruction methods, we propose a reconstruction-based modality bridging (RMB) module, which reconstructs intensity frames from events in a self-supervised manner. This makes it possible to build up the surrogate images to extract the knowledge (i.e., labels) from the source model. We then propose a multi-representation knowledge adaptation (MKA) module that transfers the knowledge to target models learning events with multiple representation types for fully exploring the spatiotemporal information of events. The two modules connecting the source and target models are mutually updated so as to achieve the best performance. Experiments on three benchmark datasets with two adaption settings show that EventDance is on par with prior methods utilizing the source data.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# emoDARTS:CNNと逐次ニューラルネットワークアーキテクチャの協調最適化による音声感情認識

emoDARTS: Joint Optimisation of CNN & Sequential Neural Network Architectures for Superior Speech Emotion Recognition ( http://arxiv.org/abs/2403.14083v1 )

ライセンス: Link先を確認
Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bjorn W. Schuller, Carlos Busso, (参考訳) 音声感情認識(SER)は、コンピュータが人間のコミュニケーションで伝達される感情を理解するために重要である。 近年のディープラーニング(DL)の進歩により,SERモデルの性能は大幅に向上した。 しかし、最適なDLアーキテクチャを設計するには、専門知識と実験的な評価が必要である。 幸いなことに、Neural Architecture Search (NAS)は、最高のDLモデルを自動的に決定する潜在的なソリューションを提供する。 微分可能なアーキテクチャ探索(DARTS)は、最適なモデルを発見するための特に効率的な方法である。 本研究では,DARTSを最適化したCNNとSeqNN(SeqNN: LSTM, RNN)アーキテクチャであるemoDARTSについて述べる。 この文献は性能向上のためにCNNとLSTM結合の選択をサポートする。 DARTSは従来,CNNとLSTMの操作を独立に選択するために用いられてきたが,本手法では,DARTSを用いてCNNとSeqNNの操作を同時に選択する機構が新たに追加された。 以前の作業とは異なり、私たちはCNNのレイヤ順序に制限を課していません。 代わりに、DARTSはDARTSセル内の最良の層を選ばせます。 EmoDARTSは従来のCNN-LSTMモデルよりも優れており、IEMOCAP, MSP-IMPROV, MSP-Podcastデータセットに対する我々のアプローチを評価することで、DARTS on CNN-LSTMで達成された最高のSER結果を上回っている。

Speech Emotion Recognition (SER) is crucial for enabling computers to understand the emotions conveyed in human communication. With recent advancements in Deep Learning (DL), the performance of SER models has significantly improved. However, designing an optimal DL architecture requires specialised knowledge and experimental assessments. Fortunately, Neural Architecture Search (NAS) provides a potential solution for automatically determining the best DL model. The Differentiable Architecture Search (DARTS) is a particularly efficient method for discovering optimal models. This study presents emoDARTS, a DARTS-optimised joint CNN and Sequential Neural Network (SeqNN: LSTM, RNN) architecture that enhances SER performance. The literature supports the selection of CNN and LSTM coupling to improve performance. While DARTS has previously been used to choose CNN and LSTM operations independently, our technique adds a novel mechanism for selecting CNN and SeqNN operations in conjunction using DARTS. Unlike earlier work, we do not impose limits on the layer order of the CNN. Instead, we let DARTS choose the best layer order inside the DARTS cell. We demonstrate that emoDARTS outperforms conventionally designed CNN-LSTM models and surpasses the best-reported SER results achieved through DARTS on CNN-LSTM by evaluating our approach on the IEMOCAP, MSP-IMPROV, and MSP-Podcast datasets.
翻訳日:2024-03-22 15:46:42 公開日:2024-03-21
# マルチスケールフロー問題に対する学習型マルチ連続モデル

Learning-based Multi-continuum Model for Multiscale Flow Problems ( http://arxiv.org/abs/2403.14084v1 )

ライセンス: Link先を確認
Fan Wang, Yating Wang, Wing Tat Leung, Zongben Xu, (参考訳) マルチスケール問題は通常、シミュレーションを高速化するために粗いグリッド上の元のシステムのマクロな振る舞いを捉えることができるいくつかの効果的なパラメータを持つ方程式による数値的均質化によって近似することができる。 しかし、このアプローチは通常、スケール分離と解の不均一性をそれぞれの粗いブロックにおける解平均によって近似できると仮定する。 複雑なマルチスケール問題に対して、計算された単一の有効性/連続性は不十分かもしれない。 本稿では,同質化方程式の強化と,与えられたデータを用いたマルチスケール問題に対する単一連続体モデルの精度向上を目的とした,学習に基づく新しいマルチ連続体モデルを提案する。 一般化の欠如がなければ、2連続の場合を考える。 第1のフロー方程式は、元の均質化方程式の情報を追加の相互作用項で保持する。 第2連続体を新たに導入し、第2流れ方程式の有効透過性をニューラルネットワークにより決定する。 2つの連続体間の相互作用項は、双極性モデルで使用されるものと一致するが、別のニューラルネットワークによって決定される学習可能な係数と一致する。 ニューラルネットワーク用語を持つ新しいモデルは、信頼されたデータを使用して最適化される。 PDE制約最適化問題に対する直接バックプロパゲーションと随伴法の両方について論じる。 提案した学習型多大陸モデルでは, 粗いグリッドブロック内の複数の相互作用媒質を解き, 物質移動を記述し, 線形および非線形流方程式を含む数値実験によりシミュレーション結果を大幅に改善することが実証された。

Multiscale problems can usually be approximated through numerical homogenization by an equation with some effective parameters that can capture the macroscopic behavior of the original system on the coarse grid to speed up the simulation. However, this approach usually assumes scale separation and that the heterogeneity of the solution can be approximated by the solution average in each coarse block. For complex multiscale problems, the computed single effective properties/continuum might be inadequate. In this paper, we propose a novel learning-based multi-continuum model to enrich the homogenized equation and improve the accuracy of the single continuum model for multiscale problems with some given data. Without loss of generalization, we consider a two-continuum case. The first flow equation keeps the information of the original homogenized equation with an additional interaction term. The second continuum is newly introduced, and the effective permeability in the second flow equation is determined by a neural network. The interaction term between the two continua aligns with that used in the Dual-porosity model but with a learnable coefficient determined by another neural network. The new model with neural network terms is then optimized using trusted data. We discuss both direct back-propagation and the adjoint method for the PDE-constraint optimization problem. Our proposed learning-based multi-continuum model can resolve multiple interacted media within each coarse grid block and describe the mass transfer among them, and it has been demonstrated to significantly improve the simulation results through numerical experiments involving both linear and nonlinear flow equations.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 格子型断面積予測による点雲の表面再構成

Surface Reconstruction from Point Clouds via Grid-based Intersection Prediction ( http://arxiv.org/abs/2403.14085v1 )

ライセンス: Link先を確認
Hui Tian, Kai Xu, (参考訳) 点雲からの表面の再構成はコンピュータビジョンとコンピュータグラフィックスの分野で重要な課題である。 SDFベースの手法は、スムーズなメッシュを最小限のエラーとアーティファクトで再構築するが、オープンサーフェスを表現するのに苦労する。 一方、UDFをベースとした手法は、開口面を効果的に表現できるが、しばしば表面付近でノイズが発生し、メッシュ内のアーティファクトに繋がる。 本研究では,点対のサンプル線分と暗黙曲面との交点を直接予測する手法を提案する。 この方法は、開口面を表現できるだけでなく、メッシュ内のアーティファクトを除去する。 提案手法は,ShapeNet,MGN,ScanNetの3つのデータセット上での最先端性能を示す。 コードは受理時に利用可能になる。

Surface reconstruction from point clouds is a crucial task in the fields of computer vision and computer graphics. SDF-based methods excel at reconstructing smooth meshes with minimal error and artifacts but struggle with representing open surfaces. On the other hand, UDF-based methods can effectively represent open surfaces but often introduce noise near the surface, leading to artifacts in the mesh. In this work, we propose a novel approach that directly predicts the intersection points between sampled line segments of point pairs and implicit surfaces. This method not only preserves the ability to represent open surfaces but also eliminates artifacts in the mesh. Our approach demonstrates state-of-the-art performance on three datasets: ShapeNet, MGN, and ScanNet. The code will be made available upon acceptance.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# フォースガイドSE(3)拡散モデルによるタンパク質のコンフォーメーション生成

Protein Conformation Generation via Force-Guided SE(3) Diffusion Models ( http://arxiv.org/abs/2403.14088v1 )

ライセンス: Link先を確認
Yan Wang, Lihao Wang, Yuning Shen, Yiqun Wang, Huizhuo Yuan, Yue Wu, Quanquan Gu, (参考訳) タンパク質のコンフォメーション・ランドスケープは、複雑な生物学的プロセスにおいてその機能を理解するために重要である。 分子動力学(MD)シミュレーションのような伝統的な物理学に基づく計算手法は、まれなイベントサンプリングと長い平衡時間の問題に悩まされ、一般的なタンパク質システムにおけるそれらの応用を妨げる。 近年,新しいタンパク質コンホメーションを生成するために,深層生成モデリング技術,特に拡散モデルが採用されている。 しかし、既存のスコアベースの拡散法は、生成過程を導くために重要な物理的事前知識を適切に組み込むことはできない。 本稿では,これらの制限を克服するために,タンパク質コンホメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。 データベースのスコアモデルが混在するフォース誘導ネットワークを組み込むことで、ConfDiffは高い忠実性を維持しながら、多種多様なタンパク質コンホメーションを生成することができる。 12個の高速折りたたみタンパク質とBPTIを含む多種多様なタンパク質コンホメーション予測タスクの実験により,本手法が最先端の手法を超越していることが実証された。

The conformational landscape of proteins is crucial to understanding their functionality in complex biological processes. Traditional physics-based computational methods, such as molecular dynamics (MD) simulations, suffer from rare event sampling and long equilibration time problems, hindering their applications in general protein systems. Recently, deep generative modeling techniques, especially diffusion models, have been employed to generate novel protein conformations. However, existing score-based diffusion methods cannot properly incorporate important physical prior knowledge to guide the generation process, causing large deviations in the sampled protein conformations from the equilibrium distribution. In this paper, to overcome these limitations, we propose a force-guided SE(3) diffusion model, ConfDiff, for protein conformation generation. By incorporating a force-guided network with a mixture of data-based score models, ConfDiff can can generate protein conformations with rich diversity while preserving high fidelity. Experiments on a variety of protein conformation prediction tasks, including 12 fast-folding proteins and the Bovine Pancreatic Trypsin Inhibitor (BPTI), demonstrate that our method surpasses the state-of-the-art method.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# LiDARインテンシティ強化トレーニングによる教師なし内在画像分解

Unsupervised Intrinsic Image Decomposition with LiDAR Intensity Enhanced Training ( http://arxiv.org/abs/2403.14089v1 )

ライセンス: Link先を確認
Shogo Sato, Takuhiro Kaneko, Kazuhiko Murasaki, Taiga Yoshida, Ryuichi Tanida, Akisato Kimura, (参考訳) 教師なし内在的画像分解(IID)は、自然像をこれらの基礎的な真実なしにアルベドと日陰に分離する過程である。 光検出・測光(LiDAR)強度を用いた最近のモデルでは、推論時のLiDAR強度の必要性は実用性を制限するが、顕著な性能を示した。 したがって、推論中に1つの画像のみを用いるIIDモデルは、画像+LiDAR強度のモデルと同じくらい高いIID品質を維持することが望まれる。 この課題に対処するために、トレーニング中に画像とLiDAR強度を利用しながら、推論時にのみ画像を利用する新しいアプローチを提案する。 具体的には、異なる特定のエンコーダを用いて画像とLiDAR強度を個別に受け入れる部分共有モデルを導入するが、それらを特定のコンポーネントで処理して共有表現を学習する。 さらに,IID品質を向上させるため,アルベドアライメント損失と画像-LiDAR変換(ILC)経路を提案する。 アルベド配向損失は、画像からLiDAR強度から推定される画像へのグレースケールアルベドの整列を図示し、これにより、LiDAR強度に鋳造影がないため、画像からアルベドの鋳造影を減少させる。 さらに、入力画像を、画像内容を保持しつつ、アルベド、シェードスタイルに変換するために、エンコーダにより、入力画像をスタイルコードとコンテンツコードに分離する。 ILCパスは、コンテンツを共有するがスタイルが異なる画像とLiDAR強度を相互に翻訳し、コンテンツとスタイルの区別に寄与する。 その結果、LIETはLiDAR強度を持つ既存モデルに匹敵するIID品質を達成し、推論中にLiDAR強度を持たない画像のみを活用する。

Unsupervised intrinsic image decomposition (IID) is the process of separating a natural image into albedo and shade without these ground truths. A recent model employing light detection and ranging (LiDAR) intensity demonstrated impressive performance, though the necessity of LiDAR intensity during inference restricts its practicality. Thus, IID models employing only a single image during inference while keeping as high IID quality as the one with an image plus LiDAR intensity are highly desired. To address this challenge, we propose a novel approach that utilizes only an image during inference while utilizing an image and LiDAR intensity during training. Specifically, we introduce a partially-shared model that accepts an image and LiDAR intensity individually using a different specific encoder but processes them together in specific components to learn shared representations. In addition, to enhance IID quality, we propose albedo-alignment loss and image-LiDAR conversion (ILC) paths. Albedo-alignment loss aligns the gray-scale albedo from an image to that inferred from LiDAR intensity, thereby reducing cast shadows in albedo from an image due to the absence of cast shadows in LiDAR intensity. Furthermore, to translate the input image into albedo and shade style while keeping the image contents, the input image is separated into style code and content code by encoders. The ILC path mutually translates the image and LiDAR intensity, which share content but differ in style, contributing to the distinct differentiation of style from content. Consequently, LIET achieves comparable IID quality to the existing model with LiDAR intensity, while utilizing only an image without LiDAR intensity during inference.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 持続可能なデータセンターにおけるリアルタイムの炭素フットプリント削減

Carbon Footprint Reduction for Sustainable Data Centers in Real-Time ( http://arxiv.org/abs/2403.14092v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Avisek Naug, Ricardo Luna, Antonio Guillen, Vineet Gundecha, Sahand Ghorbanpour, Sajad Mousavi, Dejan Markovikj, Ashwin Ramesh Babu, (参考訳) 機械学習のワークロードがエネルギー消費を大幅に増加させるにつれ、炭素排出量の少ない持続可能なデータセンターが世界中の政府や企業にとって最優先事項となっている。 これは、冷却とIT負荷における電力消費の最適化、電力グリッド内の再生可能エネルギーの可用性に基づく柔軟な負荷のシフト、および協調エージェントを使用してデータセンターの未中断電源からのバッテリストレージを活用するためのパラダイムシフトを必要とする。 これらの最適化戦略と天候や電力グリッドの炭素強度といった様々な外部要因への依存との複雑な関係は、この問題を難しくしている。 現在、動的な現実世界の設定でこれらの目標を同時に最適化するリアルタイムコントローラは欠如している。 本稿では, 炭素フットプリント削減, エネルギー消費, エネルギーコストの多目的のために, データセンターを最適化するマルチエージェント強化学習(MARL)フレームワークを提案する。 その結果,DC-CFR MARLエージェントは実世界の動的気象条件やグリッド炭素強度条件下での様々な場所での冷却,負荷シフト,エネルギー貯蔵の最適化において,複雑な相互依存性を効果的に解決した。 DC-CFRは業界標準のASHRAEコントローラよりも、炭素排出量(14.5%)、エネルギー使用量(14.4%)、エネルギーコスト(13.7%)を大きく上回った。

As machine learning workloads significantly increase energy consumption, sustainable data centers with low carbon emissions are becoming a top priority for governments and corporations worldwide. This requires a paradigm shift in optimizing power consumption in cooling and IT loads, shifting flexible loads based on the availability of renewable energy in the power grid, and leveraging battery storage from the uninterrupted power supply in data centers, using collaborative agents. The complex association between these optimization strategies and their dependencies on variable external factors like weather and the power grid carbon intensity makes this a hard problem. Currently, a real-time controller to optimize all these goals simultaneously in a dynamic real-world setting is lacking. We propose a Data Center Carbon Footprint Reduction (DC-CFR) multi-agent Reinforcement Learning (MARL) framework that optimizes data centers for the multiple objectives of carbon footprint reduction, energy consumption, and energy cost. The results show that the DC-CFR MARL agents effectively resolved the complex interdependencies in optimizing cooling, load shifting, and energy storage in real-time for various locations under real-world dynamic weather and grid carbon intensity conditions. DC-CFR significantly outperformed the industry standard ASHRAE controller with a considerable reduction in carbon emissions (14.5%), energy usage (14.4%), and energy cost (13.7%) when evaluated over one year across multiple geographical regions.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 科学に基づくAIモデルによる未訓練運転環境の認証と交通状況推定への応用

Science based AI model certification for untrained operational environments with application in traffic state estimation ( http://arxiv.org/abs/2403.14093v1 )

ライセンス: Link先を確認
Daryl Mupupuni, Anupama Guntu, Liang Hong, Kamrul Hasan, Leehyun Keel, (参考訳) さまざまなエンジニアリング領域における人工知能(AI)の役割の拡大は、新たな運用環境にAIモデルをデプロイする際の課題を強調しており、データ収集とモデルトレーニングに多大な投資をしている。 AIの迅速な適用は、最小または追加のデータを使用せずに、観測されていない運用環境で事前訓練されたモデルを使用することの可能性を評価する必要がある。 しかしながら、AIのブラックボックスモデルの不透明な性質を解釈することは、依然として永続的な課題である。 本稿では,未学習の運用環境における事前学習データ駆動モデルの適用可能性を評価するための,科学ベースの認証手法を提案する。 この方法論はドメイン知識の深い統合を提唱し、理論的および分析的モデルと物理および関連する分野、およびデータ駆動型AIモデルを活用する。 この新たなアプローチは、セキュアなエンジニアリングシステムの開発を促進するツールを導入し、AIベースのモデルの信頼性と安全性を、限られたトレーニングデータと、動的で不確実な条件によって特徴づけられるさまざまな環境にわたって保証する。 本研究は、特に交通状況推定の文脈において、現実世界の安全クリティカルなシナリオにおいて、この手法の有効性を実証する。 シミュレーションの結果から,提案手法が事前学習されたAIモデルによって提示される物理的不整合を効率的に定量化する方法について述べる。 分析モデルを利用することで、新しい運用環境における事前訓練されたAIモデルの適用性を評価する手段を提供する。 この研究は、AIモデルの理解とデプロイの促進に寄与し、さまざまな運用条件における信頼性と安全性の信頼性を高める堅牢な認証フレームワークを提供する。

The expanding role of Artificial Intelligence (AI) in diverse engineering domains highlights the challenges associated with deploying AI models in new operational environments, involving substantial investments in data collection and model training. Rapid application of AI necessitates evaluating the feasibility of utilizing pre-trained models in unobserved operational settings with minimal or no additional data. However, interpreting the opaque nature of AI's black-box models remains a persistent challenge. Addressing this issue, this paper proposes a science-based certification methodology to assess the viability of employing pre-trained data-driven models in untrained operational environments. The methodology advocates a profound integration of domain knowledge, leveraging theoretical and analytical models from physics and related disciplines, with data-driven AI models. This novel approach introduces tools to facilitate the development of secure engineering systems, providing decision-makers with confidence in the trustworthiness and safety of AI-based models across diverse environments characterized by limited training data and dynamic, uncertain conditions. The paper demonstrates the efficacy of this methodology in real-world safety-critical scenarios, particularly in the context of traffic state estimation. Through simulation results, the study illustrates how the proposed methodology efficiently quantifies physical inconsistencies exhibited by pre-trained AI models. By utilizing analytical models, the methodology offers a means to gauge the applicability of pre-trained AI models in new operational environments. This research contributes to advancing the understanding and deployment of AI models, offering a robust certification framework that enhances confidence in their reliability and safety across a spectrum of operational conditions.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 因果知識工学 : COVID-19の事例研究

Causal knowledge engineering: A case study from COVID-19 ( http://arxiv.org/abs/2403.14100v1 )

ライセンス: Link先を確認
Steven Mascaro, Yue Wu, Ross Pearson, Owen Woodberry, Jessica Ramsay, Tom Snelling, Ann E. Nicholson, (参考訳) 新型コロナウイルス(COVID-19)は2020年初頭に突然出現し、非常に不確実な状況の中で急激な対応を必要とした。 良質なデータと知識が当初不足していたため、多くの初期のモデルは、限られたデータを補うために、因果的仮定と推定を組み込んで開発され、しばしばこれらの因果的仮定を特定し、検証し、文書化するための信頼性の高いアプローチを持っていなかった。 我々のチームは、新型コロナウイルスの多様な側面のためのいくつかの因果BNからなる因果知識基盤を開発するための知識エンジニアリングプロセスに着手しました。 この設定のユニークな課題は、導入アプローチの実験に結びつき、私たちがCausal Knowledge Engineering (CKE)と呼ぶ知識工学手法が出現しました。 CKEは、様々なアプリケーション固有のモデルの開発を支援するための因果知識ベースを構築するための構造化されたアプローチを提供する。 ここではCKE法について述べるとともに,本手法の詳細な議論と分析を行うために,私たちの新型コロナウイルス研究を事例研究として活用する。

COVID-19 appeared abruptly in early 2020, requiring a rapid response amid a context of great uncertainty. Good quality data and knowledge was initially lacking, and many early models had to be developed with causal assumptions and estimations built in to supplement limited data, often with no reliable approach for identifying, validating and documenting these causal assumptions. Our team embarked on a knowledge engineering process to develop a causal knowledge base consisting of several causal BNs for diverse aspects of COVID-19. The unique challenges of the setting lead to experiments with the elicitation approach, and what emerged was a knowledge engineering method we call Causal Knowledge Engineering (CKE). The CKE provides a structured approach for building a causal knowledge base that can support the development of a variety of application-specific models. Here we describe the CKE method, and use our COVID-19 work as a case study to provide a detailed discussion and analysis of the method.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# テキスト強化型データフリーアプローチによるフェデレーションクラスインクリメンタルラーニング

Text-Enhanced Data-free Approach for Federated Class-Incremental Learning ( http://arxiv.org/abs/2403.14101v1 )

ライセンス: Link先を確認
Minh-Tuan Tran, Trung Le, Xuan-May Le, Mehrtash Harandi, Dinh Phung, (参考訳) フェデレーション・クラス・インクリメンタル・ラーニング(FCIL)は、フェデレーション・ラーニングの文脈で新しいクラスを動的に追加することを含む、過度に探求されているが重要な問題である。 この分野では、データ自由知識伝達(DFKT)は破滅的な忘れとデータのプライバシー問題に対処する上で重要な役割を果たす。 しかし、従来の手法では、DFKTとモデルトレーニングフェーズ間の重要なシナジーが欠如しており、DFKTは古いタスクモデルの非アンコール潜在空間から高品質なデータを生成するのに困難に直面している。 本稿では、事前訓練された言語モデルによって生成されたラベルテキスト埋め込み(LTE)を利用して、LANDER(Label Text Centered Data-Free Knowledge Transfer)を導入し、この問題に対処する。 具体的には、モデルトレーニングフェーズにおいて、LTEをアンカーポイントとして扱い、その周辺のトレーニングサンプルの特徴埋め込みを制約し、より意味のある情報で周辺地域を豊かにする。 DFKTフェーズでは、これらのLTEアンカーを使用することで、LANDERはより意味のあるサンプルを合成し、忘れる問題に効果的に対処することができる。 さらに、アンカーへの埋め込みを厳格に拘束する代わりに、境界ロス(英語版)が導入され、サンプル埋め込みが定義された半径内で柔軟に保たれるように促される。 提案手法は, 試料埋込みの自然差を保ち, 不均一なフェデレーション設定による埋込み重なりを緩和する。 CIFAR100、Tiny-ImageNet、ImageNetで実施された大規模な実験では、LANDERは従来の手法よりも大幅に優れ、FCILの最先端性能を実現している。 コードはhttps://github.com/tmtuan1307/lander.orgで公開されている。

Federated Class-Incremental Learning (FCIL) is an underexplored yet pivotal issue, involving the dynamic addition of new classes in the context of federated learning. In this field, Data-Free Knowledge Transfer (DFKT) plays a crucial role in addressing catastrophic forgetting and data privacy problems. However, prior approaches lack the crucial synergy between DFKT and the model training phases, causing DFKT to encounter difficulties in generating high-quality data from a non-anchored latent space of the old task model. In this paper, we introduce LANDER (Label Text Centered Data-Free Knowledge Transfer) to address this issue by utilizing label text embeddings (LTE) produced by pretrained language models. Specifically, during the model training phase, our approach treats LTE as anchor points and constrains the feature embeddings of corresponding training samples around them, enriching the surrounding area with more meaningful information. In the DFKT phase, by using these LTE anchors, LANDER can synthesize more meaningful samples, thereby effectively addressing the forgetting problem. Additionally, instead of tightly constraining embeddings toward the anchor, the Bounding Loss is introduced to encourage sample embeddings to remain flexible within a defined radius. This approach preserves the natural differences in sample embeddings and mitigates the embedding overlap caused by heterogeneous federated settings. Extensive experiments conducted on CIFAR100, Tiny-ImageNet, and ImageNet demonstrate that LANDER significantly outperforms previous methods and achieves state-of-the-art performance in FCIL. The code is available at https://github.com/tmtuan1307/lander.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# DouRN: 残留ニューラルネットワークによるDouZeroの改善

DouRN: Improving DouZero by Residual Neural Networks ( http://arxiv.org/abs/2403.14102v1 )

ライセンス: Link先を確認
Yiquan Chen, Yingchao Lyu, Di Zhang, (参考訳) 深層強化学習は不完全な情報を持つゲームにおいて大きな進歩を遂げているが、カードゲーム『Doudizhu』(中国ポーカー/フィット・ザ・ロードロード)のパフォーマンスは相変わらず不満足である。 ドゥーディズフは従来のゲームと異なり、3人のプレイヤーが参加し、協力と対立の要素が組み合わさり、大きな状態と行動空間をもたらす。 2021年、DouZero\cite{zha2021douzero} と呼ばれるドゥーディーシュのプログラムは、従来のモンテカルロ法と多層パーセプトロンを利用することで、事前の知識なしに以前のモデルを上回った。 本研究は, 残余ネットワークをモデルに組み込み, 異なるアーキテクチャ設計を探索し, マルチロールテストを行う。 以上の結果から,本モデルは同一トレーニング時間内での勝利率を有意に向上させることが示された。 さらに,家主になるかどうかを判断するエージェントを支援するコールスコアシステムも導入する。 これらの強化により、我々のモデルはDouZeroの既存のバージョンと経験豊富な人間のプレイヤーよりも一貫して優れています。 ソースコードは \url{https://github.com/Yingchaol/Douzero_Resnet.git で公開されている。 ※

Deep reinforcement learning has made significant progress in games with imperfect information, but its performance in the card game Doudizhu (Chinese Poker/Fight the Landlord) remains unsatisfactory. Doudizhu is different from conventional games as it involves three players and combines elements of cooperation and confrontation, resulting in a large state and action space. In 2021, a Doudizhu program called DouZero\cite{zha2021douzero} surpassed previous models without prior knowledge by utilizing traditional Monte Carlo methods and multilayer perceptrons. Building on this work, our study incorporates residual networks into the model, explores different architectural designs, and conducts multi-role testing. Our findings demonstrate that this model significantly improves the winning rate within the same training time. Additionally, we introduce a call scoring system to assist the agent in deciding whether to become a landlord. With these enhancements, our model consistently outperforms the existing version of DouZero and even experienced human players. \footnote{The source code is available at \url{https://github.com/Yingchaol/Douzero_Resnet.git.}
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# MaskSAM:医療画像セグメンテーションのためのマスク分類によるオートプロンプトSAMを目指して

MaskSAM: Towards Auto-prompt SAM with Mask Classification for Medical Image Segmentation ( http://arxiv.org/abs/2403.14103v1 )

ライセンス: Link先を確認
Bin Xie, Hao Tang, Bin Duan, Dawen Cai, Yan Yan, (参考訳) Segment Anything Model~(SAM)は、自然画像セグメンテーションのためのプロンプト駆動基礎モデルであり、印象的なゼロショット性能を示している。 しかしSAMは、予測されたマスクのセマンティックラベルを予測する機能がなく、ターゲット領域をセグメント化するためにポイントやボックスのような追加のプロンプトを提供する必要があるため、医療画像のセマンティクスタスクに直接適用しても機能しない。 一方、2次元の自然画像と3次元の医用画像の間には大きなギャップがあり、SAMの性能は医用画像分割作業には不十分である。 以上の課題に続き、医用画像セグメンテーションのための新しいマスク分類プロンプトフリーSAM適応フレームワークであるMaskSAMを提案する。 我々はSAMのイメージエンコーダと組み合わされたプロンプトジェネレータを設計し、補助的な分類器トークン、補助的なバイナリマスク、補助的なバウンディングボックスを生成する。 余分なプロンプトの要求を解決できる補助マスクとボックスプロンプトのペアは、SAMのマスクデコーダにおける補助分類器トークンと学習可能なグローバル分類器トークンの合計によるクラスラベル予測と関連付けられ、セマンティックラベルの予測が解決される。 一方,画像埋め込みのための3次元深度変換アダプタと,迅速な埋め込みのための3次元深度MLPアダプタを設計する。 画像エンコーダとマスクデコーダの各トランスバータブロックにそれらのうちの1つを注入し、事前訓練された2DSAMモデルで3D情報を抽出し、3D医療画像に適応させる。 本手法はAMOS2022, 90.52% Diceの最先端性能を実現し, nnUNetに比べて2.7%向上した。 提案手法は,ACDCで1.7%,Synapseデータセットで1.0%,nnUNetを1.7%超える。

Segment Anything Model~(SAM), a prompt-driven foundation model for natural image segmentation, has demonstrated impressive zero-shot performance. However, SAM does not work when directly applied to medical image segmentation tasks, since SAM lacks the functionality to predict semantic labels for predicted masks and needs to provide extra prompts, such as points or boxes, to segment target regions. Meanwhile, there is a huge gap between 2D natural images and 3D medical images, so the performance of SAM is imperfect for medical image segmentation tasks. Following the above issues, we propose MaskSAM, a novel mask classification prompt-free SAM adaptation framework for medical image segmentation. We design a prompt generator combined with the image encoder in SAM to generate a set of auxiliary classifier tokens, auxiliary binary masks, and auxiliary bounding boxes. Each pair of auxiliary mask and box prompts, which can solve the requirements of extra prompts, is associated with class label predictions by the sum of the auxiliary classifier token and the learnable global classifier tokens in the mask decoder of SAM to solve the predictions of semantic labels. Meanwhile, we design a 3D depth-convolution adapter for image embeddings and a 3D depth-MLP adapter for prompt embeddings. We inject one of them into each transformer block in the image encoder and mask decoder to enable pre-trained 2D SAM models to extract 3D information and adapt to 3D medical images. Our method achieves state-of-the-art performance on AMOS2022, 90.52% Dice, which improved by 2.7% compared to nnUNet. Our method surpasses nnUNet by 1.7% on ACDC and 1.0% on Synapse datasets.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 存在はカオス:不確実性を考慮した3D人間の動作予測の強化

Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration ( http://arxiv.org/abs/2403.14104v1 )

ライセンス: Link先を確認
Zhihao Wang, Yulin Zhou, Ningyu Zhang, Xiaosong Yang, Jun Xiao, Zhao Wang, (参考訳) 人間の動作予測は、歴史的に観察されたシーケンスから将来の身体のポーズを予測することで構成される。 運動の複雑な力学と不確実性のため、長年にわたる挑戦である。 既存の手法では、モーションダイナミクスをモデル化する複雑なニューラルネットワークの構築に重点を置いている。 予測結果は、現在のトレーニングパイプラインでL2損失のトレーニングサンプルと厳密に類似していることが要求される。 しかし,予測課題に不可欠な不確実性にはほとんど注意が払われていない。 トレーニングデータにおける記録された動きは、所定の結果ではなく、将来の可能性の観測である可能性が示唆された。 さらに、既存の研究は、トレーニング中に各将来のフレームの予測エラーを等しく計算する一方、最近の研究は異なるフレームが異なる役割を演じることを示している。 本研究では,不確実性を考慮した計算効率の良いエンコーダデコーダモデルを提案する。 ベンチマークデータセットによる実験結果から,不確実性を考慮したアプローチには,量と品質の両面で明らかなメリットがあることが示された。 さらに,提案手法は, 揺動アーチファクトを回避するため, より優れた品質のモーションシーケンスを生成することができる。 本研究は, 一般運動予測タスクの不確かさを考慮し, この分野の研究を奨励する新たな視点を提供することができると考えている。 コードはhttps://github.com/Motionpre/Adaptive-Salient-Loss-SAGGBで入手できる。

Human motion prediction is consisting in forecasting future body poses from historically observed sequences. It is a longstanding challenge due to motion's complex dynamics and uncertainty. Existing methods focus on building up complicated neural networks to model the motion dynamics. The predicted results are required to be strictly similar to the training samples with L2 loss in current training pipeline. However, little attention has been paid to the uncertainty property which is crucial to the prediction task. We argue that the recorded motion in training data could be an observation of possible future, rather than a predetermined result. In addition, existing works calculate the predicted error on each future frame equally during training, while recent work indicated that different frames could play different roles. In this work, a novel computationally efficient encoder-decoder model with uncertainty consideration is proposed, which could learn proper characteristics for future frames by a dynamic function. Experimental results on benchmark datasets demonstrate that our uncertainty consideration approach has obvious advantages both in quantity and quality. Moreover, the proposed method could produce motion sequences with much better quality that avoids the intractable shaking artefacts. We believe our work could provide a novel perspective to consider the uncertainty quality for the general motion prediction task and encourage the studies in this field. The code will be available in https://github.com/Motionpre/Adaptive-Salient-Loss-SAGGB.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# 量子分散証明の力について

On the Power of Quantum Distributed Proofs ( http://arxiv.org/abs/2403.14108v1 )

ライセンス: Link先を確認
Atsuya Hasegawa, Srijita Kundu, Harumichi Nishimura, (参考訳) 量子非決定性分散コンピューティングは、最近Fraigniaud, Le Gall, Nishimura and Paz (ITCS 2021) によって dQMA (distributed quantum Merlin-Arthur) プロトコルとして導入された。 dQMAプロトコルでは、量子証明とローカル通信の助けを借りて、ネットワーク上のノードがネットワークのグローバルな特性を検証する。 Fraigniaudらは、ネットワークサイズが小さい場合、分散古典的検証プロトコルと量子的検証プロトコルの間の証明サイズが指数関数的に分離されていることを示した。 本稿では,様々な意思決定問題に対するdQMAプロトコルのパワーについて検討し,その特性について述べる。 まず,より効率的なdQMAプロトコルを提案する。 これは各ノードに対称性のステップを追加し、SWAPテストの一般化である置換テストの特性を利用する。 また、極端ノード間の''リレーポイント'を考慮し、ネットワークサイズが大きい場合でもパスネットワーク上の等値性問題に対する量子的優位性を示す。 第2に,一般的なネットワークにおいても,評価問題やハミング距離問題など,効率的な量子一方向通信プロトコルから導かれる問題に対して,効率的なdQMAプロトコルが存在することを示す。 第3に、ラインネットワークにおいて、効率的な双方向QMA通信プロトコルを持つ問題に対する効率的なdQMAプロトコルを構築する。 最後に、dQMAプロトコルの証明と通信コストに関する最初の下限を求める。 また,ノード間の絡み合った証明を持つ任意の dQMA プロトコルを,Raz と Shpilka (CCC 2004) が導入した QMA 通信完全問題を用いて,ノード間の分離可能な証明を持つ dQMA プロトコルでシミュレートできることを示す。

Quantum nondeterministic distributed computing was recently introduced as dQMA (distributed quantum Merlin-Arthur) protocols by Fraigniaud, Le Gall, Nishimura and Paz (ITCS 2021). In dQMA protocols, with the help of quantum proofs and local communication, nodes on a network verify a global property of the network. Fraigniaud et al. showed that, when the network size is small, there exists an exponential separation in proof size between distributed classical and quantum verification protocols, for the equality problem, where the verifiers check if all the data owned by a subset of them are identical. In this paper, we further investigate and characterize the power of the dQMA protocols for various decision problems. First, we give a more efficient dQMA protocol for the equality problem with a simpler analysis. This is done by adding a symmetrization step on each node and exploiting properties of the permutation test, which is a generalization of the SWAP test. We also show a quantum advantage for the equality problem on path networks still persists even when the network size is large, by considering ``relay points'' between extreme nodes. Second, we show that even in a general network, there exist efficient dQMA protocols for the ranking verification problem, the Hamming distance problem, and more problems that derive from efficient quantum one-way communication protocols. Third, in a line network, we construct an efficient dQMA protocol for a problem that has an efficient two-party QMA communication protocol. Finally, we obtain the first lower bounds on the proof and communication cost of dQMA protocols. To prove a lower bound on the equality problem, we show any dQMA protocol with an entangled proof between nodes can be simulated with a dQMA protocol with a separable proof between nodes by using a QMA communication-complete problem introduced by Raz and Shpilka (CCC 2004).
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# アンサンブル推論法を用いたHuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)

Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method ( http://arxiv.org/abs/2403.14110v1 )

ライセンス: Link先を確認
Kyuwon Choi, Cheolkyun Rho, Taeyoun Kim, Daewoo Choi, (参考訳) 本稿では,自動車塗装工程におけるカラーバッチ再シーケンス問題を最適化するために,HAAM-RL(Huristic Algorithm-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。 既存のヒューリスティックアルゴリズムは、現実世界の制約を適切に反映し、ロジスティクスのパフォーマンスを正確に予測する制限がある。 提案手法では,マルコフ決定過程 (MDP) の定式化,ポテンシャルベースリワード整形を含む報酬設定,ヒューリスティックアルゴリズム (HAAM-RL) を用いたアクションマスキング,複数のRLモデルを組み合わせたアンサンブル推論など,いくつかの重要な手法が組み込まれている。 RLエージェントは、当社のRL MLOpsプラットフォームであるBakingSoDAと統合された商用3DシミュレーションソフトウェアであるFlexSimを使用して、トレーニングされ、評価される。 30シナリオにわたる実験結果から,アンサンブル推論手法を用いたHAAM-RLは従来のヒューリスティックアルゴリズムよりも16.25%の性能向上を実現し,安定かつ一貫した結果が得られることが示された。 提案手法は高い性能と一般化能力を示し, 複雑な製造プロセスの最適化に有効であることを示す。 この研究は、代替状態表現、モデルベースのRL手法の導入、さらに実世界の制約の統合など、将来の研究方向性についても論じている。

This paper presents a novel reinforcement learning (RL) approach called HAAM-RL (Heuristic Algorithm-based Action Masking Reinforcement Learning) for optimizing the color batching re-sequencing problem in automobile painting processes. The existing heuristic algorithms have limitations in adequately reflecting real-world constraints and accurately predicting logistics performance. Our methodology incorporates several key techniques including a tailored Markov Decision Process (MDP) formulation, reward setting including Potential-Based Reward Shaping, action masking using heuristic algorithms (HAAM-RL), and an ensemble inference method that combines multiple RL models. The RL agent is trained and evaluated using FlexSim, a commercial 3D simulation software, integrated with our RL MLOps platform BakingSoDA. Experimental results across 30 scenarios demonstrate that HAAM-RL with an ensemble inference method achieves a 16.25% performance improvement over the conventional heuristic algorithm, with stable and consistent results. The proposed approach exhibits superior performance and generalization capability, indicating its effectiveness in optimizing complex manufacturing processes. The study also discusses future research directions, including alternative state representations, incorporating model-based RL methods, and integrating additional real-world constraints.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# HETAL: 同型暗号化を用いた効率的なプライバシ保護トランスファー学習

HETAL: Efficient Privacy-preserving Transfer Learning with Homomorphic Encryption ( http://arxiv.org/abs/2403.14111v1 )

ライセンス: Link先を確認
Seewoo Lee, Garam Lee, Jung Woo Kim, Junbum Shin, Mun-Kyu Lee, (参考訳) 転送学習は、大規模なデータセットで事前トレーニングされたモデルに新しい分類レイヤーを追加し、微調整することで、データスカース問題に対する機械学習モデルを効率的に訓練するデファクトスタンダードな方法である。 機械学習における転送学習におけるデータプライバシの問題をサービス設定として解決するために、多くの先行研究が同型暗号化を使用することを提案したが、そのほとんどは暗号化推論にのみ焦点を絞ったものだった。 本研究では、CKKSの同型暗号化方式を用いてクライアントデータを暗号化することにより、クライアントのトレーニングタスクにおけるプライバシを保護する、効率的な同型暗号化ベースのトランスファーラーニングアルゴリズムHETALを提案する。 HETALは、暗号化トレーニングを厳格に提供し、検証ベースの早期停止を採用し、非暗号化トレーニングの精度を達成する最初の実践的スキームである。 本稿では,従来の手法よりも1.8~323倍高速な効率的な暗号化行列乗算アルゴリズムと,適用範囲を拡大した高精度なソフトマックス近似アルゴリズムを提案する。 5つのよく知られたベンチマークデータセットの実験結果は、1時間未満の567-3442秒のトレーニング時間を示している。

Transfer learning is a de facto standard method for efficiently training machine learning models for data-scarce problems by adding and fine-tuning new classification layers to a model pre-trained on large datasets. Although numerous previous studies proposed to use homomorphic encryption to resolve the data privacy issue in transfer learning in the machine learning as a service setting, most of them only focused on encrypted inference. In this study, we present HETAL, an efficient Homomorphic Encryption based Transfer Learning algorithm, that protects the client's privacy in training tasks by encrypting the client data using the CKKS homomorphic encryption scheme. HETAL is the first practical scheme that strictly provides encrypted training, adopting validation-based early stopping and achieving the accuracy of nonencrypted training. We propose an efficient encrypted matrix multiplication algorithm, which is 1.8 to 323 times faster than prior methods, and a highly precise softmax approximation algorithm with increased coverage. The experimental results for five well-known benchmark datasets show total training times of 567-3442 seconds, which is less than an hour.
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# LLMの中国語コモンセンス推論のベンチマーク:中国特色からリソン化・記憶相関へ

Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations ( http://arxiv.org/abs/2403.14112v1 )

ライセンス: Link先を確認
Jiaxing Sun, Weiquan Huang, Jiang Wu, Chenya Gu, Wei Li, Songyang Zhang, Hang Yan, Conghui He, (参考訳) 我々は,中国における大規模言語モデル(LLM)の常識推論能力を評価するための,包括的かつ詳細なベンチマークであるCHARMを紹介した。 我々は,CHARM上での7つの英語と12の中国語のLLMを評価し,Chain-of-ThoughtなどのLLMの推論能力向上のための5つの代表的なプロンプト戦略を採用した。 本研究は,LLMの言語指向性とタスク領域が,従来の研究成果に富む即時戦略の有効性に影響を与えることを示唆するものである。 我々は、密接な相互接続型推論と暗記タスクを構築し、LLMが中国語の常識を覚えるのに苦労し、推論能力に影響を及ぼすものもあれば、類似の暗記性能にもかかわらず推論の違いを示すものもあることを見出した。 また, LLMの記憶に依存しない推論能力を評価し, 典型的誤りを解析した。 本研究は, LLMの強度と弱さを正確に把握し, 最適化の方向性を明らかにした。 他の分野の研究の参考となることもある。 私たちはCHARMをhttps://github.com/opendatalab/CHARMでリリースします。

We introduce CHARM, the first benchmark for comprehensively and in-depth evaluating the commonsense reasoning ability of large language models (LLMs) in Chinese, which covers both globally known and Chinese-specific commonsense. We evaluated 7 English and 12 Chinese-oriented LLMs on CHARM, employing 5 representative prompt strategies for improving LLMs' reasoning ability, such as Chain-of-Thought. Our findings indicate that the LLM's language orientation and the task's domain influence the effectiveness of the prompt strategy, which enriches previous research findings. We built closely-interconnected reasoning and memorization tasks, and found that some LLMs struggle with memorizing Chinese commonsense, affecting their reasoning ability, while others show differences in reasoning despite similar memorization performance. We also evaluated the LLMs' memorization-independent reasoning abilities and analyzed the typical errors. Our study precisely identified the LLMs' strengths and weaknesses, providing the clear direction for optimization. It can also serve as a reference for studies in other fields. We will release CHARM at https://github.com/opendatalab/CHARM .
翻訳日:2024-03-22 15:36:52 公開日:2024-03-21
# パノラマ活動認識のための時空間親和性を考慮したデュアルパスモデル

Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition ( http://arxiv.org/abs/2403.14113v1 )

ライセンス: Link先を確認
Sumin Lee, Yooseung Wang, Sangmin Woo, Changick Kim, (参考訳) パノラマ活動認識(PAR)は、パノラマシーンにおける個人行動から社会集団、グローバル活動まで、さまざまなスケールで多様な人間の活動を特定することを目指している。 PARは2つの大きな課題を提示します。 1)多数の個人間のニュアンスド・インタラクションの認識と認識 2)多粒性人間活動の理解 そこで本稿では,2つの設計原則に基づいて,SPDP-Net(Social Proximity-aware Dual-Path Network)を提案する。 まず、画像内の個人間の空間的距離に焦点をあてる場合が多いが、時空間的近接性について考察する。 社会的ダイナミクスを正しく理解するためには、個々の関係エンコーディングが不可欠である。 第二に、既存の階層的アプローチ(個々人から人への活動)から逸脱し、多粒性活動認識のためのデュアルパスアーキテクチャを導入する。 このアーキテクチャは、複数のレイヤを通じてグローバルなコンテキストで相互にタスクを補強する、個別のグローバルパスと個別のソーシャルパスから構成される。 広汎な実験を通して,個人間の時空間近接とPARにおける二重パスアーキテクチャの有効性を検証した。 さらに、SPDP-Netは、JRDB-PARデータセット上のF1スコア全体の46.5倍のスコアで、最先端の新たなパフォーマンスを実現している。

Panoramic Activity Recognition (PAR) seeks to identify diverse human activities across different scales, from individual actions to social group and global activities in crowded panoramic scenes. PAR presents two major challenges: 1) recognizing the nuanced interactions among numerous individuals and 2) understanding multi-granular human activities. To address these, we propose Social Proximity-aware Dual-Path Network (SPDP-Net) based on two key design principles. First, while previous works often focus on spatial distance among individuals within an image, we argue to consider the spatio-temporal proximity. It is crucial for individual relation encoding to correctly understand social dynamics. Secondly, deviating from existing hierarchical approaches (individual-to-social-to-global activity), we introduce a dual-path architecture for multi-granular activity recognition. This architecture comprises individual-to-global and individual-to-social paths, mutually reinforcing each other's task with global-local context through multiple layers. Through extensive experiments, we validate the effectiveness of the spatio-temporal proximity among individuals and the dual-path architecture in PAR. Furthermore, SPDP-Net achieves new state-of-the-art performance with 46.5\% of overall F1 score on JRDB-PAR dataset.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 時間分布シフトに向けた人物再識別のためのテスト時間類似性修正

Test-time Similarity Modification for Person Re-identification toward Temporal Distribution Shift ( http://arxiv.org/abs/2403.14114v1 )

ライセンス: Link先を確認
Kazuki Adachi, Shohei Enomoto, Taku Sasaki, Shin'ya Yamaguchi, (参考訳) データベースから同一人物の画像を取得することを目的とした人物再識別(re-id)は、最も実用的な画像認識アプリケーションの一つである。 しかし、現実の世界では、画像が時間とともに変化して撮影される環境が変わります。 これにより、トレーニングとテストの間の分散シフトが発生し、re-idのパフォーマンスが低下する。 re-idパフォーマンスを維持するために、モデルはテスト環境の時間的変化に引き続き適応する必要がある。 テスト時間適応(TTA)は、未ラベルのテストデータのみでモデルをテスト環境に適用することを目的としており、TTAがテスト環境でモデルを即座に適応できるため、この問題に対処するための有望な方法である。 しかし、従来のTTA法は分類のために設計されており、re-idに直接適用することはできない。 これは、データセットにおける人々のアイデンティティのセットが、re-idにおけるトレーニングとテストの間に異なるのに対して、クラスセットは、分類用に設計された現在のTTAメソッドで固定されているためである。 テスト環境の変更におけるre-id性能の向上を目的として,TEP(TEst-time similarity Modification for Person Re-identification)を提案する。 TEMP は re-id のための最初の完全 TTA 法であり、事前トレーニングの修正は不要である。 分類における予測の不確かさを洗練させるTTA法に着想を得て,本研究はre-idにおける不確実性を改善することを目的とする。 しかし、この不確実性は、トレーニングとテストの間に個人ラベルを共有しないオープンセットタスクであるため、re-idの分類と同じ方法では計算できない。 そこで本稿では,特徴ベクトル間の類似性に基づいた再帰的不確実性尺度であるre-id entropyを提案する。 実験の結果,re-idエントロピーはre-id上の不確実性を測定することができ,TEMPは時間とともに分布が変化するオンライン環境におけるre-idの性能を向上させることが示された。

Person re-identification (re-id), which aims to retrieve images of the same person in a given image from a database, is one of the most practical image recognition applications. In the real world, however, the environments that the images are taken from change over time. This causes a distribution shift between training and testing and degrades the performance of re-id. To maintain re-id performance, models should continue adapting to the test environment's temporal changes. Test-time adaptation (TTA), which aims to adapt models to the test environment with only unlabeled test data, is a promising way to handle this problem because TTA can adapt models instantly in the test environment. However, the previous TTA methods are designed for classification and cannot be directly applied to re-id. This is because the set of people's identities in the dataset differs between training and testing in re-id, whereas the set of classes is fixed in the current TTA methods designed for classification. To improve re-id performance in changing test environments, we propose TEst-time similarity Modification for Person re-identification (TEMP), a novel TTA method for re-id. TEMP is the first fully TTA method for re-id, which does not require any modification to pre-training. Inspired by TTA methods that refine the prediction uncertainty in classification, we aim to refine the uncertainty in re-id. However, the uncertainty cannot be computed in the same way as classification in re-id since it is an open-set task, which does not share person labels between training and testing. Hence, we propose re-id entropy, an alternative uncertainty measure for re-id computed based on the similarity between the feature vectors. Experiments show that the re-id entropy can measure the uncertainty on re-id and TEMP improves the performance of re-id in online settings where the distribution changes over time.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 合成データを用いた森林分断のための点ベース深層学習ネットワークの訓練

Training point-based deep learning networks for forest segmentation with synthetic data ( http://arxiv.org/abs/2403.14115v1 )

ライセンス: Link先を確認
Francisco Raverta Capua, Juan Schandin, Pablo De Cristóforis, (参考訳) 無人航空システム(UAS)によるリモートセンシングは、近年、データ処理に機械学習を使用するとともに、林業で増加している。 ディープラーニングアーキテクチャは、自然言語と画像処理に広く適用されているが、最近、ポイントクラウドドメインに拡張されている。 しかし、トレーニングとテストのためのポイントクラウドデータセットの可用性はまだ限られている。 森林環境下でのクラウドデータセットの作成には費用がかかり、高精度なセンサーが必要であり、手動のポイント分類が必要なため、時間を要する。 さらに、森林地帯は人間には近づかないか危険であり、さらにデータ収集が複雑になる可能性がある。 すると、大量の森林データに頼ることなく、合成データを使ってディープラーニングネットワークを訓練できるかどうかが問題となる。 そこで我々は,人工林のシーンを手続き的に生成する現実的なシミュレータを開発した。 これにより、森林分断のための最先端の深層学習ネットワークの比較研究を行った。 作成したデータセットを用いて、合成データを用いてディープラーニングネットワークをトレーニングし、実際の森林データセットから点雲を分類する可能性について検討した。 この作業の一環として、シミュレータとデータセットの両方がリリースされる。

Remote sensing through unmanned aerial systems (UAS) has been increasing in forestry in recent years, along with using machine learning for data processing. Deep learning architectures, extensively applied in natural language and image processing, have recently been extended to the point cloud domain. However, the availability of point cloud datasets for training and testing remains limited. Creating forested environment point cloud datasets is expensive, requires high-precision sensors, and is time-consuming as manual point classification is required. Moreover, forest areas could be inaccessible or dangerous for humans, further complicating data collection. Then, a question arises whether it is possible to use synthetic data to train deep learning networks without the need to rely on large volumes of real forest data. To answer this question, we developed a realistic simulator that procedurally generates synthetic forest scenes. Thanks to this, we have conducted a comparative study of different state-of-the-art point-based deep learning networks for forest segmentation. Using created datasets, we determined the feasibility of using synthetic data to train deep learning networks to classify point clouds from real forest datasets. Both the simulator and the datasets are released as part of this work.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# インテリジェントでインタラクティブな筆記支援システムのための設計空間

A Design Space for Intelligent and Interactive Writing Assistants ( http://arxiv.org/abs/2403.14117v1 )

ライセンス: Link先を確認
Mina Lee, Katy Ilonka Gero, John Joon Young Chung, Simon Buckingham Shum, Vipul Raheja, Hua Shen, Subhashini Venugopalan, Thiemo Wambsganss, David Zhou, Emad A. Alghamdi, Tal August, Avinash Bhat, Madiha Zahrah Choksi, Senjuti Dutta, Jin L. C. Guo, Md Naimul Hoque, Yewon Kim, Seyed Parsa Neshaei, Agnia Sergeyuk, Antonette Shibani, Disha Shrivastava, Lila Shroff, Jessi Stark, Sarah Sterman, Sitong Wang, Antoine Bosselut, Daniel Buschek, Joseph Chee Chang, Sherol Chen, Max Kreminski, Joonsuk Park, Roy Pea, Eugenia H. Rho, Shannon Zejiang Shen, Pao Siangliulue, (参考訳) 急激な技術進歩の時代には, 様々な研究コミュニティにおいて, 筆記支援システムの研究環境が分断されつつある。 我々は,知的かつインタラクティブな筆記アシスタントの多次元空間を探索する構造的手法として,設計空間を提案することで,この問題に対処しようとしている。 大規模なコミュニティコラボレーションを通じて、私たちは、タスク、ユーザ、テクノロジ、インタラクション、エコシステムという、アシスタントを書く5つの側面を調査します。 各側面において、115の論文を体系的にレビューすることで、次元(アスペクトの基本成分)と符号(各次元の潜在的なオプション)を定義する。 我々のデザインスペースは、研究者やデザイナーに、新しい筆記アシスタントの構想と設計の様々な可能性のナビゲート、理解、比較を行うための実践的なツールを提供することを目的としています。

In our era of rapid technological advancement, the research landscape for writing assistants has become increasingly fragmented across various research communities. We seek to address this challenge by proposing a design space as a structured way to examine and explore the multidimensional space of intelligent and interactive writing assistants. Through a large community collaboration, we explore five aspects of writing assistants: task, user, technology, interaction, and ecosystem. Within each aspect, we define dimensions (i.e., fundamental components of an aspect) and codes (i.e., potential options for each dimension) by systematically reviewing 115 papers. Our design space aims to offer researchers and designers a practical tool to navigate, comprehend, and compare the various possibilities of writing assistants, and aid in the envisioning and design of new writing assistants.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 手作り特徴からLLMへ:機械翻訳品質推定のための簡単な調査

From Handcrafted Features to LLMs: A Brief Survey for Machine Translation Quality Estimation ( http://arxiv.org/abs/2403.14118v1 )

ライセンス: Link先を確認
Haofei Zhao, Yilun Liu, Shimin Tao, Weibin Meng, Yimeng Chen, Xiang Geng, Chang Su, Min Zhang, Hao Yang, (参考訳) 機械翻訳品質評価(MTQE)は,機械翻訳テキストの品質を,参照翻訳を必要とせずにリアルタイムで推定するタスクである。これはMTの開発において非常に重要である。20年間の進化を経て,QEは豊富な結果を得た。 本稿では、QEデータセット、アノテーションメソッド、共有タスク、方法論、課題、今後の研究方向性について概観する。 まず、QEの背景と重要性の紹介、続いて単語レベルのQE、文レベルのQE、文書レベルのQE、説明可能なQEの概念と評価指標の説明から始める。 本稿では,QEの歴史を通じて発達してきた手法を,手作りの特徴,深層学習,大規模言語モデル(LLM)に基づく手法に分類する。 さらに、この記事では、各メソッドの利点と制限を詳述し、異なるアプローチの直接的な比較を提供する。 最後に、QE研究における現在の課題について論じ、今後の研究方向性を展望する。

Machine Translation Quality Estimation (MTQE) is the task of estimating the quality of machine-translated text in real time without the need for reference translations, which is of great importance for the development of MT. After two decades of evolution, QE has yielded a wealth of results. This article provides a comprehensive overview of QE datasets, annotation methods, shared tasks, methodologies, challenges, and future research directions. It begins with an introduction to the background and significance of QE, followed by an explanation of the concepts and evaluation metrics for word-level QE, sentence-level QE, document-level QE, and explainable QE. The paper categorizes the methods developed throughout the history of QE into those based on handcrafted features, deep learning, and Large Language Models (LLMs), with a further division of deep learning-based methods into classic deep learning and those incorporating pre-trained language models (LMs). Additionally, the article details the advantages and limitations of each method and offers a straightforward comparison of different approaches. Finally, the paper discusses the current challenges in QE research and provides an outlook on future research directions.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# C-TPT:テキスト特徴分散による視覚言語モデルの校正テスト時間プロンプトチューニング

C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion ( http://arxiv.org/abs/2403.14119v1 )

ライセンス: Link先を確認
Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Mark Hasegawa-Johnson, Yingzhen Li, Chang D. Yoo, (参考訳) 深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。 素例は、最近提案されたCLIPのような大規模視覚言語モデルのテスト時間プロンプトチューニングである。 残念ながら、これらのプロンプトは主に精度を向上させるために開発されており、キャリブレーションの重要性は予測の不確実性を定量化する重要な側面である。 しかし、従来のキャリブレーション手法は大量のラベル付きデータに依存しており、テスト時のシナリオでは実用的ではない。 そこで本研究では,CLIPの特性を活用して,テスト時プロンプトチューニング時の校正について検討する。 一連の観察の結果,CLIP のキャリブレーションに即時選択が大きな影響を与え,高いテキスト特徴分散につながるプロンプトがより良いキャリブレーション予測をもたらすことがわかった。 平均テキスト特徴分散(ATFD)の導入により,キャリブレーションエラーとの関係を確立し,キャリブレーションの強化によるテスト時間中のプロンプトの最適化を目的とした,Callibrated Test-time Prompt Tuning(C-TPT)を提案する。 異なるCLIPアーキテクチャとデータセットに関する広範な実験を通して、C-TPTはラベル付きデータを必要としないテスト時間プロンプトチューニングのキャリブレーションを効果的に改善できることを示す。

In deep learning, test-time adaptation has gained attention as a method for model fine-tuning without the need for labeled data. A prime exemplification is the recently proposed test-time prompt tuning for large-scale vision-language models such as CLIP. Unfortunately, these prompts have been mainly developed to improve accuracy, overlooking the importance of calibration-a crucial aspect for quantifying prediction uncertainty. However, traditional calibration methods rely on substantial amounts of labeled data, making them impractical for test-time scenarios. To this end, this paper explores calibration during test-time prompt tuning by leveraging the inherent properties of CLIP. Through a series of observations, we find that the prompt choice significantly affects the calibration in CLIP, where the prompts leading to higher text feature dispersion result in better-calibrated predictions. Introducing the Average Text Feature Dispersion (ATFD), we establish its relationship with calibration error and present a novel method, Calibrated Test-time Prompt Tuning (C-TPT), for optimizing prompts during test-time with enhanced calibration. Through extensive experiments on different CLIP architectures and datasets, we show that C-TPT can effectively improve the calibration of test-time prompt tuning without needing labeled data.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# オーバーザエア・フェデレーション・ラーニングによるIIoTの進化:反復的マグニチュード・プルーニングの役割

Advancing IIoT with Over-the-Air Federated Learning: The Role of Iterative Magnitude Pruning ( http://arxiv.org/abs/2403.14120v1 )

ライセンス: Link先を確認
Fazal Muhammad Ali Khan, Hatem Abou-Zeid, Aryan Kaushik, Syed Ali Hassan, (参考訳) 産業用IoT(Industrial Internet of Things、IIoT)は、データ駆動型洞察と機械学習(ML)が製造業に革命をもたらす、相互接続型スマートデバイスの時代を象徴する。 IIoTの注目すべき開発は、デバイス間のデータプライバシとセキュリティに対処するフェデレーション学習(FL)の統合である。 FLは、周辺インテリジェンスユニット(PIU)としても知られるエッジセンサーを、機密データの明示的な共有なしに、ローカルでデータを使用して学習し、適応することを可能にし、協調的で機密性の高い学習プロセスを容易にする。 しかし、PIUの低いメモリフットプリントと計算能力は本質的に非常にコンパクトなディープニューラルネットワーク(DNN)モデルを必要とする。 プルーニングのようなモデル圧縮技術は、モデルの性能にほとんど影響を与えない不要な接続を取り除き、PIUの限られたリソースにより適するようにすることで、DNNモデルのサイズを減らすことができる。 コンパクトでロバストなDNNモデルの概念を目標とし、IIoT用オーバーザエアFL(OTA-FL)環境で訓練されたDNNモデルのイテレーティブ・マグニチュード・プルーニング(IMP)の統合を提案する。 IIoT環境におけるOTA-FLにおけるIMPの有効性について概説する。 最後に、我々は、よりコンパクトで堅牢で高性能なDNNモデルの獲得において、IIoT機能の境界を推し進めることを目的として、これらの深部圧縮技術をさらに強化し、最適化するための今後の方向性を示す。

The industrial Internet of Things (IIoT) under Industry 4.0 heralds an era of interconnected smart devices where data-driven insights and machine learning (ML) fuse to revolutionize manufacturing. A noteworthy development in IIoT is the integration of federated learning (FL), which addresses data privacy and security among devices. FL enables edge sensors, also known as peripheral intelligence units (PIUs) to learn and adapt using their data locally, without explicit sharing of confidential data, to facilitate a collaborative yet confidential learning process. However, the lower memory footprint and computational power of PIUs inherently require deep neural network (DNN) models that have a very compact size. Model compression techniques such as pruning can be used to reduce the size of DNN models by removing unnecessary connections that have little impact on the model's performance, thus making the models more suitable for the limited resources of PIUs. Targeting the notion of compact yet robust DNN models, we propose the integration of iterative magnitude pruning (IMP) of the DNN model being trained in an over-the-air FL (OTA-FL) environment for IIoT. We provide a tutorial overview and also present a case study of the effectiveness of IMP in OTA-FL for an IIoT environment. Finally, we present future directions for enhancing and optimizing these deep compression techniques further, aiming to push the boundaries of IIoT capabilities in acquiring compact yet robust and high-performing DNN models.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# スケッチによる外部知識強化3次元シーン生成

External Knowledge Enhanced 3D Scene Generation from Sketch ( http://arxiv.org/abs/2403.14121v1 )

ライセンス: Link先を確認
Zijie Wu, Mingtao Feng, Yaonan Wang, He Xie, Weisheng Dong, Bo Miao, Ajmal Mian, (参考訳) 部屋のレイアウトやオブジェクトのジオメトリの複雑さから現実的な3Dシーンを生成することは困難であり,我々は,カスタマイズされた多種多様な3Dシーンを生成するためのスケッチベース知識拡張拡散アーキテクチャ(SEK)を提案する。 SEKは、対象シーンを手書きでスケッチし、オブジェクト関係知識ベースからの手がかりでデノナイズ処理を条件付けする。 まず、オブジェクト関係を含む外部知識ベースを構築し、その後、知識強化グラフ推論を利用して手書きスケッチの理解を支援する。 シーンは3Dオブジェクトとそれらの関係の組合せとして表現され、その後段階的に拡散してガウス分布に到達する。我々は、3Dオブジェクトインスタンスとレイアウトを含むシーンを回帰的に生成し、手書きスケッチで条件付けられた拡散過程を逆転させる3Dデノナイズシーントランスフォーマーを提案する。 3D-FRONTデータセットの実験により、我々のモデルは、最も近い競合であるDiffuSceneと比較して、FID、CKLを17.41%改善し、3Dシーン生成で37.18%改善し、FIDを19.12%改善し、20.06%改善した。

Generating realistic 3D scenes is challenging due to the complexity of room layouts and object geometries.We propose a sketch based knowledge enhanced diffusion architecture (SEK) for generating customized, diverse, and plausible 3D scenes. SEK conditions the denoising process with a hand-drawn sketch of the target scene and cues from an object relationship knowledge base. We first construct an external knowledge base containing object relationships and then leverage knowledge enhanced graph reasoning to assist our model in understanding hand-drawn sketches. A scene is represented as a combination of 3D objects and their relationships, and then incrementally diffused to reach a Gaussian distribution.We propose a 3D denoising scene transformer that learns to reverse the diffusion process, conditioned by a hand-drawn sketch along with knowledge cues, to regressively generate the scene including the 3D object instances as well as their layout. Experiments on the 3D-FRONT dataset show that our model improves FID, CKL by 17.41%, 37.18% in 3D scene generation and FID, KID by 19.12%, 20.06% in 3D scene completion compared to the nearest competitor DiffuScene.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# AIとメモリウォール

AI and Memory Wall ( http://arxiv.org/abs/2403.14123v1 )

ライセンス: Link先を確認
Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney, Kurt Keutzer, (参考訳) 前例のない教師なしのトレーニングデータとニューラルスケーリング法則が利用可能になったことで、LLMのサービスとトレーニングのためのモデルサイズと計算要求が前例のない急激な増加をもたらした。 しかし、主なパフォーマンスボトルネックは、メモリ帯域幅にシフトしつつある。 過去20年間で、ピークサーバハードウェアのFLOPSは3.0x/2yrsでスケールし、DRAMと相互接続帯域の伸びを上回り、それぞれ2年ごとに1.6倍と1.4倍しかスケールしていない。 この格差は、特にサービスにおいて、AIアプリケーションにおける主要なボトルネックである計算よりもメモリを犠牲にした。 ここでは、エンコーダとデコーダ変換器モデルを分析し、デコーダモデルにおいて、メモリ帯域幅が主要なボトルネックとなることを示す。 私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。

The availability of unprecedented unsupervised training data, along with neural scaling laws, has resulted in an unprecedented surge in model size and compute requirements for serving/training LLMs. However, the main performance bottleneck is increasingly shifting to memory bandwidth. Over the past 20 years, peak server hardware FLOPS has been scaling at 3.0x/2yrs, outpacing the growth of DRAM and interconnect bandwidth, which have only scaled at 1.6 and 1.4 times every 2 years, respectively. This disparity has made memory, rather than compute, the primary bottleneck in AI applications, particularly in serving. Here, we analyze encoder and decoder Transformer models and show how memory bandwidth can become the dominant bottleneck for decoder models. We argue for a redesign in model architecture, training, and deployment strategies to overcome this memory limitation.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# スキップアテンションに基づくアップサンプリングによるポイントクラウド処理のためのソフトマスク変換器

Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling ( http://arxiv.org/abs/2403.14124v1 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Muhammad Ibrahim, Xiaoyan Liu, Tongjia Chen, Anwaar Ulhaq, Ajmal Mian, (参考訳) ポイントクラウド処理メソッドは、機能レベル%のローカルおよびグローバルなポイント機能を活用して、下流のタスクに対応しますが、エンコーディング段階ではポイントクラウドに固有のタスクレベルのコンテキストを見落とします。 我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。 そこで本研究では,タスクレベルのクエリとキーから発生するソフトマスクを利用して,タスクレベルの情報をベクトルベースの変換器に組み込むSMTransformerを提案する。 さらに,セグメンテーションなどの高レベルタスクにおける符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。 このブロックは、エンコーディング層とデコード層にまたがる様々な解像度ポイントから機能を動的に融合する。 上記のブロックの複雑さによるネットワークパラメータの増加とトレーニング時間を緩和するために,新しい共有位置符号化戦略を提案する。 この戦略により、様々なトランスフォーマーブロックが同一の解像度ポイント上で同じ位置情報を共有することができ、それによってネットワークパラメータとトレーニング時間を精度を損なうことなく削減することができる。 特に、S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUの最先端セマンティックセマンティックセマンティックセグメンテーション結果を得る。

Point cloud processing methods leverage local and global point features %at the feature level to cater to downstream tasks, yet they often overlook the task-level context inherent in point clouds during the encoding stage. We argue that integrating task-level information into the encoding stage significantly enhances performance. To that end, we propose SMTransformer which incorporates task-level information into a vector-based transformer by utilizing a soft mask generated from task-level queries and keys to learn the attention weights. Additionally, to facilitate effective communication between features from the encoding and decoding layers in high-level tasks such as segmentation, we introduce a skip-attention-based up-sampling block. This block dynamically fuses features from various resolution points across the encoding and decoding layers. To mitigate the increase in network parameters and training time resulting from the complexity of the aforementioned blocks, we propose a novel shared position encoding strategy. This strategy allows various transformer blocks to share the same position information over the same resolution points, thereby reducing network parameters and training time without compromising accuracy.Experimental comparisons with existing methods on multiple datasets demonstrate the efficacy of SMTransformer and skip-attention-based up-sampling for point cloud processing tasks, including semantic segmentation and classification. In particular, we achieve state-of-the-art semantic segmentation results of 73.4% mIoU on S3DIS Area 5 and 62.4% mIoU on SWAN dataset
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 祖先関係に基づく可変グルーピングを用いた因果グラフの学習

Learning causal graphs using variable grouping according to ancestral relationship ( http://arxiv.org/abs/2403.14125v1 )

ライセンス: Link先を確認
Ming Cai, Hisayuki Hara, (参考訳) いくつかの因果発見アルゴリズムが提案されている。 しかし,変数数に対してサンプルサイズが小さい場合には,既存手法を用いた因果グラフの推定精度が低下する。 サンプルサイズが変数の数よりも小さい場合、いくつかのメソッドは実現不可能です。 これらの問題を回避すべく、ある研究者は分割・対数アプローチを用いた因果構造学習アルゴリズムを提案した。 因果グラフ全体を学習するために、まず変数を変数間の条件独立関係に従って複数のサブセットに分割し、各サブセットに従来の因果探索アルゴリズムを適用し、推定結果をマージする。 因果構造学習アルゴリズムを適用した変数数を削減するため,特に変数数に対してサンプルサイズが小さい場合,因果構造学習アルゴリズムの精度が向上することが期待される。 しかし、既存の手法は計算コストがかかるか、サンプルサイズが小さい場合に十分な精度が得られない。 本稿では, 因果関係が線形であり, 互いに独立なノイズが連続的な非ガウス分布として分布するLiNGAM仮定の下で, 変数間の祖先関係に基づいて変数をグループ化する新しいアルゴリズムを提案する。 提案アルゴリズムをCAGと呼ぶ。 CAGにおける祖先発見の時間的複雑さは、変数の数に対して立方体であることが示されている。 提案手法は,推定精度だけでなく,サンプルサイズが変数数に対して小さく,モデルが疎い場合の計算時間においても,従来のDirectLiNGAMよりも優れていることを確認した。

Several causal discovery algorithms have been proposed. However, when the sample size is small relative to the number of variables, the accuracy of estimating causal graphs using existing methods decreases. And some methods are not feasible when the sample size is smaller than the number of variables. To circumvent these problems, some researchers proposed causal structure learning algorithms using divide-and-conquer approaches. For learning the entire causal graph, the approaches first split variables into several subsets according to the conditional independence relationships among the variables, then apply a conventional causal discovery algorithm to each subset and merge the estimated results. Since the divide-and-conquer approach reduces the number of variables to which a causal structure learning algorithm is applied, it is expected to improve the estimation accuracy of causal graphs, especially when the sample size is small relative to the number of variables and the model is sparse. However, existing methods are either computationally expensive or do not provide sufficient accuracy when the sample size is small. This paper proposes a new algorithm for grouping variables based the ancestral relationships among the variables, under the LiNGAM assumption, where the causal relationships are linear, and the mutually independent noise are distributed as continuous non-Gaussian distributions. We call the proposed algorithm CAG. The time complexity of the ancestor finding in CAG is shown to be cubic to the number of variables. Extensive computer experiments confirm that the proposed method outperforms the original DirectLiNGAM without grouping variables and other divide-and-conquer approaches not only in estimation accuracy but also in computation time when the sample size is small relative to the number of variables and the model is sparse.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 投票ステップ拡散による点雲からの3次元物体検出

3D Object Detection from Point Cloud via Voting Step Diffusion ( http://arxiv.org/abs/2403.14133v1 )

ライセンス: Link先を確認
Haoran Hou, Mingtao Feng, Zijie Wu, Weisheng Dong, Qing Zhu, Yaonan Wang, Ajmal Mian, (参考訳) 3次元物体検出はシーン理解の基本的な課題である。 Houghの投票を3Dオブジェクト検出パイプラインに組み込むことに多くの研究努力が注がれている。 しかし、実際の3Dスキャンのノイズ、散らばり、部分的な性質のため、既存の投票方式では、個々の物体の部分的な面から厳しいノイズとともに投票を受けることが多く、準最適検出性能がもたらされる。 本研究では, 点雲の分布特性に着目し, 対象中心分布の高密度領域において, 投票過程を新たな点として定式化する。 そこで本研究では,雑音条件付きスコアネットワークを用いて分布のスコア関数を推定することにより,ランダムな3D点を分布の高密度領域へ移動させる手法を提案する。 具体的には,まず,対象中心分布の高密度領域を粗大に識別するオブジェクトセンターの提案を行う。 スコア関数を推定するために、正規化されたガウス雑音を加えて生成したオブジェクト中心提案を摂動し、次に全ての摂動分布のスコア関数を共同で推定する。 最後に、推定スコア関数に従って、オブジェクト中心分布の高密度領域にランダムな3Dポイントを移動させることにより、新しい投票を生成する。 大規模屋内3DシーンデータセットであるSUN RGB-DとScanNet V2の大規模な実験により,提案手法の優位性を実証した。 コードはhttps://github.com/HHrEtvP/DiffVote.comで公開される。

3D object detection is a fundamental task in scene understanding. Numerous research efforts have been dedicated to better incorporate Hough voting into the 3D object detection pipeline. However, due to the noisy, cluttered, and partial nature of real 3D scans, existing voting-based methods often receive votes from the partial surfaces of individual objects together with severe noises, leading to sub-optimal detection performance. In this work, we focus on the distributional properties of point clouds and formulate the voting process as generating new points in the high-density region of the distribution of object centers. To achieve this, we propose a new method to move random 3D points toward the high-density region of the distribution by estimating the score function of the distribution with a noise conditioned score network. Specifically, we first generate a set of object center proposals to coarsely identify the high-density region of the object center distribution. To estimate the score function, we perturb the generated object center proposals by adding normalized Gaussian noise, and then jointly estimate the score function of all perturbed distributions. Finally, we generate new votes by moving random 3D points to the high-density region of the object center distribution according to the estimated score function. Extensive experiments on two large scale indoor 3D scene datasets, SUN RGB-D and ScanNet V2, demonstrate the superiority of our proposed method. The code will be released at https://github.com/HHrEtvP/DiffVote.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 雑音画像に対する強力な損失圧縮

Powerful Lossy Compression for Noisy Images ( http://arxiv.org/abs/2403.14135v1 )

ライセンス: Link先を確認
Shilv Cai, Xiaoguo Liang, Shuning Cao, Luxin Yan, Sheng Zhong, Liqun Chen, Xu Zou, (参考訳) 画像圧縮と復号化は多くの実世界のアプリケーションで画像処理の基本的な課題である。 現実的な要求に対処するため、現在の解決策は2つの主要な戦略に分類できる。 1) シーケンシャルな方法,及び 2) 共同方式。 しかし、逐次的手法は、複数の個人モデル間での情報損失があるため、エラー蓄積の欠点がある。 近年、学術コミュニティはエンドツーエンドのジョイント手法によってこの問題に取り組み始めている。 それらの多くは、ノイズの多い画像の異なる領域が異なる特徴を持っていることを無視している。 そこで本稿では,画像圧縮と復調を同時に行うために,局所的および非局所的特徴を利用した信号対雑音比~(SNR)対応ジョイントソリューションを提案する。 我々は,主エンコーダ分岐,誘導分岐,信号対雑音比~(SNR)対応分岐を含むエンドツーエンドのトレーニング可能なネットワークを設計する。 我々は、合成と実世界の両方のデータセットについて広範な実験を行い、我々のジョイントソリューションが既存の最先端手法より優れていることを実証した。

Image compression and denoising represent fundamental challenges in image processing with many real-world applications. To address practical demands, current solutions can be categorized into two main strategies: 1) sequential method; and 2) joint method. However, sequential methods have the disadvantage of error accumulation as there is information loss between multiple individual models. Recently, the academic community began to make some attempts to tackle this problem through end-to-end joint methods. Most of them ignore that different regions of noisy images have different characteristics. To solve these problems, in this paper, our proposed signal-to-noise ratio~(SNR) aware joint solution exploits local and non-local features for image compression and denoising simultaneously. We design an end-to-end trainable network, which includes the main encoder branch, the guidance branch, and the signal-to-noise ratio~(SNR) aware branch. We conducted extensive experiments on both synthetic and real-world datasets, demonstrating that our joint solution outperforms existing state-of-the-art methods.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 相補的クラス内およびクラス間混合による画像分類精度の向上

Improving Image Classification Accuracy through Complementary Intra-Class and Inter-Class Mixup ( http://arxiv.org/abs/2403.14137v1 )

ライセンス: Link先を確認
Ye Xu, Ya Gao, Xiaorong Qiu, Yang Chen, Ying Ji, (参考訳) Manifold MixUpのようなMixUpとその変種には、画像分類タスクに2つの重要な制限がある。 まず、彼らはしばしば同じクラス内の混合(クラス内の混合)を無視し、同じクラス内のサンプル間の関係を未利用にする。 第2に,これらの手法はクラス間の混合によるクラス間分離性を効果的に向上するが,混合操作によるクラス内凝集の改善が不足し,分類性能が制限される。 これらの課題に対処するため,我々は,新しい混合手法と包括的統合解を提案する。我々のミックスアップ手法は,従来の混合手法では提供されていないクラス内凝集度を向上するため,特にクラス内混合を対象とし,各ミニバッチでは,ミニバッチ内の各クラスからの未拡張オリジナル画像の特徴表現を用いて,ランダム線形補間による単一合成特徴表現を生成する。 このミニバッチのすべての合成表現は、分類層と損失層に入力され、クラス内の凝集度を著しく高める平均的な分類損失を計算する。 さらに、私たちの統合ソリューションは、クラス内ミックスアップメソッドとMixUpやManifold MixUpのような既存のミックスアップアプローチをシームレスに組み合わせます。 この包括的ソリューションは、クラス内結合とクラス間分離性を同時に改善しながら、クラス内およびクラス内混合をバランスよく組み込む。 6つの公開データセットに対する実験結果から、我々の統合されたソリューションはMixUpまたは私たちのクラス内混合方式のベストよりも0.1%から3.43%高い精度を実現し、平均1.16%のゲインを達成していることが示された。 また、Manifold MixUpまたは私たちのクラス内ミックスアップメソッドのパフォーマンスも0.12%から5.16%向上し、平均1.11%向上した。

MixUp and its variants, such as Manifold MixUp, have two key limitations in image classification tasks. First, they often neglect mixing within the same class (intra-class mixup), leading to an underutilization of the relationships among samples within the same class. Second, although these methods effectively enhance inter-class separability by mixing between different classes (inter-class mixup), they fall short in improving intra-class cohesion through their mixing operations, limiting their classification performance. To tackle these issues, we propose a novel mixup method and a comprehensive integrated solution.Our mixup approach specifically targets intra-class mixup, an aspect commonly overlooked, to strengthen intra-class cohesion-a feature not provided by current mixup techniques.For each mini-batch, our method utilizes feature representations of unaugmented original images from each class within the mini-batch to generate a single synthesized feature representation through random linear interpolation. All synthesized representations for this mini-batch are then fed into the classification and loss layers to calculate an average classification loss that can markedly enhance intra-class cohesion. Moreover, our integrated solution seamlessly combines our intra-class mixup method with an existing mixup approach such as MixUp or Manifold MixUp. This comprehensive solution incorporates inter- and intra-class mixup in a balanced manner while concurrently improving intra-class cohesion and inter-class separability. Experimental results on six public datasets demonstrate that our integrated solution achieves a 0.1% to 3.43% higher accuracy than the best of either MixUp or our intra-class mixup method, averaging a 1.16% gain. It also outperforms the better performer of either Manifold MixUp or our intra-class mixup method by 0.12% to 5.16%, with an average gain of 1.11%.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 不確かさを意識したベイズカーネル推論を用いたオフロード環境におけるエビデンシャルセマンティックマッピング

Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference ( http://arxiv.org/abs/2403.14138v1 )

ライセンス: Link先を確認
Junyoung Kim, Junwon Seo, Jihong Min, (参考訳) ベイジアンカーネル推論(BKI)を用いたロボットマッピングは,局所的な空間情報を効果的に活用して意味地図を作成する上で有望であることを示す。 しかし,既存のセマンティックマッピング手法では,信頼できないセマンティックな予測のため,非構造化屋外シナリオにおける信頼性の高いマップ構築の課題に直面している。 そこで本研究では,オフロード環境の認識に難渋する環境における信頼性を高めることを目的とした,明確なセマンティックマッピングを提案する。 セマンティックセグメンテーションネットワークにEvidential Deep Learningを組み込んで,セマンティック予測の不確かさを推定する。 このセマンティックな不確実性は、セマンティック情報を蓄積する際により確実なセマンティックな予測を優先するように、不確実性を意識したBKIに組み込まれる。 セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。 様々なオフロードデータセットに対する総合的な実験により、我々のフレームワークは精度とロバスト性を向上し、知覚の不確実性の高いシーンにおける既存の手法を一貫して上回ることを示した。

Robotic mapping with Bayesian Kernel Inference (BKI) has shown promise in creating semantic maps by effectively leveraging local spatial information. However, existing semantic mapping methods face challenges in constructing reliable maps in unstructured outdoor scenarios due to unreliable semantic predictions. To address this issue, we propose an evidential semantic mapping, which can enhance reliability in perceptually challenging off-road environments. We integrate Evidential Deep Learning into the semantic segmentation network to obtain the uncertainty estimate of semantic prediction. Subsequently, this semantic uncertainty is incorporated into an uncertainty-aware BKI, tailored to prioritize more confident semantic predictions when accumulating semantic information. By adaptively handling semantic uncertainties, the proposed framework constructs robust representations of the surroundings even in previously unseen environments. Comprehensive experiments across various off-road datasets demonstrate that our framework enhances accuracy and robustness, consistently outperforming existing methods in scenes with high perceptual uncertainties.
翻訳日:2024-03-22 15:27:06 公開日:2024-03-21
# 説明可能なマニフォールド学習のための遺伝的プログラミング

Genetic Programming for Explainable Manifold Learning ( http://arxiv.org/abs/2403.14139v1 )

ライセンス: Link先を確認
Ben Cravens, Andrew Lensen, Paula Maddigan, Bing Xue, (参考訳) 高次元データへの低次元埋め込みを明らかにすることにより、データから低次元表現に変換することにより、データ解析の効率性と解釈性の両方を高めることにより、機械学習においてマニフォールド学習技術は重要な役割を担っている。 しかし、現在の多様体学習法における顕著な課題は、多くの実世界のアプリケーションにおいて説明可能性に不可欠な明示的な関数写像の欠如である。 解析可能な機能木ベースモデルで知られる遺伝的プログラミングは、この問題に対処するための有望なアプローチとして登場した。 従来の研究では、多目的GPを利用して多様体の質を埋め込み次元とバランスさせ、様々な埋め込みサイズの関数写像を生み出した。 しかし、これらのマッピングツリーはしばしば複雑になり、説明可能性の妨げとなった。 そこで本研究では,木を複雑化する新しい手法GP-EMaLを提案する。 我々の新しい手法は、説明可能性を大幅に向上しつつ高い多様体品質を維持することができ、また、様々なアプリケーションニーズに対応するために、対称性のバランス、スケーリング、ノードの複雑さといった複雑さの度合いをカスタマイズできる。 実験により,GP-EMaLはより単純で小さく,より解釈可能な木構造を用いながら,既存手法の性能に適合することを示した。 この進歩は、解釈可能な多様体学習を達成するための重要なステップである。

Manifold learning techniques play a pivotal role in machine learning by revealing lower-dimensional embeddings within high-dimensional data, thus enhancing both the efficiency and interpretability of data analysis by transforming the data into a lower-dimensional representation. However, a notable challenge with current manifold learning methods is their lack of explicit functional mappings, crucial for explainability in many real-world applications. Genetic programming, known for its interpretable functional tree-based models, has emerged as a promising approach to address this challenge. Previous research leveraged multi-objective GP to balance manifold quality against embedding dimensionality, producing functional mappings across a range of embedding sizes. Yet, these mapping trees often became complex, hindering explainability. In response, in this paper, we introduce Genetic Programming for Explainable Manifold Learning (GP-EMaL), a novel approach that directly penalises tree complexity. Our new method is able to maintain high manifold quality while significantly enhancing explainability and also allows customisation of complexity measures, such as symmetry balancing, scaling, and node complexity, catering to diverse application needs. Our experimental analysis demonstrates that GP-EMaL is able to match the performance of the existing approach in most cases, while using simpler, smaller, and more interpretable tree structures. This advancement marks a significant step towards achieving interpretable manifold learning.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 属性中心情報による非可逆的・疎外的表現の学習

Learning Decomposable and Debiased Representations via Attribute-Centric Information Bottlenecks ( http://arxiv.org/abs/2403.14140v1 )

ライセンス: Link先を確認
Jinyung Hong, Eun Som Jeon, Changhoon Kim, Keun Hee Park, Utkarsh Nath, Yezhou Yang, Pavan Turaga, Theodore P. Pavlic, (参考訳) データセットのターゲットラベルと突発的に相関するバイアス属性は、分類の不適切なショートカットを学習し、アウト・オブ・ディストリビューション(OOD)の一般化の能力を制限するニューラルネットワークに問題を引き起こす可能性がある。 バイアス付きデータセットからの正確な予測を保証するために、多くのデバイアスングアプローチが提案されているが、本質的な属性とバイアス付き属性からなる潜伏埋め込みの学習がパフォーマンスの向上に寄与し、モデルがどのように属性に注意を払うかを説明する研究はほとんどない。 本稿では,属性の構成表現を特定のバイアスタイプを定義せずに学習するための注意に基づく情報ボトルネックを導入した,新しいデバイアス処理フレームワークであるデバイアスンググローバルワークスペースを提案する。 形状中心表現の学習は,OODデータセット上での頑健な性能向上に寄与すると考えられることから,本質的・偏見的属性に対応する分解可能な潜伏埋め込みの頑健で一般化可能な表現を学習する能力を採用している。 属性中心表現学習における我々のアプローチの有効性と、本質的特徴と偏見的特徴を区別する能力を示すため、偏見付きデータセットの包括的評価を行い、定量的および定性的な分析を行った。

Biased attributes, spuriously correlated with target labels in a dataset, can problematically lead to neural networks that learn improper shortcuts for classifications and limit their capabilities for out-of-distribution (OOD) generalization. Although many debiasing approaches have been proposed to ensure correct predictions from biased datasets, few studies have considered learning latent embedding consisting of intrinsic and biased attributes that contribute to improved performance and explain how the model pays attention to attributes. In this paper, we propose a novel debiasing framework, Debiasing Global Workspace, introducing attention-based information bottlenecks for learning compositional representations of attributes without defining specific bias types. Based on our observation that learning shape-centric representation helps robust performance on OOD datasets, we adopt those abilities to learn robust and generalizable representations of decomposable latent embeddings corresponding to intrinsic and biasing attributes. We conduct comprehensive evaluations on biased datasets, along with both quantitative and qualitative analyses, to showcase our approach's efficacy in attribute-centric representation learning and its ability to differentiate between intrinsic and bias-related features.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# マルチモーダル大言語モデルに対するセグメンテーション能力の強化

Empowering Segmentation Ability to Multi-modal Large Language Models ( http://arxiv.org/abs/2403.14141v1 )

ライセンス: Link先を確認
Yuqi Yang, Peng-Tao Jiang, Jing Wang, Hao Zhang, Kai Zhao, Jinwei Chen, Bo Li, (参考訳) マルチモーダル大言語モデル(MLLM)は、画像言語プロンプトを理解し、印象的な推論能力を示す。 本稿では,MLLMをセグメント化能力で拡張することで,MLLMの出力を拡大する。 拡張MLLMは、画像言語プロンプトに対する言語応答を出力し、言語プロンプト内の複雑な質問やクエリがフォーカスする領域をセグメント化することができる。 この目的のために、既存の作業であるLISAは、セグメントトークンの追加と微調整ダイアログ生成とクエリ中心セグメンテーションを併用することで、元の単語埋め込みを拡張し、セグメントトークンの特徴をセグメント・アズ・ア・モデルに促す。 セグメンテーション性能は優れているが,従来のMLLMに比べて対話能力は大幅に低下する。 従来のMLLMの対話能力を維持するために,LLaVASegと呼ばれる新しいMLLMフレームワークを提案する。 MLLMは、まず、複雑なユーザクエリからターゲット領域の単純な記述を推論し、画像へのMLLMの理解に基づいてターゲット領域の視覚的属性を抽出する。 これらの視覚特性、例えば色や相対位置は、下流のセグメンテーションモデルを促進するために利用される。 実験により,提案手法は元の対話能力を保ち,MLLMのモデルに強い推論セグメンテーション能力を持たせることを示した。 コードはhttps://github.com/YuqiYang213/LLaVASegで公開されている。

Multi-modal large language models (MLLMs) can understand image-language prompts and demonstrate impressive reasoning ability. In this paper, we extend MLLMs' output by empowering MLLMs with the segmentation ability. The extended MLLMs can both output language responses to the image-language prompts and segment the regions that the complex question or query in the language prompts focuses on. To this end, the existing work, LISA, enlarges the original word embeddings with an additional segment token and fine-tunes dialogue generation and query-focused segmentation together, where the feature of the segment token is used to prompt the segment-anything model. Although they achieve superior segmentation performance, we observe that the dialogue ability decreases by a large margin compared to the original MLLMs. To maintain the original MLLMs' dialogue ability, we propose a novel MLLMs framework, coined as LLaVASeg, which leverages a chain-of-thought prompting strategy to instruct the MLLMs to segment the target region queried by the user. The MLLMs are first prompted to reason about the simple description of the target region from the complicated user query, then extract the visual attributes of the target region according to the understanding of MLLMs to the image. These visual attributes, such as color and relative locations, are utilized to prompt the downstream segmentation model. Experiments show that the proposed method keeps the original dialogue ability and equips the MLLMs' model with strong reasoning segmentation ability. The code is available at https://github.com/YuqiYang213/LLaVASeg.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 古典的光による量子計算の無条件検証

Unconditional verification of quantum computation with classical light ( http://arxiv.org/abs/2403.14142v1 )

ライセンス: Link先を確認
Yuki Takeuchi, Akihiro Mizutani, (参考訳) 量子計算の検証は、量子コンピュータから与えられた出力が正しいかどうかを効率的にチェックするタスクである。 検証対象の量子コンピュータと検証対象間の既存の検証プロトコルは、量子コンピュータの悪意ある振る舞いを無条件に検出するために、${\sf BQP}$で解決する。 本稿では,量子コンピュータにコヒーレント光を送出する「物理古典的」検証プロトコルを提案することにより,量子ビットの通信の必要性を解消する。

Verification of quantum computation is a task to efficiently check whether an output given from a quantum computer is correct. Existing verification protocols conducted between a quantum computer to be verified and a verifier necessitate quantum communication to unconditionally detect any malicious behavior of the quantum computer solving any promise problem in ${\sf BQP}$. In this paper, we remove the necessity of the communication of qubits by proposing a "physically-classical" verification protocol in which the verifier just sends coherent light to the quantum computer.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 表面上の原子スピンを持つトポロジカル量子マグネットの実現

Realizing topological quantum magnets with atomic spins on surfaces ( http://arxiv.org/abs/2403.14145v1 )

ライセンス: Link先を確認
Hao Wang, Peng Fan, Jing Chen, Lili Jiang, Hong-Jun Gao, Jose L. Lado, Kai Yang, (参考訳) 人工量子システムは、よく制御された方法でエキゾチックなトポロジカルな物質を実現するために、必須のプラットフォームとして登場した。 本稿では,走査型トンネル顕微鏡(STM)における絶縁膜上のスピン1/2原子を用いたスピン鎖と2次元スピンアレイで構築したトポロジカル量子ハイゼンベルクスピン格子を実演する。 量子スピンモデルのトポロジカル相と自明相の両方を原子精度で設計し,一階および二階のトポロジカル量子マグネットを実現した。 これらの多体励起は超高エネルギー分解能の単原子電子スピン共鳴によって観測された。 STM先端の原子局在化磁場は、位相的エッジ状態、位相的欠陥、高次コーナーモードを含む様々な位相的境界モードを直接可視化することができる。 この結果は、相互作用するスピンのエキゾチックな量子多体相をシミュレートするための重要なボトムアップアプローチを提供する。

Artificial quantum systems have emerged as indispensable platforms to realize exotic topological matter in a well-controlled manner. Here, we demonstrate topological quantum Heisenberg spin lattices, engineered with spin chains and two-dimensional spin arrays using spin 1/2 atoms on insulating films in a scanning tunnelling microscope (STM). We engineered with atomic precision both topological and trivial phases of the quantum spin model, realizing first- and second-order topological quantum magnets. Their many-body excitations were probed by single-atom electron spin resonance with ultrahigh energy resolution. The atomically-localized magnetic field of the STM tip allows us to directly visualize various topological bound modes including topological edge states, topological defects, and higher-order corner modes. Our results provide an important bottom-up approach to simulating exotic quantum many-body phases of interacting spins.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 遺伝的プログラミングによる進化的アルゴリズムの比較のためのベンチマーク関数の進化

Evolving Benchmark Functions to Compare Evolutionary Algorithms via Genetic Programming ( http://arxiv.org/abs/2403.14146v1 )

ライセンス: Link先を確認
Yifan He, Claus Aranha, (参考訳) 本研究では,新しい最適化ベンチマーク関数を構成するために遺伝的プログラミング(GP)を用いる。 最適化ベンチマークは、進化的アルゴリズムの違いを示す重要な役割を持ち、さらなる分析と比較を可能にする。 GPによって生成されたベンチマークは、人為的なベンチマーク関数よりもアルゴリズムの区別が優れていることを示す。 GPの適合度測度は、一対のオプティマイザによって見つかる解のワッサーシュタイン距離である。 さらに, MAP-Elitesを用いてGPの探索能力を高めるとともに, ランドスケープの特徴によって最適化器の違いがどう変化するかを示す。 提案手法は,ベンチマーク関数の設計を自動化し,進化的アルゴリズムを比較する新しい方法を提供する。

In this study, we use Genetic Programming (GP) to compose new optimization benchmark functions. Optimization benchmarks have the important role of showing the differences between evolutionary algorithms, making it possible for further analysis and comparisons. We show that the benchmarks generated by GP are able to differentiate algorithms better than human-made benchmark functions. The fitness measure of the GP is the Wasserstein distance of the solutions found by a pair of optimizers. Additionally, we use MAP-Elites to both enhance the search power of the GP and also illustrate how the difference between optimizers changes by various landscape features. Our approach provides a novel way to automate the design of benchmark functions and to compare evolutionary algorithms.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# コンテンツフレーム運動潜時分解による効率的なビデオ拡散モデル

Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition ( http://arxiv.org/abs/2403.14148v1 )

ライセンス: Link先を確認
Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar, (参考訳) ビデオ拡散モデルは、最近、生成品質を著しく向上させたが、依然として高いメモリと計算要求によって制限されている。 これは、現在のビデオ拡散モデルは、しばしば高次元ビデオを直接処理しようとするためである。 この問題に対処するために、ビデオ生成のための事前学習画像拡散モデルの新たな効率的な拡張であるコンテンツモーション潜在拡散モデル(CMD)を提案する。 具体的には、映像を(画像のような)コンテンツフレームと低次元動作遅延表現の組み合わせとして簡潔に符号化するオートエンコーダを提案する。 前者は共通の内容を表し、後者は動画の下位の動きを表す。 我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。 ここでの重要な革新は、事前訓練された画像拡散モデルを直接利用できるコンパクトな潜伏空間の設計である。 これにより、品質が大幅に向上し、計算コストが削減される。 例えば、CMDは512$\times$1024の解像度と長さ16を3.1秒で生成することで、以前のアプローチよりも速い7.7$\times$のビデオをサンプリングすることができる。 さらに、CMDはWebVid-10MでFVDスコアが212.7、以前の292.4よりも27.3%向上している。

Video diffusion models have recently made great progress in generation quality, but are still limited by the high memory and computational requirements. This is because current video diffusion models often attempt to process high-dimensional videos directly. To tackle this issue, we propose content-motion latent diffusion model (CMD), a novel efficient extension of pretrained image diffusion models for video generation. Specifically, we propose an autoencoder that succinctly encodes a video as a combination of a content frame (like an image) and a low-dimensional motion latent representation. The former represents the common content, and the latter represents the underlying motion in the video, respectively. We generate the content frame by fine-tuning a pretrained image diffusion model, and we generate the motion latent representation by training a new lightweight diffusion model. A key innovation here is the design of a compact latent space that can directly utilizes a pretrained image diffusion model, which has not been done in previous latent video diffusion models. This leads to considerably better quality generation and reduced computational costs. For instance, CMD can sample a video 7.7$\times$ faster than prior approaches by generating a video of 512$\times$1024 resolution and length 16 in 3.1 seconds. Moreover, CMD achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous state-of-the-art of 292.4.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 軌道データ管理とマイニングのためのディープラーニング - 調査とその先

Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond ( http://arxiv.org/abs/2403.14151v1 )

ライセンス: Link先を確認
Wei Chen, Yuxuan Liang, Yuanshao Zhu, Yanchuan Chang, Kang Luo, Haomin Wen, Lei Li, Yanwei Yu, Qingsong Wen, Chao Chen, Kai Zheng, Yunjun Gao, Xiaofang Zhou, Yu Zheng, (参考訳) 軌道計算は軌道データ管理と鉱業を含む重要な領域であり、位置サービス、都市交通、公共安全など様々な実用用途において重要な役割を担っているため、広く注目を集めている。 単純化された時空間的特徴に焦点をあてた伝統的な手法は、複雑な計算の課題に直面し、スケーラビリティが制限され、現実の複雑さへの適応性が不十分である。 本稿では,トラジェクティブ・コンピューティングのためのディープラーニング(DL4Traj)の開発と最近の進歩について概説する。 まず、軌道データを定義し、広く使われているディープラーニングモデルの概要を概観する。 システム的には、トラジェクトリ管理(前処理、記憶、分析、可視化)およびマイニング(トラジェクトリ関連予測、トラジェクトリ関連推奨、トラジェクトリ分類、旅行時間推定、異常検出、モビリティ生成)におけるディープラーニングの適用について検討する。 特に,近年の大規模言語モデル (LLM) の進歩をカプセル化し,軌道計算を増強する可能性を秘めている。 さらに、アプリケーションシナリオ、パブリックデータセット、ツールキットを要約します。 最後に,DL4Traj研究の課題について概説し,今後の方向性を提案する。 関連論文とオープンソースリソースはコラージュされ、次のように継続的に更新されている。

Trajectory computing is a pivotal domain encompassing trajectory data management and mining, garnering widespread attention due to its crucial role in various practical applications such as location services, urban traffic, and public safety. Traditional methods, focusing on simplistic spatio-temporal features, face challenges of complex calculations, limited scalability, and inadequate adaptability to real-world complexities. In this paper, we present a comprehensive review of the development and recent advances in deep learning for trajectory computing (DL4Traj). We first define trajectory data and provide a brief overview of widely-used deep learning models. Systematically, we explore deep learning applications in trajectory management (pre-processing, storage, analysis, and visualization) and mining (trajectory-related forecasting, trajectory-related recommendation, trajectory classification, travel time estimation, anomaly detection, and mobility generation). Notably, we encapsulate recent advancements in Large Language Models (LLMs) that hold the potential to augment trajectory computing. Additionally, we summarize application scenarios, public datasets, and toolkits. Finally, we outline current challenges in DL4Traj research and propose future directions. Relevant papers and open-source resources have been collated and are continuously updated at: \href{https://github.com/yoshall/Awesome-Trajectory-Computing}{DL4Traj Repo}.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# ゼロショットテキスト・ツー・イメージのカスタマイズのための視覚的・テキスト的埋め込みの調和

Harmonizing Visual and Textual Embeddings for Zero-Shot Text-to-Image Customization ( http://arxiv.org/abs/2403.14155v1 )

ライセンス: Link先を確認
Yeji Song, Jimyeong Kim, Wonhark Park, Wonsik Shin, Wonjong Rhee, Nojun Kwak, (参考訳) テキスト・ツー・イメージ(T2I)モデルの急増と、ユーザが提供する対象の新たなイメージを生成するカスタマイズ方法において、現在の作業は、オブジェクトごとの長い最適化によって生じるコストを軽減することに重点を置いている。 これらのゼロショットカスタマイズ方法は、特定の対象の画像を視覚埋め込みにエンコードし、テキスト埋め込みと共に拡散誘導に利用する。 視覚的埋め込みには本質的な情報が含まれており、テキスト埋め込みは新たな過渡的なコンテキストを提供する。 しかし、既存の方法はしばしば 1) 入力画像の影響は顕著であった。 で、同じポーズで画像を生成し、 2)対象者の身元が劣化している。 まず,視覚埋め込みにおける冗長なポーズ情報が,所望のポーズ情報を含むテキスト埋め込みに干渉することを示す。 この問題に対処するため,テキスト埋め込みと効果的に調和した直交型視覚埋め込みを提案する。 また、視覚のみの埋め込みを採用し、自己注意スワップを用いて被験者の明確な特徴を注入する。 提案手法の有効性とロバスト性を実証し, 被験者のアイデンティティを効果的に維持しつつ, 高いフレキシブルなゼロショット生成を実現する。

In a surge of text-to-image (T2I) models and their customization methods that generate new images of a user-provided subject, current works focus on alleviating the costs incurred by a lengthy per-subject optimization. These zero-shot customization methods encode the image of a specified subject into a visual embedding which is then utilized alongside the textual embedding for diffusion guidance. The visual embedding incorporates intrinsic information about the subject, while the textual embedding provides a new, transient context. However, the existing methods often 1) are significantly affected by the input images, eg., generating images with the same pose, and 2) exhibit deterioration in the subject's identity. We first pin down the problem and show that redundant pose information in the visual embedding interferes with the textual embedding containing the desired pose information. To address this issue, we propose orthogonal visual embedding which effectively harmonizes with the given textual embedding. We also adopt the visual-only embedding and inject the subject's clear features utilizing a self-attention swap. Our results demonstrate the effectiveness and robustness of our method, which offers highly flexible zero-shot generation while effectively maintaining the subject's identity.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# ルカヘッドと政策鏡

Policy Mirror Descent with Lookahead ( http://arxiv.org/abs/2403.14156v1 )

ライセンス: Link先を確認
Kimon Protopapas, Anas Barakat, (参考訳) Policy Mirror Descent (PMD) は、TRPOやPPOのような最先端の強化学習(RL)アルゴリズムと接続する、自然政策勾配のようないくつかの基本的なポリシー勾配アルゴリズムを含む汎用的なアルゴリズムフレームワークである。 PMDは、正規化された1段階の欲求政策改善を実装するソフトポリシーイテレーションアルゴリズムと見なすことができる。 しかし、1段階の欲求政策は最良の選択ではないかもしれないし、AlphaGoやAlphaZeroのようなRLにおける最近の顕著な経験的成功は、複数のステップに対する欲求的アプローチが1段階よりも優れていることを示した。 そこで本研究では,PMD更新ルールに対するルックアヘッド深度$h$の多段階グリージーポリシーの改善を取り入れた,新しいPMDアルゴリズムである$h$-PMDを提案する。 割引された無限地平面マルコフ決定過程を割引係数$\gamma$で解くために、標準PMDを一般化する$h$-PMDがより高速な次元自由な$\gamma^h$-linear convergence rate(英語版)を享受し、多段階グリーディポリシーの計算に係わることを示す。 我々は、ルックアヘッドアクション値を推定する$h$-PMDの不正確なバージョンを提案する。 生成モデルの下では、以前の作業よりも改善された$h$-PMDのサンプル複雑性を確立する。 最後に、この結果を線形関数近似に拡張し、大規模状態空間に拡張する。 適切な仮定の下では、我々のサンプルの複雑さは状態空間のサイズではなく特徴写像空間の次元に依存するだけである。

Policy Mirror Descent (PMD) stands as a versatile algorithmic framework encompassing several seminal policy gradient algorithms such as natural policy gradient, with connections with state-of-the-art reinforcement learning (RL) algorithms such as TRPO and PPO. PMD can be seen as a soft Policy Iteration algorithm implementing regularized 1-step greedy policy improvement. However, 1-step greedy policies might not be the best choice and recent remarkable empirical successes in RL such as AlphaGo and AlphaZero have demonstrated that greedy approaches with respect to multiple steps outperform their 1-step counterpart. In this work, we propose a new class of PMD algorithms called $h$-PMD which incorporates multi-step greedy policy improvement with lookahead depth $h$ to the PMD update rule. To solve discounted infinite horizon Markov Decision Processes with discount factor $\gamma$, we show that $h$-PMD which generalizes the standard PMD enjoys a faster dimension-free $\gamma^h$-linear convergence rate, contingent on the computation of multi-step greedy policies. We propose an inexact version of $h$-PMD where lookahead action values are estimated. Under a generative model, we establish a sample complexity for $h$-PMD which improves over prior work. Finally, we extend our result to linear function approximation to scale to large state spaces. Under suitable assumptions, our sample complexity only involves dependence on the dimension of the feature map space instead of the state space size.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 視覚言語ナビゲーションのためのボリューム環境表現

Volumetric Environment Representation for Vision-Language Navigation ( http://arxiv.org/abs/2403.14158v1 )

ライセンス: Link先を確認
Rui Liu, Wenguan Wang, Yi Yang, (参考訳) 視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。 ナビゲーションを成功させる重要な要因は、総合的なシーン理解にあることは明らかである。 従来のVLNエージェントは、一眼レフビューの2D特徴を直接抽出するために単眼フレームワークを使用していた。 しかし、彼らは3D幾何学と意味論の獲得に苦慮し、部分的かつ不完全な環境表現へと繋がる。 細部まで細部まで細部を網羅した3D表現を実現するために,物理世界を3D細胞に酸化するボリューム環境表現(VER)を導入する。 各セルに対して、VERは2D-3Dサンプリングを通じて、複数のビュー2D特徴をこのような統一された3D空間に集約する。 VERの粗い特徴抽出とマルチタスク学習により、エージェントは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。 オンラインで収集したVERに基づいて,本エージェントはボリューム状態の推定を行い,次のステップを予測するためのエピソードメモリを構築する。 実験の結果,マルチタスク学習による環境表現は,VLNの性能向上につながることが示された。 我々のモデルは,VLNベンチマーク(R2R,REVERIE,R4R)における最先端性能を実現する。

Vision-language navigation (VLN) requires an agent to navigate through an 3D environment based on visual observations and natural language instructions. It is clear that the pivotal factor for successful navigation lies in the comprehensive scene understanding. Previous VLN agents employ monocular frameworks to extract 2D features of perspective views directly. Though straightforward, they struggle for capturing 3D geometry and semantics, leading to a partial and incomplete environment representation. To achieve a comprehensive 3D representation with fine-grained details, we introduce a Volumetric Environment Representation (VER), which voxelizes the physical world into structured 3D cells. For each cell, VER aggregates multi-view 2D features into such a unified 3D space via 2D-3D sampling. Through coarse-to-fine feature extraction and multi-task learning for VER, our agent predicts 3D occupancy, 3D room layout, and 3D bounding boxes jointly. Based on online collected VERs, our agent performs volume state estimation and builds episodic memory for predicting the next step. Experimental results show our environment representations from multi-task learning lead to evident performance gains on VLN. Our model achieves state-of-the-art performance across VLN benchmarks (R2R, REVERIE, and R4R).
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# 大規模言語モデルに基づくマルチモーダル入力目標ナビゲーションのためのルームオブジェクト関係知識の活用

Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation ( http://arxiv.org/abs/2403.14163v1 )

ライセンス: Link先を確認
Leyuan Sun, Asako Kanezaki, Guillaume Caron, Yusuke Yoshiyasu, (参考訳) オブジェクトゴールナビゲーションは、具体的ナビゲーションのコミュニティにとって重要なエンジニアリングタスクである。 エンド・ツー・エンド・エンド・ツー・エンド・エンドとモジュラー・ベースのデータ駆動型アプローチの両方について広範な調査が行われてきたが、エージェントが知覚的知識を通じて環境を理解でき、人間と同じくらい効率的に目標のナビゲーションを実行できることは大きな課題である。 近年、知識抽出と統合のための強力な能力のおかげで、大きな言語モデルがこのタスクに可能性を示している。 本研究では,大規模言語モデルから抽出したオブジェクト間関係の共通知識を組み込んだデータセットに基づいて,データ駆動型モジュール型アプローチを提案する。 マルチチャネルSwin-Unetアーキテクチャを用いてマルチモーダル入力を組み込んだマルチタスク学習を行う。 Habitatシミュレーターの結果、我々のフレームワークは平均10.6%の効率でベースラインを上回り、Path Length(SPL)が重み付けした成功(Success)を実証した。 実世界の実演では、提案手法が複数の部屋を横断することで効率よくこの課題を遂行できることが示されている。 詳細と実世界のデモについては、プロジェクトのWebページ(https://sunleyuan.github.io/ObjectNav)を参照してください。

Object-goal navigation is a crucial engineering task for the community of embodied navigation; it involves navigating to an instance of a specified object category within unseen environments. Although extensive investigations have been conducted on both end-to-end and modular-based, data-driven approaches, fully enabling an agent to comprehend the environment through perceptual knowledge and perform object-goal navigation as efficiently as humans remains a significant challenge. Recently, large language models have shown potential in this task, thanks to their powerful capabilities for knowledge extraction and integration. In this study, we propose a data-driven, modular-based approach, trained on a dataset that incorporates common-sense knowledge of object-to-room relationships extracted from a large language model. We utilize the multi-channel Swin-Unet architecture to conduct multi-task learning incorporating with multimodal inputs. The results in the Habitat simulator demonstrate that our framework outperforms the baseline by an average of 10.6% in the efficiency metric, Success weighted by Path Length (SPL). The real-world demonstration shows that the proposed approach can efficiently conduct this task by traversing several rooms. For more details and real-world demonstrations, please check our project webpage (https://sunleyuan.github.io/ObjectNav).
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# ミニ・スプレイティング:ガウスの制約された数のシーンを表現

Mini-Splatting: Representing Scenes with a Constrained Number of Gaussians ( http://arxiv.org/abs/2403.14166v1 )

ライセンス: Link先を確認
Guangchi Fang, Bing Wang, (参考訳) 本研究では,ガウスの制約の多いシーンを効率よく表現することの課題について検討する。 従来のグラフィックスと2次元コンピュータビジョンから点雲の視点へ移行し,ガウス表現の非効率な空間分布をモデル性能の重要な限界として強調した。 そこで我々は, ブラース分割や深度再初期化, ガウスバイナライゼーションとサンプリングによる簡易化など, 密度化のための戦略を導入する。 これらの技術はガウシアンの空間的位置を再編成し、レンダリング品質、リソース消費、ストレージ圧縮の観点から、様々なデータセットやベンチマークに大幅な改善をもたらした。 提案するMini-Splatting法は,従来のラスタ化パイプラインとシームレスに統合され,ガウス・スプレート法に基づく今後の研究の基盤となる。

In this study, we explore the challenge of efficiently representing scenes with a constrained number of Gaussians. Our analysis shifts from traditional graphics and 2D computer vision to the perspective of point clouds, highlighting the inefficient spatial distribution of Gaussian representation as a key limitation in model performance. To address this, we introduce strategies for densification including blur split and depth reinitialization, and simplification through Gaussian binarization and sampling. These techniques reorganize the spatial positions of the Gaussians, resulting in significant improvements across various datasets and benchmarks in terms of rendering quality, resource consumption, and storage compression. Our proposed Mini-Splatting method integrates seamlessly with the original rasterization pipeline, providing a strong baseline for future research in Gaussian-Splatting-based works.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# M$^3$AV:マルチモーダル・マルチジェネラル・多目的オーディオ・ビジュアル・アカデミック・レクチャー・データセット

M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset ( http://arxiv.org/abs/2403.14168v1 )

ライセンス: Link先を確認
Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang, (参考訳) オープンソースのアカデミックビデオの公開は、オンラインで知識を共有するための緊急かつ一般的なアプローチである。 このようなビデオは、音声、話者の顔と身体の動き、スライドのテキストや写真、そしておそらく論文までを含む豊富なマルチモーダル情報を持っている。 複数の学術ビデオデータセットが作成・リリースされているが、高品質な人間のアノテーションが欠如しているために、マルチモーダルなコンテンツ認識と理解タスクの両方をサポートするものはほとんどない。 本稿では,コンピュータ科学,数学,医学,生物学に関する5つの資料から約367時間の映像を収録した,多目的多目的視覚学術講義データセット(M$^3$AV)を提案する。 話し言葉や書き言葉の高品質な人間のアノテーション、特に高価値な名前のエンティティによって、データセットは複数の音声視覚認識および理解タスクに使用することができる。 文脈音声認識、音声合成、スライドおよびスクリプト生成タスクで行った評価は、M$^3$AVの多様性が挑戦的なデータセットであることを示している。

Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibly even the papers. Although multiple academic video datasets have been constructed and released, few of them support both multimodal content recognition and understanding tasks, which is partially due to the lack of high-quality human annotations. In this paper, we propose a novel multimodal, multigenre, and multipurpose audio-visual academic lecture dataset (M$^3$AV), which has almost 367 hours of videos from five sources covering computer science, mathematics, and medical and biology topics. With high-quality human annotations of the spoken and written words, in particular high-valued name entities, the dataset can be used for multiple audio-visual recognition and understanding tasks. Evaluations performed on contextual speech recognition, speech synthesis, and slide and script generation tasks demonstrate that the diversity of M$^3$AV makes it a challenging dataset.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# MMIDR:知識蒸留によるマルチモーダル誤情報解釈のための大規模言語モデル

MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation ( http://arxiv.org/abs/2403.14171v1 )

ライセンス: Link先を確認
Longzheng Wang, Xiaohan Xu, Lei Zhang, Jiarui Lu, Yongxiu Xu, Hongbo Xu, Chuang Zhang, (参考訳) 近年,マルチモーダル誤報の自動検出が注目されている。 しかし,マルチモーダルな誤情報検出のための強力な大規模言語モデル (LLM) の可能性はいまだ検討されていない。 また,マルチモーダルな誤報を低コストかつアクセシブルな方法で解釈する方法をLLMに教える方法は,まだ未解決の問題である。 そこで本研究では,マルチモーダル誤報の意思決定プロセスにおいて,LLMを学習し,質の高い文章説明を提供するためのフレームワークであるMMIDRを提案する。 マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。 このパイプラインは、視覚情報処理モジュールとエビデンス検索モジュールからなる。 その後、プロプライエタリなLCMに処理内容を与え、マルチモーダル誤報の真偽を解釈する合理性を抽出する。 さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。 マルチモーダル誤情報検出タスクにおけるLCMの性能に関するいくつかの研究課題を探るため,命令追従型マルチモーダル誤情報データセットを構築し,総合的な実験を行った。 実験の結果,我々のMMIDRは十分な検出性能を示し,その評価を支援するための説得力のある合理性を提供する能力を有していることが明らかとなった。

Automatic detection of multimodal misinformation has gained a widespread attention recently. However, the potential of powerful Large Language Models (LLMs) for multimodal misinformation detection remains underexplored. Besides, how to teach LLMs to interpret multimodal misinformation in cost-effective and accessible way is still an open question. To address that, we propose MMIDR, a framework designed to teach LLMs in providing fluent and high-quality textual explanations for their decision-making process of multimodal misinformation. To convert multimodal misinformation into an appropriate instruction-following format, we present a data augmentation perspective and pipeline. This pipeline consists of a visual information processing module and an evidence retrieval module. Subsequently, we prompt the proprietary LLMs with processed contents to extract rationales for interpreting the authenticity of multimodal misinformation. Furthermore, we design an efficient knowledge distillation approach to distill the capability of proprietary LLMs in explaining multimodal misinformation into open-source LLMs. To explore several research questions regarding the performance of LLMs in multimodal misinformation detection tasks, we construct an instruction-following multimodal misinformation dataset and conduct comprehensive experiments. The experimental findings reveal that our MMIDR exhibits sufficient detection performance and possesses the capacity to provide compelling rationales to support its assessments.
翻訳日:2024-03-22 15:17:21 公開日:2024-03-21
# Unified Static and Dynamic Network:Efficient Temporal Filtering for Video Grounding

Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding ( http://arxiv.org/abs/2403.14174v1 )

ライセンス: Link先を確認
Jingjing Hu, Dan Guo, Kun Li, Zhan Si, Xun Yang, Xiaojun Chang, Meng Wang, (参考訳) 人間の視覚知覚生物学におけるアクティビティ・サイレントかつ永続的な活動機構にインスパイアされ,映像とテキスト/オーディオクエリのセマンティックな関連を学習し,効率的な映像グラウンドティングを実現するために,Unified Static and Dynamic Network(UniSDNet)を設計した。 静的モデリングでは,ビデオセグメントとクエリ間のグローバルな包括的相互作用を促進し,より効果的なセマンティックエンハンスメント/サプリメントを実現するために,新しい残留構造(ResMLP)を考案する。 動的モデリングでは,ネットワーク設計における持続的活動機構の3つの特徴を効果的に活用し,より優れた映像コンテキスト理解を実現する。 具体的には「短期効果」関係を反映した2次元スパースマスキングに基づく拡散接続型ビデオクリップグラフを構築した。 我々は、時間的距離と関連性を共同で「補助的証拠手がかり」とみなし、コンテキストヒントを高次元空間に拡張し、「複雑な視覚知覚」をシミュレートするマルチカーネルの時間的ガウスフィルタを設計し、メッセージパッシング段階において近隣のクリップノード上で要素レベルのフィルタ畳み込み操作を行い、候補提案を最終的に生成し、ランキング付けする。 我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。 当社のUniSDNetは,NLVG用に広く使用されている3つのデータセットに加えて,SLVG用の3つのデータセット,例えば,ActivityNet Captionsの38.88% R@1,IoU@0.7,TACoSの40.26% R@1,IoU@0.5で新たなレコードを報告している。 SLVGタスクのための2つの新しいデータセット(Charades-STA SpeechとTACoS Speech)を収集する。 一方、UniSDNetの推論速度は、強いマルチクエリベンチマークよりも1.56$\times$高速です。 コードは、https://github.com/xian-sh/UniSDNet.comで入手できる。

Inspired by the activity-silent and persistent activity mechanisms in human visual perception biology, we design a Unified Static and Dynamic Network (UniSDNet), to learn the semantic association between the video and text/audio queries in a cross-modal environment for efficient video grounding. For static modeling, we devise a novel residual structure (ResMLP) to boost the global comprehensive interaction between the video segments and queries, achieving more effective semantic enhancement/supplement. For dynamic modeling, we effectively exploit three characteristics of the persistent activity mechanism in our network design for a better video context comprehension. Specifically, we construct a diffusely connected video clip graph on the basis of 2D sparse temporal masking to reflect the "short-term effect" relationship. We innovatively consider the temporal distance and relevance as the joint "auxiliary evidence clues" and design a multi-kernel Temporal Gaussian Filter to expand the context clue into high-dimensional space, simulating the "complex visual perception", and then conduct element level filtering convolution operations on neighbour clip nodes in message passing stage for finally generating and ranking the candidate proposals. Our UniSDNet is applicable to both Natural Language Video Grounding (NLVG) and Spoken Language Video Grounding (SLVG) tasks. Our UniSDNet achieves SOTA performance on three widely used datasets for NLVG, as well as three datasets for SLVG, e.g., reporting new records at 38.88% R@1,IoU@0.7 on ActivityNet Captions and 40.26% R@1,IoU@0.5 on TACoS. To facilitate this field, we collect two new datasets (Charades-STA Speech and TACoS Speech) for SLVG task. Meanwhile, the inference speed of our UniSDNet is 1.56$\times$ faster than the strong multi-query benchmark. Code is available at: https://github.com/xian-sh/UniSDNet.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# OTSeg: ゼロショットセマンティックセグメンテーションのためのマルチプロンプトシンクホーン注意

OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2403.14183v1 )

ライセンス: Link先を確認
Kwanyoung Kim, Yujin Oh, Jong Chul Ye, (参考訳) CLIPの最近の成功は、無意味な知識をピクセルレベルの分類に転送することで、ゼロショットセマンティックセグメンテーションの有望な結果を示している。 しかし、事前訓練されたCLIP知識を活用して、テキスト埋め込みとピクセル埋め込みを密に連携させるには、既存のアプローチに制限がある。 この問題に対処するために,OTSegを提案する。OTSegは,複数のテキストプロンプトが関連するピクセルの埋め込みにマッチする可能性を高めるための,新しいマルチモーダルアテンション機構である。 まず,複数のテキストプロンプトを画像画素内の様々な意味的特徴に選択的にフォーカスする最適トランスポート (OT) アルゴリズムに基づくマルチプロンプトシンクホーン (MPS) を提案する。 さらに,Sinkformersの単調な環境での成功に触発されて,MPSの拡張であるMPSA(Multi-Prompts Sinkhorn Attention)を導入し,マルチモーダル環境でのTransformerフレームワーク内のクロスアテンション機構を効果的に置き換えた。 大規模な実験を通じて,OTSegは3つのベンチマークデータセットにわたるゼロショットセマンティックセマンティックセグメンテーション(ZS3)タスクにおいて,高い精度でSOTA(State-of-the-art)性能を実現することを示した。

The recent success of CLIP has demonstrated promising results in zero-shot semantic segmentation by transferring muiltimodal knowledge to pixel-level classification. However, leveraging pre-trained CLIP knowledge to closely align text embeddings with pixel embeddings still has limitations in existing approaches. To address this issue, we propose OTSeg, a novel multimodal attention mechanism aimed at enhancing the potential of multiple text prompts for matching associated pixel embeddings. We first propose Multi-Prompts Sinkhorn (MPS) based on the Optimal Transport (OT) algorithm, which leads multiple text prompts to selectively focus on various semantic features within image pixels. Moreover, inspired by the success of Sinkformers in unimodal settings, we introduce the extension of MPS, called Multi-Prompts Sinkhorn Attention (MPSA), which effectively replaces cross-attention mechanisms within Transformer framework in multimodal settings. Through extensive experiments, we demonstrate that OTSeg achieves state-of-the-art (SOTA) performance with significant gains on Zero-Shot Semantic Segmentation (ZS3) tasks across three benchmark datasets.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# StyleCineGAN: 事前学習型StyleGANを用いた景観画像生成

StyleCineGAN: Landscape Cinemagraph Generation using a Pre-trained StyleGAN ( http://arxiv.org/abs/2403.14186v1 )

ライセンス: Link先を確認
Jongwoo Choi, Kwanggyoon Seo, Amirsaman Ashtari, Junyong Noh, (参考訳) そこで本研究では,事前学習したStyleGANを用いて,静止風景画像から撮影画像を自動的に生成する手法を提案する。 近年の無条件映像生成の成功に触発されて,我々は高画質のフィルムを合成するために,強力な事前学習画像生成装置を活用している。 事前学習したStyleGANの潜伏空間を主に利用する従来のアプローチとは異なり、本手法はGANインバージョンとシネマグラフ生成の両方にその深い特徴空間を利用する。 具体的には、事前学習したStyleGANの中間機能を異なる解像度でワープするマルチスケールディープ・フィーチャー・ワープ(MSDFW)を提案する。 MSDFWを用いることで、生成されたシネマグラフは高解像度で、可視ループアニメーションを示す。 本研究では,本手法の優位性について,先行学習型StyleGANを用いた最新撮影法と映像生成法との定量的比較およびユーザスタディにより検証した。

We propose a method that can generate cinemagraphs automatically from a still landscape image using a pre-trained StyleGAN. Inspired by the success of recent unconditional video generation, we leverage a powerful pre-trained image generator to synthesize high-quality cinemagraphs. Unlike previous approaches that mainly utilize the latent space of a pre-trained StyleGAN, our approach utilizes its deep feature space for both GAN inversion and cinemagraph generation. Specifically, we propose multi-scale deep feature warping (MSDFW), which warps the intermediate features of a pre-trained StyleGAN at different resolutions. By using MSDFW, the generated cinemagraphs are of high resolution and exhibit plausible looping animation. We demonstrate the superiority of our method through user studies and quantitative comparisons with state-of-the-art cinemagraph generation methods and a video generation method that uses a pre-trained StyleGAN.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# チップ上の量子活性化型ニューラル貯水池は、レジリエンス認証のための大規模なハードウェアセキュリティモデルを開く

Quantum-activated neural reservoirs on-chip open up large hardware security models for resilient authentication ( http://arxiv.org/abs/2403.14188v1 )

ライセンス: Link先を確認
Zhao He, Maxim S. Elizarov, Ning Li, Fei Xiang, Andrea Fratalocchi, (参考訳) 量子人工知能は人工知能研究の最前線であり、古典的アーキテクチャによるディープラーニング以上の問題に対処する量子AI駆動回路のパイオニアである。 この研究は3兆以上のハードウェアノード/cm$^2$を持つ大規模量子活性化リカレントニューラルネットワークを実装し、オンチップに統合されたアモルファス材料における繰り返し可能な原子スケール核生成ダイナミクスから発生し、読み出しチャネル当たり0.07nWの電力で制御される。 現在報告されている最高の性能の貯水池と比較して、この実装はネットワークの規模を2桁に拡大し、消費電力を6倍に減らし、人間の脳の範囲の電力効率に到達し、0.2nW/neuronを放出する。 古典的な入力に尋問されると、チップは大規模なハードウェアセキュリティモデルを実装し、AIの現在と将来の開発を含む統計的推論攻撃に対して辞書のない認証を可能にする。 実験では99.6%の信頼性、100%のユーザ認証精度、理想の50%のキーユニークさが報告された。 量子特性のため、チップは最高の技術よりも3倍高い機能領域当たりのビット密度をサポートし、1cm$^2$のフットプリントに2^{1104}$キーを格納できる。 このような量子パワーのプラットフォームは、民間ユーザーからインテリジェントエネルギーグリッドに至るまで、小規模から大規模の施設をターゲットとする認証を侵害するサイバー犯罪業界が引き起こす、新たなタイプの戦争に対抗できるかもしれない。

Quantum artificial intelligence is a frontier of artificial intelligence research, pioneering quantum AI-powered circuits to address problems beyond the reach of deep learning with classical architectures. This work implements a large-scale quantum-activated recurrent neural network possessing more than 3 trillion hardware nodes/cm$^2$, originating from repeatable atomic-scale nucleation dynamics in an amorphous material integrated on-chip, controlled with 0.07 nW electric power per readout channel. Compared to the best-performing reservoirs currently reported, this implementation increases the scale of the network by two orders of magnitude and reduces the power consumption by six, reaching power efficiencies in the range of the human brain, dissipating 0.2 nW/neuron. When interrogated by a classical input, the chip implements a large-scale hardware security model, enabling dictionary-free authentication secure against statistical inference attacks, including AI's present and future development, even for an adversary with a copy of all the classical components available. Experimental tests report 99.6% reliability, 100% user authentication accuracy, and an ideal 50% key uniqueness. Due to its quantum nature, the chip supports a bit density per feature size area three times higher than the best technology available, with the capacity to store more than $2^{1104}$ keys in a footprint of 1 cm$^2$. Such a quantum-powered platform could help counteract the emerging form of warfare led by the cybercrime industry in breaching authentication to target small to large-scale facilities, from private users to intelligent energy grids.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# PECI-Net:前処理アンサンブルとカスケード推論を用いたビデオフルオロスコープドローイング研究画像からのボーラスセグメンテーション

PECI-Net: Bolus segmentation from video fluoroscopic swallowing study images using preprocessing ensemble and cascaded inference ( http://arxiv.org/abs/2403.14191v1 )

ライセンス: Link先を確認
Dougho Park, Younghun Kim, Harim Kang, Junmyeoung Lee, Jinyoung Choi, Taeyeon Kim, Sangeok Lee, Seokil Son, Minsol Kim, Injung Kim, (参考訳) ボルス分画は、ビデオフルオロスコピックドローイング研究(VFSS)における摂食障害の自動検出に不可欠である。 しかし、VFSS画像が半透明であり、コントラストが低く、領域境界が不明瞭で、色情報がないため、モデルがVFSS画像のボラス領域を正確に分割することは困難である。 これらの課題を克服するために,前処理アンサンブルネットワーク(PEN)とカスケード推論ネットワーク(CIN)の2つの新しい手法を組み合わせた,VFSS画像解析のためのネットワークアーキテクチャであるPECI-Netを提案する。 PENは、複数の前処理アルゴリズムを学習可能な方法で組み合わせることで、VFSS画像のシャープさとコントラストを高める。 CINは、カスケード推論を通じて、他の領域からのコンテキストを使用することで、ボースセグメンテーションの曖昧さを減少させる。 さらに、CINは、コンテキストを非対称的に参照することで、望ましくない副作用が、信頼できない領域のセグメンテーションを防ぐ。 実験では、PECI-Netは、最近開発された4つのベースラインモデルよりも高い性能を示し、ベースラインモデルの中では最高であるTernausNetを4.54 %、広く使用されているUNetを10.83 %上回った。 The results of the ablation study confirmed that CIN and PEN may effective to improve bolus segmentation performance。

Bolus segmentation is crucial for the automated detection of swallowing disorders in videofluoroscopic swallowing studies (VFSS). However, it is difficult for the model to accurately segment a bolus region in a VFSS image because VFSS images are translucent, have low contrast and unclear region boundaries, and lack color information. To overcome these challenges, we propose PECI-Net, a network architecture for VFSS image analysis that combines two novel techniques: the preprocessing ensemble network (PEN) and the cascaded inference network (CIN). PEN enhances the sharpness and contrast of the VFSS image by combining multiple preprocessing algorithms in a learnable way. CIN reduces ambiguity in bolus segmentation by using context from other regions through cascaded inference. Moreover, CIN prevents undesirable side effects from unreliably segmented regions by referring to the context in an asymmetric way. In experiments, PECI-Net exhibited higher performance than four recently developed baseline models, outperforming TernausNet, the best among the baseline models, by 4.54\% and the widely used UNet by 10.83\%. The results of the ablation studies confirm that CIN and PEN are effective in improving bolus segmentation performance.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 抽出的オープンドメイン質問応答のためのフュージョン・イン・デコーダの訓練における文脈品質

Context Quality Matters in Training Fusion-in-Decoder for Extractive Open-Domain Question Answering ( http://arxiv.org/abs/2403.14197v1 )

ライセンス: Link先を確認
Kosuke Akimoto, Kunihiro Takeoka, Masafumi Oyamada, (参考訳) Retrieval-augmented Generation Modelは、生成中に関連する外部知識(コンテキスト)を提供することで、言語モデルにエンコードされた知識を増大させる。 コンテクストの量と質が推論中の検索強化生成モデルの性能に影響を与えることが示されているが、これらの特性がモデルトレーニングにどのように影響するかは限定的な研究によって調査されている。 本稿では,モデル学習中の文脈量と品質が,抽出オープンドメイン質問応答タスクにおける最新検索強化生成モデルであるFusion-in-Decoder(FiD)の性能に与える影響について検討する。 実験結果から,FiDモデルはトレーニング中の文脈品質に過度に適合し,異なる文脈品質で評価した場合,最適以下の性能を示すことが示唆された。 また、実験結果から、異なる文脈品質で訓練されたFiDモデルには、異なる意図的分布パターンがあることを明らかにした。 具体的には、トレーニング中のコンテキスト品質が向上するにつれて、FiDモデルはコンテキストの各パスに一様に対応する傾向にある。 最後に、これらの観測に基づいて、異なる文脈品質におけるFiDモデルの性能向上に有効であることを示すために、相互注意分布にバイアスを導入することによって、特定の文脈品質への過度適合を緩和する手法を提案する。

Retrieval-augmented generation models augment knowledge encoded in a language model by providing additional relevant external knowledge (context) during generation. Although it has been shown that the quantity and quality of context impact the performance of retrieval-augmented generation models during inference, limited research explores how these characteristics affect model training. This paper explores how context quantity and quality during model training affect the performance of Fusion-in-Decoder (FiD), the state-of-the-art retrieval-augmented generation model, in extractive open-domain question answering tasks. Experimental results suggest that FiD models overfit to context quality during training and show suboptimal performance when evaluated on different context quality. Through the experimental results, we also reveal FiD models trained with different context quality have different cross-attention distribution patterns. Specifically, as context quality during training increases, FiD models tend to attend more uniformly to each passage in context. Finally, based on these observations, we propose a method to mitigate overfitting to specific context quality by introducing bias to the cross-attention distribution, which we demonstrate to be effective in improving the performance of FiD models on different context quality.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# ラベルのないデータ公開 - クロスビューなジオローカライゼーションのパラダイム

Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization ( http://arxiv.org/abs/2403.14198v1 )

ライセンス: Link先を確認
Guopeng Li, Ming Qian, Gui-Song Xia, (参考訳) 本稿では,大規模クロスビュージオローカライズ(CVGL)におけるラベルなしデータの有効利用について検討する。 CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。 しかし、正確なクロスビュー画像ペアの収集コストは、実際のシナリオにおけるCVGLの展開を妨げる。 このペアがなければ、CVGLは地上画像と衛星画像の間の大きな画像と空間的ギャップを扱うことがより困難になる。 そこで本研究では,初期擬似ラベルを検索するモデルを案内するクロスビュープロジェクションと,「完全対地サテライト画像が一意かつ同一の場面にある」という事実を活用して,擬似ラベルを洗練するための高速な再分類機構を含む非教師なしのフレームワークを提案する。 このフレームワークは,3つのオープンソースベンチマークの教師付き作業と比較して,競争力のあるパフォーマンスを示している。 私たちのコードとモデルはhttps://github.com/liguopeng0923/UCVGLでリリースされます。

This paper investigates the effective utilization of unlabeled data for large-area cross-view geo-localization (CVGL), encompassing both unsupervised and semi-supervised settings. Common approaches to CVGL rely on ground-satellite image pairs and employ label-driven supervised training. However, the cost of collecting precise cross-view image pairs hinders the deployment of CVGL in real-life scenarios. Without the pairs, CVGL will be more challenging to handle the significant imaging and spatial gaps between ground and satellite images. To this end, we propose an unsupervised framework including a cross-view projection to guide the model for retrieving initial pseudo-labels and a fast re-ranking mechanism to refine the pseudo-labels by leveraging the fact that ``the perfectly paired ground-satellite image is located in a unique and identical scene". The framework exhibits competitive performance compared with supervised works on three open-source benchmarks. Our code and models will be released on https://github.com/liguopeng0923/UCVGL.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# デバイアスング外科医:素晴らしい体重とそれを見つける方法

Debiasing surgeon: fantastic weights and how to find them ( http://arxiv.org/abs/2403.14200v1 )

ライセンス: Link先を確認
Rémi Nahon, Ivan Luiz De Moura Matos, Van-Tam Nguyen, Enzo Tartaglione, (参考訳) 今日では、不公平なモデルに繋がるアルゴリズムバイアスの出現という現象が絶え間ない。 深層学習の領域では、これらのモデルがこれらのバイアスを大量に活用することを防ぐために、多かれ少なかれ洗練されたアプローチが提案されている。 しかし、この余分な複雑さは本当に必要か? バニラでトレーニングされたモデルは、独立して使用でき、アルゴリズムのバイアスに頼らずにソリューションを提案することのできる、すでに ''unbiased sub-networks'' を具現化したものなのだろうか? 本研究では,このようなサブネットワークが典型的に存在し,付加的なトレーニングを必要とせず,バニラ学習モデルから抽出できることを示す。 さらに、そのような特定のアーキテクチャが特定のバイアスを学習できないことを検証し、ディープニューラルネットワークのバイアス問題に対するアーキテクチャ上の対策が考えられることを示唆する。

Nowadays an ever-growing concerning phenomenon, the emergence of algorithmic biases that can lead to unfair models, emerges. Several debiasing approaches have been proposed in the realm of deep learning, employing more or less sophisticated approaches to discourage these models from massively employing these biases. However, a question emerges: is this extra complexity really necessary? Is a vanilla-trained model already embodying some ``unbiased sub-networks'' that can be used in isolation and propose a solution without relying on the algorithmic biases? In this work, we show that such a sub-network typically exists, and can be extracted from a vanilla-trained model without requiring additional training. We further validate that such specific architecture is incapable of learning a specific bias, suggesting that there are possible architectural countermeasures to the problem of biases in deep neural networks.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# モダリティアライメントを用いた教師なしオーディオ・ビジュアルセグメンテーション

Unsupervised Audio-Visual Segmentation with Modality Alignment ( http://arxiv.org/abs/2403.14203v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiangkang Deng, Xiatian Zhu, (参考訳) オーディオ・ビジュアル・セグメンテーション (AVS) は、特定の音を生成する視覚シーンの物体をピクセルレベルで識別することを目的としている。 現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。 これを解決するために,教師なしのAVSを導入し,そのような高価なアノテーションの必要性を排除した。 この課題に対処するために,DINO,SAM,ImageBindといった既成の基盤モデルをシームレスに統合したMoCA(Modality Cor correspondence Alignment)という,教師なし学習手法を提案する。 このアプローチは知識の相補性を生かし、マルチモダリティアソシエーションのための共同使用を最適化する。 まず,特徴空間における正像対と負像対を推定する。 画素レベルのアソシエーションには、画像レベルのコントラスト学習フレームワーク内に、オーディオ・ビジュアル・アダプタと、新しい画素マッチング・アグリゲーション戦略を導入する。 これにより、オブジェクトの外観と音声信号のピクセルレベルでのフレキシブルな接続が可能になり、変換や回転のような画像のバリエーションに耐性がある。 AVSBench(シングルとマルチオブジェクトの分割)とAVSSデータセットの大規模な実験により、MOCAは、特に複数の聴覚オブジェクトを持つ複雑なシナリオにおいて、強く設計されたベースラインメソッドと教師付きアプローチよりも優れています。 特にmIoUと比較すると、MoCAはAVSBench (S4: +17.24%; MS3: +67.64%) とAVSS (+19.23%) の両方でベースラインを大幅に改善している。

Audio-Visual Segmentation (AVS) aims to identify, at the pixel level, the object in a visual scene that produces a given sound. Current AVS methods rely on costly fine-grained annotations of mask-audio pairs, making them impractical for scalability. To address this, we introduce unsupervised AVS, eliminating the need for such expensive annotation. To tackle this more challenging problem, we propose an unsupervised learning method, named Modality Correspondence Alignment (MoCA), which seamlessly integrates off-the-shelf foundation models like DINO, SAM, and ImageBind. This approach leverages their knowledge complementarity and optimizes their joint usage for multi-modality association. Initially, we estimate positive and negative image pairs in the feature space. For pixel-level association, we introduce an audio-visual adapter and a novel pixel matching aggregation strategy within the image-level contrastive learning framework. This allows for a flexible connection between object appearance and audio signal at the pixel level, with tolerance to imaging variations such as translation and rotation. Extensive experiments on the AVSBench (single and multi-object splits) and AVSS datasets demonstrate that our MoCA outperforms strongly designed baseline methods and approaches supervised counterparts, particularly in complex scenarios with multiple auditory objects. Notably when comparing mIoU, MoCA achieves a substantial improvement over baselines in both the AVSBench (S4: +17.24%; MS3: +67.64%) and AVSS (+19.23%) audio-visual segmentation challenges.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 子どもと子どもの会話における文法的意味の自動アノテーション

Automatic Annotation of Grammaticality in Child-Caregiver Conversations ( http://arxiv.org/abs/2403.14208v1 )

ライセンス: Link先を確認
Mitja Nikolaus, Abhishek Agrawal, Petros Kaklamanis, Alex Warstadt, Abdellah Fourtassi, (参考訳) 文法の習得は、言語習得の理論の間を判断する中心的な問題となっている。 子どもと介護者の会話における文法性に関する、より速く、再現性が高く、より大規模なコーパス研究を行うために、自動アノテーションのツールは、退屈な手書きアノテーションに代わる効果的な代替手段を提供することができる。 本研究では,子どもと介護者の会話における文脈依存文法の符号化手法を提案し,大規模な会話コーパスから4,000以上の発話を注釈付けする。 これらのアノテーションに基づいて,NLPモデルの訓練と評価を行う。 本研究は,微調整トランスフォーマーを用いたモデルが,人間間のアノテーション合意レベルを達成し,優れた性能を発揮することを示し,本ツールの第一の応用および健全性チェックとして,トレーニングされたモデルを用いて,手作業によるアノテートデータよりも約2桁大きなコーパスをアノテートし,子どもの文法性が年齢とともに着実に向上していることを確認する。この研究は,子どもの言語習得を大規模に研究する上で,最先端のNLP手法の適用に関する文献の増大に寄与する。

The acquisition of grammar has been a central question to adjudicate between theories of language acquisition. In order to conduct faster, more reproducible, and larger-scale corpus studies on grammaticality in child-caregiver conversations, tools for automatic annotation can offer an effective alternative to tedious manual annotation. We propose a coding scheme for context-dependent grammaticality in child-caregiver conversations and annotate more than 4,000 utterances from a large corpus of transcribed conversations. Based on these annotations, we train and evaluate a range of NLP models. Our results show that fine-tuned Transformer-based models perform best, achieving human inter-annotation agreement levels.As a first application and sanity check of this tool, we use the trained models to annotate a corpus almost two orders of magnitude larger than the manually annotated data and verify that children's grammaticality shows a steady increase with age.This work contributes to the growing literature on applying state-of-the-art NLP methods to help study child language acquisition at scale.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# マルチクラス異常検出に向けて:クラス間干渉に対するクラス認識統一モデルの探索

Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference ( http://arxiv.org/abs/2403.14213v1 )

ライセンス: Link先を確認
Xi Jiang, Ying Chen, Qiang Nie, Jianlin Liu, Yong Liu, Chengjie Wang, Feng Zheng, (参考訳) 単一クラス異常検出モデルにおける高いユーザビリティの文脈において、近年の学術研究は、より複雑な多クラス異常検出に関する関心が高まっている。 いくつかの論文は、このタスクの統一モデルを設計しているが、クラス間干渉を緩和する強力なツールであるクラスラベルの有用性をしばしば見落としている。 そこで本研究では,MINT-AD(MINT-AD)を用いたマルチクラスインプリシトニューラルネットワーク表現変換手法を提案する。 マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス認識クエリ埋め込みを生成し、再構成モデル内のクラス間干渉を緩和する。 このような暗黙的な神経表現ネットワークを利用することで、MINT-ADはカテゴリと位置情報を特徴埋め込み空間に投影し、さらに分類と事前確率損失関数によって監督することができる。 複数のデータセットの実験結果は、MINT-ADが既存の統合トレーニングモデルより優れていることを示している。

In the context of high usability in single-class anomaly detection models, recent academic research has become concerned about the more complex multi-class anomaly detection. Although several papers have designed unified models for this task, they often overlook the utility of class labels, a potent tool for mitigating inter-class interference. To address this issue, we introduce a Multi-class Implicit Neural representation Transformer for unified Anomaly Detection (MINT-AD), which leverages the fine-grained category information in the training stage. By learning the multi-class distributions, the model generates class-aware query embeddings for the transformer decoder, mitigating inter-class interference within the reconstruction model. Utilizing such an implicit neural representation network, MINT-AD can project category and position information into a feature embedding space, further supervised by classification and prior probability loss functions. Experimental results on multiple datasets demonstrate that MINT-AD outperforms existing unified training models.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 翻訳対称ボソニック符号に対する射影的スクイーズ法

Projective squeezing for translation symmetric bosonic codes ( http://arxiv.org/abs/2403.14218v1 )

ライセンス: Link先を確認
Suguru Endo, Keitaro Anai, Yuichiro Matsuzaki, Yuuki Tokunaga, Yasunari Suzuki, (参考訳) 翻訳対称なボソニック符号(例えば、ゴッテマン・キタエフ・プレスキルおよび圧縮された猫符号)の設計は光子損失に対して堅牢であるが、計算精度は利用可能なスクイーズレベルによって制限される。 ここでは、周期的変位値を持つ変位演算子の線形結合が、より優れた符号空間上にスミアドプロジェクタを構成することを明らかにすることにより、より高いスクイーズレベルの結果を計算するための「textit{projective squeezing} (PS) 法」を紹介する。 線形組合わせと仮想量子誤り検出に基づくPSの具体的実装手法を提案する。 また,解析的議論を数値的に検証し,光子損失の影響を緩和できることを示す。

The design of translation symmetric bosonic codes, e.g., Gottesmann-Kitaev-Preskill and squeezed cat codes, is robust against photon loss, but the computation accuracy is limited by the available squeezing level. Here, we introduce the \textit{projective squeezing} (PS) method for computing outcomes for a higher squeezing level by revealing that a linear combination of displacement operators with periodic displacement values constitutes the smeared projector onto the better code space; we also show the analytical relationship between the increased squeezing level and the projection probability. We introduce concrete implementation methods for PS based on linear-combination-of-unitaries and virtual quantum error detection. We also numerically verify our analytical arguments and show that our protocol can mitigate the effect of photon loss.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 一貫性アライメントによる大規模言語モデルのロバスト性向上

Improving the Robustness of Large Language Models via Consistency Alignment ( http://arxiv.org/abs/2403.14221v1 )

ライセンス: Link先を確認
Zhao Yukun, Yan Lingyong, Sun Weiwei, Xing Guoliang, Wang Shuaiqiang, Meng Chong, Cheng Zhicong, Ren Zhaochun, Yin Dawei, (参考訳) 大規模言語モデル(LLM)は、ユーザ命令に従い、有用な応答を生成することで大きな成功を収めている。 それでも、その頑健さは、言語化された指示の微妙な変化により、非常に矛盾する応答を生じる可能性があるため、まだ最適には程遠い。 近年の文献では、この不整合問題を探求し、応答生成の堅牢性に対する継続的な改善の重要性を強調している。 しかし、体系的な分析と解決策はまだ不足している。 本稿では,不整合問題を定量的に定義し,インストラクション強化された教師付き微調整と整合性アライメントトレーニングからなる2段階のトレーニングフレームワークを提案する。 第1段階は、モデルが同様の命令拡張を通じて次の命令を一般化するのを手助けする。 第2段階では、多様性を改善し、類似した反応の微妙な違いを区別することにより、どの反応が人間の期待に合致しているかをモデルが理解できるようにする。 トレーニングプロセスは、外部の人間の嗜好資源を参照することなく、トレーニングされたモデルから第一段階で推論された自己回帰によって達成される。 我々は、最近公開されているLLMの指導追従タスクに関する広範な実験を行い、トレーニングフレームワークの有効性を実証した。

Large language models (LLMs) have shown tremendous success in following user instructions and generating helpful responses. Nevertheless, their robustness is still far from optimal, as they may generate significantly inconsistent responses due to minor changes in the verbalized instructions. Recent literature has explored this inconsistency issue, highlighting the importance of continued improvement in the robustness of response generation. However, systematic analysis and solutions are still lacking. In this paper, we quantitatively define the inconsistency problem and propose a two-stage training framework consisting of instruction-augmented supervised fine-tuning and consistency alignment training. The first stage helps a model generalize on following instructions via similar instruction augmentations. In the second stage, we improve the diversity and help the model understand which responses are more aligned with human expectations by differentiating subtle differences in similar responses. The training process is accomplished by self-rewards inferred from the trained model at the first stage without referring to external human preference resources. We conduct extensive experiments on recent publicly available LLMs on instruction-following tasks and demonstrate the effectiveness of our training framework.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# ファウショット名前付きエンティティ認識のための大規模ラベル解釈学習

Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2403.14222v1 )

ライセンス: Link先を確認
Jonas Golde, Felix Hamborg, Alan Akbik, (参考訳) NER (Few-shot named entity recognition) は、いくつかの注釈付き例を使ってテキスト内の名前付きエンティティを検出する。 例えば、共通ラベルPERは、初期のラベル解釈学習フェーズにおいて、モデルは、エンティティタイプの言語化された記述を解釈することを学ぶ。 その後の数発のタグセット拡張フェーズでは、このモデルには、未確認のエンティティタイプ('音楽アルバム'など)が記述され、オプションでこのタイプのために少数発のNERを実行するためのいくつかのトレーニング例が提供される。 本稿では,ラベル解釈学習に使用されるエンティティの個数と粒度を大規模にスケールアップすることにより,新しいエンティティ型の言語化を解釈する前に,強い意味が与える影響を体系的に検討する。 この目的のために、エンティティリンクベンチマークを活用して、現在使用されているデータセットのように、より異なるエンティティタイプと記述の桁数のデータセットを作成します。 この増大した信号は、ドメイン内、ドメイン間、さらには言語間設定においてゼロおよび少数ショットのNERに強い結果をもたらす。 以上の結果から,ヒューリスティックなデータベース最適化により,NERが向上する可能性が示唆された。

Few-shot named entity recognition (NER) detects named entities within text using only a few annotated examples. One promising line of research is to leverage natural language descriptions of each entity type: the common label PER might, for example, be verbalized as ''person entity.'' In an initial label interpretation learning phase, the model learns to interpret such verbalized descriptions of entity types. In a subsequent few-shot tagset extension phase, this model is then given a description of a previously unseen entity type (such as ''music album'') and optionally a few training examples to perform few-shot NER for this type. In this paper, we systematically explore the impact of a strong semantic prior to interpret verbalizations of new entity types by massively scaling up the number and granularity of entity types used for label interpretation learning. To this end, we leverage an entity linking benchmark to create a dataset with orders of magnitude of more distinct entity types and descriptions as currently used datasets. We find that this increased signal yields strong results in zero- and few-shot NER in in-domain, cross-domain, and even cross-lingual settings. Our findings indicate significant potential for improving few-shot NER through heuristical data-based optimization.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 神経進化のためのスティッチング:深いニューラルネットワークを壊さずに再結合する

Stitching for Neuroevolution: Recombining Deep Neural Networks without Breaking Them ( http://arxiv.org/abs/2403.14224v1 )

ライセンス: Link先を確認
Arthur Guijt, Dirk Thierens, Tanja Alderliesten, Peter A. N. Bosman, (参考訳) 神経進化への伝統的なアプローチは、しばしばゼロから始まる。 これは、現代のディープニューラルネットワークをターゲットとする場合、計算とデータ要求の観点からは違法に高価になる。 ウォームスタートの使用は、例えば、トレーニング済みのネットワークを使った場合、異なるソースからの可能性があるなど、非常に有利である可能性がある。 これにより、トランスファーラーニング(特にトレーニングの大幅な削減)のメリットを活用できるようになる。 しかし、アーキテクチャと特徴表現が典型的に異なるため、トレーニングされたネットワークの再結合は簡単ではない。 その結果、単純なレイヤの交換はパフォーマンスの低下につながる傾向にある。 我々は、接続性に基づいて親ネットワークの層をマッチングし、潜在的なクロスオーバーポイントを特定することでこれを克服する。 これらの層間の特徴表現の相違を補正するために,ネットワークを相互に結合するスタイリングを用いて,新しい層をクロスオーバーポイントで導入する。 統合ネットワークをトレーニングするには、縫合層のみを考慮する必要がある。 新しいネットワークは、どのレイヤを(使用しない)に縫い合わせるかを選択することで、サブネットワークを選択することで作成できる。 データに対する評価のみを必要とするため、パフォーマンスの評価は効率的である。 実験により,本手法により,性能と計算コストの新たなトレードオフを表現したネットワークの発見が可能であり,一部はオリジナルのネットワークを支配下に置くことができることを示した。

Traditional approaches to neuroevolution often start from scratch. This becomes prohibitively expensive in terms of computational and data requirements when targeting modern, deep neural networks. Using a warm start could be highly advantageous, e.g., using previously trained networks, potentially from different sources. This moreover enables leveraging the benefits of transfer learning (in particular vastly reduced training effort). However, recombining trained networks is non-trivial because architectures and feature representations typically differ. Consequently, a straightforward exchange of layers tends to lead to a performance breakdown. We overcome this by matching the layers of parent networks based on their connectivity, identifying potential crossover points. To correct for differing feature representations between these layers we employ stitching, which merges the networks by introducing new layers at crossover points. To train the merged network, only stitching layers need to be considered. New networks can then be created by selecting a subnetwork by choosing which stitching layers to (not) use. Assessing their performance is efficient as only their evaluation on data is required. We experimentally show that our approach enables finding networks that represent novel trade-offs between performance and computational cost, with some even dominating the original networks.
翻訳日:2024-03-22 15:07:37 公開日:2024-03-21
# 重みに対する一般先行した完全連結ベイズニューラルネットワークの後方濃度

Posterior concentrations of fully-connected Bayesian neural networks with general priors on the weights ( http://arxiv.org/abs/2403.14225v1 )

ライセンス: Link先を確認
Insung Kong, Yongdai Kim, (参考訳) ディープニューラルネットワーク(BNN)をトレーニングするためのベイズ的アプローチは大きな関心を集めており、広範囲のアプリケーションで効果的に活用されている。 BNNの後部濃度の特性について、いくつかの研究がなされている。 しかしながら、これらの研究のほとんどは、粗いまたは重い尾を持つBNNモデルでのみ結果を示す。 意外なことに、現在BNNではガウス先行法を用いて理論的な結果が得られていない。 理論の欠如は、非スパースで有界パラメータを持つディープニューラルネットワーク(DNN)の近似結果がないことから生じる。 本稿では,有界パラメータを持つ非スパースDNNに対する新しい近似理論を提案する。 さらに, 近似理論に基づき, 非スパースな一般前駆体を持つBNNが, 真のモデルに対して最小限の最適後部濃度を達成可能であることを示す。

Bayesian approaches for training deep neural networks (BNNs) have received significant interest and have been effectively utilized in a wide range of applications. There have been several studies on the properties of posterior concentrations of BNNs. However, most of these studies only demonstrate results in BNN models with sparse or heavy-tailed priors. Surprisingly, no theoretical results currently exist for BNNs using Gaussian priors, which are the most commonly used one. The lack of theory arises from the absence of approximation results of Deep Neural Networks (DNNs) that are non-sparse and have bounded parameters. In this paper, we present a new approximation theory for non-sparse DNNs with bounded parameters. Additionally, based on the approximation theory, we show that BNNs with non-sparse general priors can achieve near-minimax optimal posterior concentration rates to the true model.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# PeerGPT: 子どもの協調学習におけるチームモデレーターと参加者としてのLLMベースのピアエージェントの役割

PeerGPT: Probing the Roles of LLM-based Peer Agents as Team Moderators and Participants in Children's Collaborative Learning ( http://arxiv.org/abs/2403.14227v1 )

ライセンス: Link先を確認
Jiawen Liu, Yuanyuan Yao, Pengcheng An, Qi Wang, (参考訳) 子どもの協調学習において、効果的な対人会話は子供の協調的相互作用の質を著しく向上させる。 この設定にLarge Language Model (LLM)エージェントを統合することで、ピアとしての彼らの新しい役割を探求し、チームモデレーターや参加者としての影響を評価します。 共同学習ワークショップに参加するために、参加者の2つのグループを招待し、デザイン問題に対する概念的解決策を議論し、提案しました。 対人会話の書き起こしを主題分析を用いて分析した。 ピアエージェントは、議論を効果的にチームモデレーターとして管理する一方で、時にはその指示を無視していることに気づきました。 参加者として、子どもたちの創造的な思考を育むが、常にタイムリーなフィードバックを提供するわけではない。 これらの知見は、双方の役割におけるピアエージェントの潜在的な設計改善と考察を浮き彫りにしている。

In children's collaborative learning, effective peer conversations can significantly enhance the quality of children's collaborative interactions. The integration of Large Language Model (LLM) agents into this setting explores their novel role as peers, assessing impacts as team moderators and participants. We invited two groups of participants to engage in a collaborative learning workshop, where they discussed and proposed conceptual solutions to a design problem. The peer conversation transcripts were analyzed using thematic analysis. We discovered that peer agents, while managing discussions effectively as team moderators, sometimes have their instructions disregarded. As participants, they foster children's creative thinking but may not consistently provide timely feedback. These findings highlight potential design improvements and considerations for peer agents in both roles.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# 高次元プロキシ変数から潜在的共同創設者を復元する

Recovering Latent Confounders from High-dimensional Proxy Variables ( http://arxiv.org/abs/2403.14228v1 )

ライセンス: Link先を確認
Nathan Mankovich, Homer Durand, Emiliano Diaz, Gherardo Varando, Gustau Camps-Valls, (参考訳) プロキシ変数から潜伏した共同創設者を検出することは因果効果推定に不可欠な問題である。 従来のアプローチは、低次元プロキシ、ソートプロキシ、バイナリ処理に限られていた。 我々はこれらの仮定を排除し、高次元の混合プロキシ変数を通して潜在共同設立者が現れるときの継続的な治療効果評価のための新しいプロキシ・コンファクチャライゼーション(PCF)フレームワークを提案する。 特定サンプルサイズについては,独立成分分析(ICA-PCF)を用いた2段階PCF実装と,GD-PCFを用いたエンド・ツー・エンド実装を併用した。 ICA-PCFは気候データに直面しても、ヨーロッパにおける降水パターンの共同設立者として知られる北大西洋オシレーションの変動の75.9 %を説明できる4つの成分を回収している。 PCFの実装と実験のコードは、https://github.com/IPL-UV/confound_it.comで確認できます。 提案手法は, 潜在的共同創設者の発見に向けたステップストーンを構成し, 高次元的プロキシ(例えば時空間)を扱う分野の多くの問題に適用可能である。

Detecting latent confounders from proxy variables is an essential problem in causal effect estimation. Previous approaches are limited to low-dimensional proxies, sorted proxies, and binary treatments. We remove these assumptions and present a novel Proxy Confounder Factorization (PCF) framework for continuous treatment effect estimation when latent confounders manifest through high-dimensional, mixed proxy variables. For specific sample sizes, our two-step PCF implementation, using Independent Component Analysis (ICA-PCF), and the end-to-end implementation, using Gradient Descent (GD-PCF), achieve high correlation with the latent confounder and low absolute error in causal effect estimation with synthetic datasets in the high sample size regime. Even when faced with climate data, ICA-PCF recovers four components that explain $75.9\%$ of the variance in the North Atlantic Oscillation, a known confounder of precipitation patterns in Europe. Code for our PCF implementations and experiments can be found here: https://github.com/IPL-UV/confound_it. The proposed methodology constitutes a stepping stone towards discovering latent confounders and can be applied to many problems in disciplines dealing with high-dimensional observed proxies, e.g., spatiotemporal fields.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# 不均一線量応答曲線推定のためのコントラストバランシング表現学習

Contrastive Balancing Representation Learning for Heterogeneous Dose-Response Curves Estimation ( http://arxiv.org/abs/2403.14232v1 )

ライセンス: Link先を確認
Minqin Zhu, Anpeng Wu, Haoxuan Li, Ruoxuan Xiong, Bo Li, Xiaoqing Yang, Xuan Qin, Peng Zhen, Jiecheng Guo, Fei Wu, Kun Kuang, (参考訳) 治療量の変化に対する個人の潜在的反応を推定することは、精密医療や管理科学などの分野における意思決定に不可欠である。 最近の研究では、治療変数に依存しない共変量表現を学習することで、対実結果を予測する。 しかし、そのような独立性の制約は、特に処理変数が連続している場合、反ファクト的予測に有用な共変情報の多くを無視している。 そこで,本稿ではまず,不均一線量応答曲線の非バイアス推定におけるバランスと予測表現の重要性を理論的に検証し,共変量と処理変数の双方の条件的独立性を満たすために,学習表現を制約する。 そこで本研究では、CRNetと呼ばれる部分距離尺度を用いて、治療の連続性を損なうことなく、不均一な線量応答曲線を推定するコントラストバランス型表現学習ネットワークを提案する。 提案手法が従来の手法よりも大幅に優れていることを示すために, 合成および実世界のデータセットに対して大規模な実験を行った。

Estimating the individuals' potential response to varying treatment doses is crucial for decision-making in areas such as precision medicine and management science. Most recent studies predict counterfactual outcomes by learning a covariate representation that is independent of the treatment variable. However, such independence constraints neglect much of the covariate information that is useful for counterfactual prediction, especially when the treatment variables are continuous. To tackle the above issue, in this paper, we first theoretically demonstrate the importance of the balancing and prognostic representations for unbiased estimation of the heterogeneous dose-response curves, that is, the learned representations are constrained to satisfy the conditional independence between the covariates and both of the treatment variables and the potential responses. Based on this, we propose a novel Contrastive balancing Representation learning Network using a partial distance measure, called CRNet, for estimating the heterogeneous dose-response curves without losing the continuity of treatments. Extensive experiments are conducted on synthetic and real-world datasets demonstrating that our proposal significantly outperforms previous methods.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# SoftPatch:ノイズデータによる教師なし異常検出

SoftPatch: Unsupervised Anomaly Detection with Noisy Data ( http://arxiv.org/abs/2403.14233v1 )

ライセンス: Link先を確認
Xi Jiang, Ying Chen, Qiang Nie, Yong Liu, Jianlin Liu, Bin-Bin Gao, Jun Liu, Chengjie Wang, Feng Zheng, (参考訳) 主流の非教師付き異常検出(AD)アルゴリズムは学術データセットでは良好に機能するが、クリーントレーニングデータの理想的な実験的な設定のため、実用的には性能に制限がある。 ノイズの多いデータを用いたトレーニングは、実世界の異常検出では避けられない問題であるが、議論されることはめったにない。 本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。 そこで我々は,メモリベースの非教師付きAD手法であるSoftPatchを提案し,パッチレベルで効率的にデータを復調する。 ノイズ判別器を用いて、コアセット構築前にパッチレベルのノイズ除去のための外れ値を生成する。 スコアはメモリバンクに格納され、異常検出境界が軟化する。 既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。 様々なノイズシーンにおける総合的な実験により、SoftPatchはMVTecADとBTADのベンチマークで最先端のADメソッドよりも優れており、ノイズなしで設定した手法に匹敵する。

Although mainstream unsupervised anomaly detection (AD) algorithms perform well in academic datasets, their performance is limited in practical application due to the ideal experimental setting of clean training data. Training with noisy data is an inevitable problem in real-world anomaly detection but is seldom discussed. This paper considers label-level noise in image sensory anomaly detection for the first time. To solve this problem, we proposed a memory-based unsupervised AD method, SoftPatch, which efficiently denoises the data at the patch level. Noise discriminators are utilized to generate outlier scores for patch-level noise elimination before coreset construction. The scores are then stored in the memory bank to soften the anomaly detection boundary. Compared with existing methods, SoftPatch maintains a strong modeling ability of normal data and alleviates the overconfidence problem in coreset. Comprehensive experiments in various noise scenes demonstrate that SoftPatch outperforms the state-of-the-art AD methods on the MVTecAD and BTAD benchmarks and is comparable to those methods under the setting without noise.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# RG-CAT:EMUパイロットサーベイにおける放射銀河の検出パイプラインとカタログ

RG-CAT: Detection Pipeline and Catalogue of Radio Galaxies in the EMU Pilot Survey ( http://arxiv.org/abs/2403.14235v1 )

ライセンス: Link先を確認
Nikhel Gupta, Ray P. Norris, Zeeshan Hayder, Minh Huynh, Lars Petersson, X. Rosalind Wang, Andrew M. Hopkins, Heinz Andernach, Yjan Gordon, Simone Riggi, Miranda Yew, Evan J. Crawford, Bärbel Koribalski, Miroslav D. Filipović, Anna D. Kapinśka, Stanislav Shabala, Tessa Vernstrom, Joshua R. Marvil, (参考訳) 我々は、オーストラリア・スクエア・キロメア・アレー・パスファインダー(ASKAP)望遠鏡で実施されたEMU-PS(Evolutionary Map of the Universe)の270$\rm deg^2$のパイロット調査から、電波銀河の最初のカタログを構築するためのソース検出とカタログ構築パイプラインを提示する。 検出パイプラインは、Gal-DINOコンピュータビジョンネットワーク(Gupta et al , 2024)を使用して、電波源の放射線形態とバウンディングボックスのカテゴリと、その潜在的な赤外線ホスト位置を予測する。 Gal-DINOネットワークは、約5,000個の視覚で観測された電波銀河とその赤外線ホストを訓練し、評価し、コンパクトで拡張された電波形態を包含する。 予測された真理境界箱に対するIoU(Intersection over Union)は、電波源の99%に対して0.5以上であり、予測されたホスト位置の98%は、評価セットの地上真理赤外ホストの$3^{\prime \prime}$以内である。 カタログ構築パイプラインは、Slavyソースファインダアルゴリズムを用いて識別された無線部品のカタログに基づいて、無線および赤外線画像カットアウト上のトレーニングされたネットワークの予測を使用する。 予測の信頼度スコアは、高いスコアでセレヴィのコンポーネントを優先順位付けし、それらをカタログに組み込むのに使用される。 これにより、合計211,625の電波源が特定され、201,211はコンパクトで未解決である。 残りの10,414個は582 FR-I、5,602 FR-II、1,494 FR-x(FR-IかFR-IIかは不明)、2,375 R(単一ピーク分解)、361個の珍しい形態を持つ。 我々は、カタログ内の電波源を赤外線と光学カタログと交差させ、73%の赤外線のクロスマッチ、そして36%の電波銀河の光度赤方偏移を発見した。

We present source detection and catalogue construction pipelines to build the first catalogue of radio galaxies from the 270 $\rm deg^2$ pilot survey of the Evolutionary Map of the Universe (EMU-PS) conducted with the Australian Square Kilometre Array Pathfinder (ASKAP) telescope. The detection pipeline uses Gal-DINO computer-vision networks (Gupta et al., 2024) to predict the categories of radio morphology and bounding boxes for radio sources, as well as their potential infrared host positions. The Gal-DINO network is trained and evaluated on approximately 5,000 visually inspected radio galaxies and their infrared hosts, encompassing both compact and extended radio morphologies. We find that the Intersection over Union (IoU) for the predicted and ground truth bounding boxes is larger than 0.5 for 99% of the radio sources, and 98% of predicted host positions are within $3^{\prime \prime}$ of the ground truth infrared host in the evaluation set. The catalogue construction pipeline uses the predictions of the trained network on the radio and infrared image cutouts based on the catalogue of radio components identified using the Selavy source finder algorithm. Confidence scores of the predictions are then used to prioritize Selavy components with higher scores and incorporate them first into the catalogue. This results in identifications for a total of 211,625 radio sources, with 201,211 classified as compact and unresolved. The remaining 10,414 are categorized as extended radio morphologies, including 582 FR-I, 5,602 FR-II, 1,494 FR-x (uncertain whether FR-I or FR-II), 2,375 R (single-peak resolved) radio galaxies, and 361 with peculiar and other rare morphologies. We cross-match the radio sources in the catalogue with the infrared and optical catalogues, finding infrared cross-matches for 73% and photometric redshifts for 36% of the radio galaxies.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# モデル編集のための統一フレームワーク

A Unified Framework for Model Editing ( http://arxiv.org/abs/2403.14236v1 )

ライセンス: Link先を確認
Akshat Gupta, Dev Sajnani, Gopala Anumanchipalli, (参考訳) モデル編集は、モデルに埋め込まれた知識を更新することに焦点を当てた成長領域である。 様々な手法の中で、ROMEとMEMITは「位置と編集」モデルの編集技術の先駆者として際立っている。 MEMITはメモリのバッチ編集を可能にするが、ROMEは一度に1つの事実を変更することに限定されている。 本稿では,ROMとMEMITを一つの概念的な傘の下にまとめ,同じ目標を最適化する統一フレームワークを提案する。 本研究の目的は,選択したベクトルの表現を保存しつつ,新たな事実情報の表現を記憶することである。 具体的には、ROMEはこの目的を等式制約を使って最適化するが、MEMITはより柔軟な最小二乗制約を用いる。 バッチ編集に加えて、MEMITは複数のレイヤでモデルを編集する。 我々は,MEMITの最適化目標から,編集の分布を複数の層に分散させ,これらの編集配信アルゴリズムは,それぞれの研究系列に相応しい別個のエンティティであるべきであることを示す。 最後に,EMMET(Equality-Constrained Mass Model Editing Algorithm for Transformers)を提案する。 EMMETでは,保存記憶目標の等価性制約版に対する閉形式解が提示される。 EMMETは,MEMITと同等の大きさのバッチ編集を256まで行うことができ,EMMETの安定化の課題について論じる。 モデル編集アルゴリズムを「保存記憶」という単純な概念的枠組みで記述することにより、直観と数学のギャップを埋め、将来のモデル編集における研究者の旅を簡素化することを目指す。

Model editing is a growing area focused on updating the knowledge embedded within models. Among the various methodologies, ROME and MEMIT stand out as leading "locate-and-edit" model editing techniques. While MEMIT enables batched editing of memories, ROME is limited to changing one fact at a time. This paper introduces a unifying framework that brings ROME and MEMIT under a single conceptual umbrella, optimizing for the same goal, which we call the "preservation-memorization" objective. This objective aims to preserve the representations of certain selected vectors while memorizing the representations of new factual information. Specifically, ROME optimizes this objective using an equality constraint, whereas MEMIT employs a more flexible least-square constraint. In addition to making batched edits, MEMIT also edits the model at multiple layers. We disentangle the distribution of edits to multiple layers from the optimization objective of MEMIT and show that these edit-distribution algorithms should be considered separate entities worthy of their own line of research. Finally, we present EMMET - an Equality-constrained Mass Model Editing algorithm for Transformers, a new batched memory-editing algorithm. With EMMET, we present a closed form solution for the equality-constrained version of the preservation-memorization objective. We show that EMMET is able to perform batched-edits on par with MEMIT up to a batch-size of 256 and discuss the challenges in stabilizing EMMET. By articulating the "locate-and-edit" model editing algorithms under a simple conceptual framework of "preservation-memorization", we aim to bridge the gap between intuition and mathematics and hope to simplify the journey for future researchers in model editing.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# 反射フィードバック(RLRF)からの強化学習 : 微粒自己回帰によるLCMの調整と改善

Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection ( http://arxiv.org/abs/2403.14238v1 )

ライセンス: Link先を確認
Kyungjae Lee, Dasol Hwang, Sunghyun Park, Youngsoo Jang, Moontae Lee, (参考訳) RLHFはLLMと人間の嗜好を一致させるという約束にもかかわらず、しばしば表面的なアライメントをもたらし、LLMの下流性能の改善よりもスタイル的変化を優先する。 具体的でない好みは、モデルを整列させる方向を曖昧にする可能性がある。 遅延探索は、モデルを改善するために望ましい出力の識別を制限する。 これらの課題を克服するために, 反射フィードバックからの強化学習 (Reinforcement Learning from Reflective Feedback, RLRF) という新しいフレームワークを提案する。 RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。 ジャスト・エバル, ファクタリティ, 数学的推論による実験は, 表面面の調整を超えたRLRFの有効性と変換ポテンシャルを実証した。

Despite the promise of RLHF in aligning LLMs with human preferences, it often leads to superficial alignment, prioritizing stylistic changes over improving downstream performance of LLMs. Underspecified preferences could obscure directions to align the models. Lacking exploration restricts identification of desirable outputs to improve the models. To overcome these challenges, we propose a novel framework: Reinforcement Learning from Reflective Feedback (RLRF), which leverages fine-grained feedback based on detailed criteria to improve the core capabilities of LLMs. RLRF employs a self-reflection mechanism to systematically explore and refine LLM responses, then fine-tuning the models via a RL algorithm along with promising responses. Our experiments across Just-Eval, Factuality, and Mathematical Reasoning demonstrate the efficacy and transformative potential of RLRF beyond superficial surface-level adjustment.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# マイクロ・マクロ・圧縮スポッティングのための任意単一フレームによる弱スーパービジョン

Weak Supervision with Arbitrary Single Frame for Micro- and Macro-expression Spotting ( http://arxiv.org/abs/2403.14240v1 )

ライセンス: Link先を確認
Wang-Wang Yu, Xian-Shi Zhang, Fu-Ya Luo, Yijun Cao, Kai-Fu Yang, Hong-Mei Yan, Yong-Jie Li, (参考訳) フレームレベルのマイクロおよびマクロ圧縮スポッティング法は、アノテーション中にフレームごとの観察に時間を要する。 一方、ビデオレベルのスポッティングでは、トレーニング中の位置や表現数に関する情報が不足しており、完全に教師されたスポッティングに比べてパフォーマンスが著しく劣っている。 このギャップを埋めるために、各表現を1つのランダムフレーム(すなわち1点)でアノテートする必要がある点レベル弱教師付き式スポッティング(PWES)フレームワークを提案する。 スパースラベル分布の問題を緩和するため、一般的なソリューションは擬似ラベルマイニングであり、コンテキスト背景スニペットの局所化は不正確な境界をもたらし、前景スニペットの破棄は断片的な予測をもたらす。 そこで我々は,これらの問題に対処するために,MPLG(Multi-Refined pseudo label generation)とDFCL(Dis distribution-guided Feature contrastive Learning)の戦略を設計する。 具体的には,クラス固有の確率,アテンションスコア,融合特徴,ポイントレベルのラベルを組み合わせることで,より信頼性の高い擬似ラベルを生成する。 DFCLは、データセット全体にわたってグローバル表現をキャプチャしながら、同じカテゴリのフィーチャ類似性と異なるカテゴリのフィーチャ可変性を高めるために使用される。 CAS(ME)^2、CAS(ME)^3、SAMM-LVデータセットに関する大規模な実験は、PWESが近年の完全教師付き手法に匹敵する有望な性能を達成することを示した。

Frame-level micro- and macro-expression spotting methods require time-consuming frame-by-frame observation during annotation. Meanwhile, video-level spotting lacks sufficient information about the location and number of expressions during training, resulting in significantly inferior performance compared with fully-supervised spotting. To bridge this gap, we propose a point-level weakly-supervised expression spotting (PWES) framework, where each expression requires to be annotated with only one random frame (i.e., a point). To mitigate the issue of sparse label distribution, the prevailing solution is pseudo-label mining, which, however, introduces new problems: localizing contextual background snippets results in inaccurate boundaries and discarding foreground snippets leads to fragmentary predictions. Therefore, we design the strategies of multi-refined pseudo label generation (MPLG) and distribution-guided feature contrastive learning (DFCL) to address these problems. Specifically, MPLG generates more reliable pseudo labels by merging class-specific probabilities, attention scores, fused features, and point-level labels. DFCL is utilized to enhance feature similarity for the same categories and feature variability for different categories while capturing global representations across the entire datasets. Extensive experiments on the CAS(ME)^2, CAS(ME)^3, and SAMM-LV datasets demonstrate PWES achieves promising performance comparable to that of recent fully-supervised methods.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# Dermacen Analytica:遠隔皮膚科における多モード大言語モデルと機械学習の統合手法

Dermacen Analytica: A Novel Methodology Integrating Multi-Modal Large Language Models with Machine Learning in tele-dermatology ( http://arxiv.org/abs/2403.14243v1 )

ライセンス: Link先を確認
Dimitrios P. Panagoulias, Evridiki Tsoureli-Nikita, Maria Virvou, George A. Tsihrintzis, (参考訳) 人工知能の台頭は、医学的な発見、診断、患者管理の分野で大きな可能性を生んでいる。 しかし、すべての医療領域の膨大な複雑さは、機械学習アルゴリズム、分類器、セグメンテーションアルゴリズム、そして最近になって大きな言語モデルを組み合わせたより複雑なアプローチを必要とする。 本稿では,皮膚疾患などの皮膚疾患の診断プロセスを支援するための人工知能を活用したシステムと方法論を皮膚科領域で記述し,実装し,評価する。 このワークフローは、大きな言語、トランスフォーマーベースのビジョンモデル、洗練された機械学習ツールを統合している。 この全体論的アプローチは、皮膚科医のワークフローをシミュレートし、促進する皮膚学的な条件のニュアンスな解釈を達成する。 提案手法は,皮膚条件および関連画像の公開医療ケーススタディを利用した評価パイプラインに埋め込まれたクロスモデル検証手法を用いて評価する。 システム性能を定量的に評価するために、類似性比較と自然言語推論に焦点を当てた高度な機械学習と自然言語処理ツールが採用されている。 さらに、構造化されたチェックリストに基づいて、人間の専門家による評価プロセスを導入し、その結果をさらに検証する。 提案手法は, 文脈的理解と診断精度の両面で, 0.87 の近似(重み付け)スコアを達成できるシステムに実装し, 皮膚学解析の高度化におけるアプローチの有効性を実証した。 提案手法は次世代の遠隔皮膚科アプリケーションの開発,遠隔相談機能の向上,ケアへのアクセス,特に未保存領域において有用であることが期待される。

The rise of Artificial Intelligence creates great promise in the field of medical discovery, diagnostics and patient management. However, the vast complexity of all medical domains require a more complex approach that combines machine learning algorithms, classifiers, segmentation algorithms and, lately, large language models. In this paper, we describe, implement and assess an Artificial Intelligence-empowered system and methodology aimed at assisting the diagnosis process of skin lesions and other skin conditions within the field of dermatology that aims to holistically address the diagnostic process in this domain. The workflow integrates large language, transformer-based vision models and sophisticated machine learning tools. This holistic approach achieves a nuanced interpretation of dermatological conditions that simulates and facilitates a dermatologist's workflow. We assess our proposed methodology through a thorough cross-model validation technique embedded in an evaluation pipeline that utilizes publicly available medical case studies of skin conditions and relevant images. To quantitatively score the system performance, advanced machine learning and natural language processing tools are employed which focus on similarity comparison and natural language inference. Additionally, we incorporate a human expert evaluation process based on a structured checklist to further validate our results. We implemented the proposed methodology in a system which achieved approximate (weighted) scores of 0.87 for both contextual understanding and diagnostic accuracy, demonstrating the efficacy of our approach in enhancing dermatological analysis. The proposed methodology is expected to prove useful in the development of next-generation tele-dermatology applications, enhancing remote consultation capabilities and access to care, especially in underserved areas.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# 実時間ラジアン場レンダリングのための等方的ガウス散乱

Isotropic Gaussian Splatting for Real-Time Radiance Field Rendering ( http://arxiv.org/abs/2403.14244v1 )

ライセンス: Link先を確認
Yuanhao Gong, Lantao Yu, Guanghui Yue, (参考訳) 3Dガウススプラッティング法は、訓練における高い性能とレンダリング画像の品質のおかげで、多くの注目を集めている。 しかし、シーンを表現するために異方性ガウス核を用いる。 このような異方性カーネルは幾何学を表現するのに利点があるが、2つのカーネルの分割やマージといった計算の難しさに繋がる。 本稿では,等方性ガウスカーネルを用いて計算の困難を回避し,高い性能を実現することを提案する。 実験により,提案手法は幾何表現精度を損なわずに約100倍高速であることが確認された。 提案手法は, 3次元再構成, ビュー合成, 動的オブジェクトモデリングなど, 放射場が必要な広い範囲のアプリケーションに適用できる。

The 3D Gaussian splatting method has drawn a lot of attention, thanks to its high performance in training and high quality of the rendered image. However, it uses anisotropic Gaussian kernels to represent the scene. Although such anisotropic kernels have advantages in representing the geometry, they lead to difficulties in terms of computation, such as splitting or merging two kernels. In this paper, we propose to use isotropic Gaussian kernels to avoid such difficulties in the computation, leading to a higher performance method. The experiments confirm that the proposed method is about {\bf 100X} faster without losing the geometry representation accuracy. The proposed method can be applied in a large range applications where the radiance field is needed, such as 3D reconstruction, view synthesis, and dynamic object modeling.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# CATSE: 因果的音源抽出のためのコンテキスト認識フレームワーク

CATSE: A Context-Aware Framework for Causal Target Sound Extraction ( http://arxiv.org/abs/2403.14246v1 )

ライセンス: Link先を確認
Shrishail Baligar, Mikolaj Kegler, Bryce Irvin, Marko Stamenovic, Shawn Newsam, (参考訳) ターゲット音抽出(TSE)は、入力混合物からユーザのキューによって示される関心源を分離する問題に焦点を当てている。 既存のソリューションの多くはオフラインで動作しており、拡張補聴器のようなライブストリーミングコンテンツのアプリケーションによって課される低レイテンシ因果処理の制約には適していない。 本稿では,リアルタイム処理に適したコンテキスト対応低遅延因果TSEモデルについて紹介する。 まず,TSEモデルに入力混合物を構成する音響クラスに関する情報を付加し,ユーザが提示する1つ以上の利害源を抽出することを目的とする。 オラクルモデルの実用的応用は仮定上限定されているため,分離と分類損失を含む複合マルチタスク学習目標を導入する。 単一およびマルチソース抽出による評価は、完全なコンテキストを提供する方法と、完全なコンテキスト情報を必要としないマルチタスクトレーニング損失によって、モデル内でコンテキスト情報を使用することの利点を示す。 具体的には,提案したモデルが,リアルタイムTSEのための最先端モデルであるWaveformerと遅延マッチングしたWaveformerより優れていることを示す。

Target Sound Extraction (TSE) focuses on the problem of separating sources of interest, indicated by a user's cue, from the input mixture. Most existing solutions operate in an offline fashion and are not suited to the low-latency causal processing constraints imposed by applications in live-streamed content such as augmented hearing. We introduce a family of context-aware low-latency causal TSE models suitable for real-time processing. First, we explore the utility of context by providing the TSE model with oracle information about what sound classes make up the input mixture, where the objective of the model is to extract one or more sources of interest indicated by the user. Since the practical applications of oracle models are limited due to their assumptions, we introduce a composite multi-task training objective involving separation and classification losses. Our evaluation involving single- and multi-source extraction shows the benefit of using context information in the model either by means of providing full context or via the proposed multi-task training loss without the need for full context information. Specifically, we show that our proposed model outperforms size- and latency-matched Waveformer, a state-of-the-art model for real-time TSE.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# 皮膚癌画像におけるResNet101とDAEによる品質と分類精度の向上

ResNet101 and DAE for Enhance Quality and Classification Accuracy in Skin Cancer Imaging ( http://arxiv.org/abs/2403.14248v1 )

ライセンス: Link先を確認
Sibasish Dhibar, (参考訳) 皮膚がんは、生存率を高めるためにタイムリーな検出を必要とする重要な健康問題である。 従来のコンピュータビジョン技術は、畳み込みニューラルネットワーク(CNN)によって部分的に橋渡しされる皮膚病変の特徴の高度な変動に対処する上で、課題に直面している。 既存の問題を解決するために、ResNet101でDep Autoencoder (DAE) と呼ばれる革新的な畳み込み型アンサンブルネットワークアプローチを導入する。 この方法は、畳み込みに基づくディープニューラルネットワークを用いて皮膚がんを検出する。 ソースから取得したISIC-2018公開データは実験結果に使用される。 精度96.03%、精度95.40%、リコール96.05%、F測定0.9576、AUC0.98である。

Skin cancer is a crucial health issue that requires timely detection for higher survival rates. Traditional computer vision techniques face challenges in addressing the advanced variability of skin lesion features, a gap partially bridged by convolutional neural networks (CNNs). To overcome the existing issues, we introduce an innovative convolutional ensemble network approach named deep autoencoder (DAE) with ResNet101. This method utilizes convolution-based deep neural networks for the detection of skin cancer. The ISIC-2018 public data taken from the source is used for experimental results, which demonstrate remarkable performance with the different in terms of performance metrics. The methods result in 96.03% of accuracy, 95.40 % of precision, 96.05% of recall, 0.9576 of F-measure, 0.98 of AUC.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# IBM Q上での量子状態のトポロジーと幾何学の直接証明

Direct Probe of Topology and Geometry of Quantum States on IBM Q ( http://arxiv.org/abs/2403.14249v1 )

ライセンス: Link先を確認
Tianqi Chen, Hai-Tao Ding, Ruizhe Shen, Shi-Liang Zhu, Jiangbin Gong, (参考訳) トポロジーと幾何学の概念は、量子物質のエキゾチック相を探索する上で非常に重要である。 様々な実験プラットフォームで研究されているが、現在まで、最小モデルであっても、普遍量子コンピュータ上での位相的および幾何学的性質の直接探索は行われていない。 本研究では、量子幾何テンソル(QGT)の密度行列形式が、量子回路上のパウリ作用素の測定から明示的に再構成可能であることを示す。 次に、IBM量子コンピュータに適した2つのアルゴリズムを提案し、QGTを直接探索する。 第1のアルゴリズムは、特にNISQ(Noisy Intermediate-Scale Quantum)-eraデバイスに適した変分量子アルゴリズムであり、第2のアルゴリズムは、量子想像時間進化に基づく純粋量子アルゴリズムである。 チャーン絶縁体モデルを模擬したIBM Qから得られた明示的な結果を提示し分析する。 この結果から,トランスモン量子ビットを用いた普遍量子コンピュータは,量子系の位相的および幾何学的性質を直接シミュレートし,研究できる可能性が示唆された。

The concepts of topology and geometry are of critical importance in exploring exotic phases of quantum matter. Though they have been investigated on various experimental platforms, to date a direct probe of topological and geometric properties on a universal quantum computer even for a minimum model is still in vain. In this work, we first show that a density matrix form of the quantum geometric tensor (QGT) can be explicitly re-constructed from Pauli operator measurements on a quantum circuit. We then propose two algorithms, suitable for IBM quantum computers, to directly probe QGT. The first algorithm is a variational quantum algorithm particularly suitable for Noisy Intermediate-Scale Quantum (NISQ)-era devices, whereas the second one is a pure quantum algorithm based on quantum imaginary time evolution. Explicit results obtained from IBM Q simulating a Chern insulator model are presented and analysed. Our results indicate that transmon qubit-based universal quantum computers have the potential to directly simulate and investigate topological and geometric properties of a quantum system.
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# コンター・テクスチュア・アウェア・摂動による無許可トレーニングに対する医用画像分割データセットの保護

Safeguarding Medical Image Segmentation Datasets against Unauthorized Training via Contour- and Texture-Aware Perturbations ( http://arxiv.org/abs/2403.14250v1 )

ライセンス: Link先を確認
Xun Lin, Yi Yu, Song Xia, Jue Jiang, Haoran Wang, Zitong Yu, Yizhong Liu, Ying Fu, Shuai Wang, Wenzhong Tang, Alex Kot, (参考訳) 公開医療画像の普及により,様々な研究・臨床分野での進歩が著しく促進された。 それでも、商用目的のAIシステムの無許可トレーニングや患者のプライバシー保護の義務に関する懸念は、多くの機関が画像の共有をためらっている。 これは医用画像セグメンテーション(MIS)データセットに特に当てはまる。 近年、未学習例(UE)法は、目に見えないショートカットを追加することで、画像を保護する可能性を示している。 これらのショートカットは、許可されていないディープニューラルネットワークの一般化を防ぐことができる。 しかし、既存のUEは自然画像分類用に設計されており、保護摂動がMIS、例えば輪郭、テクスチャといった重要な知識よりも学習しやすいため、MISデータセットを不可避的に保護することができない。 そこで本研究では,UMedと呼ばれる非学習可能な医用画像生成手法を提案する。 UMedは、画像を保護するために輪郭とテクスチャを意識した摂動を注入することで、MISの以前の知識を統合する。 本研究の目的は,MISに致命的な毒性のみを付与することであり, UMedはROI内とその輪郭の摂動を最小限に抑えることで, 高い知覚能力(平均PSNRは50.03)と保護性能(平均DSCが82.18%から6.80%に低下する)を実現することである。

The widespread availability of publicly accessible medical images has significantly propelled advancements in various research and clinical fields. Nonetheless, concerns regarding unauthorized training of AI systems for commercial purposes and the duties of patient privacy protection have led numerous institutions to hesitate to share their images. This is particularly true for medical image segmentation (MIS) datasets, where the processes of collection and fine-grained annotation are time-intensive and laborious. Recently, Unlearnable Examples (UEs) methods have shown the potential to protect images by adding invisible shortcuts. These shortcuts can prevent unauthorized deep neural networks from generalizing. However, existing UEs are designed for natural image classification and fail to protect MIS datasets imperceptibly as their protective perturbations are less learnable than important prior knowledge in MIS, e.g., contour and texture features. To this end, we propose an Unlearnable Medical image generation method, termed UMed. UMed integrates the prior knowledge of MIS by injecting contour- and texture-aware perturbations to protect images. Given that our target is to only poison features critical to MIS, UMed requires only minimal perturbations within the ROI and its contour to achieve greater imperceptibility (average PSNR is 50.03) and protective performance (clean average DSC degrades from 82.18% to 6.80%).
翻訳日:2024-03-22 14:57:51 公開日:2024-03-21
# LayoutLLM: 視覚的にリッチなドキュメント理解のための大規模言語モデルインストラクションチューニング

LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding ( http://arxiv.org/abs/2403.14252v1 )

ライセンス: Link先を確認
Masato Fujitake, (参考訳) 本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。 文書画像分類や情報抽出といった視覚的にリッチな文書理解タスクは,その重要性から注目されている。 画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。 しかしながら、これらの方法は各タスクとデータセットの微調整を必要とし、モデルはトレーニングと運用に費用がかかる。 この制限を克服するため,大規模言語モデル(LLM)と統合したLayoutLLMを提案する。 文書画像理解とLLMの優れた言語理解能力に関する既存の研究の強みを生かして、マルチモーダルな命令データセットで微調整された提案モデルは、単一のモデルで文書画像の理解を行う。 本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。

This paper proposes LayoutLLM, a more flexible document analysis method for understanding imaged documents. Visually Rich Document Understanding tasks, such as document image classification and information extraction, have gained significant attention due to their importance. Existing methods have been developed to enhance document comprehension by incorporating pre-training awareness of images, text, and layout structure. However, these methods require fine-tuning for each task and dataset, and the models are expensive to train and operate. To overcome this limitation, we propose a new LayoutLLM that integrates these with large-scale language models (LLMs). By leveraging the strengths of existing research in document image understanding and LLMs' superior language understanding capabilities, the proposed model, fine-tuned with multimodal instruction datasets, performs an understanding of document images in a single model. Our experiments demonstrate improvement over the baseline model in various document analysis tasks.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# K-Act2Emo: 間接感情表現のための韓国のコモンセンス知識グラフ

K-Act2Emo: Korean Commonsense Knowledge Graph for Indirect Emotional Expression ( http://arxiv.org/abs/2403.14253v1 )

ライセンス: Link先を確認
Kyuhee Kim, Surin Lee, Sangah Lee, (参考訳) 多くの文献では、感情は行動、表情、外見の記述を通じて間接的に伝達され、物語理解のために感情推論を必要とする。 本稿では,K-Act2Emoについて紹介する。K-Act2Emoは韓国のコモンセンス知識グラフ(CSKG)で,1,900の間接的感情表現とそれらから推測可能な感情を含む。 我々は,肯定的な状況における推論,否定的な状況における推論,感情的な手がかりとして表現が役に立たない場合の推論に,推論型を分類する。 既存のCSKGとは異なり、K-Act2Emoは感情の文脈を専門とし、実験結果は感情推論モデルのトレーニングに有効である。 重要なことに、K-Act2Emoで微調整されたBARTベースのナレッジモデルは、GPT-4 Turboに匹敵するパフォーマンスレベルを達成し、韓国の様々な大規模言語モデルより優れている。

In many literary texts, emotions are indirectly conveyed through descriptions of actions, facial expressions, and appearances, necessitating emotion inference for narrative understanding. In this paper, we introduce K-Act2Emo, a Korean commonsense knowledge graph (CSKG) comprising 1,900 indirect emotional expressions and the emotions inferable from them. We categorize reasoning types into inferences in positive situations, inferences in negative situations, and inferences when expressions do not serve as emotional cues. Unlike existing CSKGs, K-Act2Emo specializes in emotional contexts, and experimental results validate its effectiveness for training emotion inference models. Significantly, the BART-based knowledge model fine-tuned with K-Act2Emo outperforms various existing Korean large language models, achieving performance levels comparable to GPT-4 Turbo.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# ERD:認知歪み分類のためのLLM推論改善フレームワーク

ERD: A Framework for Improving LLM Reasoning for Cognitive Distortion Classification ( http://arxiv.org/abs/2403.14255v1 )

ライセンス: Link先を確認
Sehee Lim, Yejin Kim, Chi-Hyun Choi, Jy-yong Sohn, Byung-Hoon Kim, (参考訳) 近年,Large Language Models (LLMs) による心理療法のアクセシビリティ向上が注目されている。 面接者の発話からの認知的歪みを認識することは、特に認知行動療法において、心理療法の不可欠な部分である。 本稿では,(1)認知歪みに関連する部分を抽出し,(2)複数のエージェントによる推論ステップを議論することで,LCMに基づく認知歪み分類性能を向上させるERDを提案する。 公開データセットを用いた実験結果から,ERDは多クラスF1スコアとバイナリ特異性スコアを改善した。 後者のスコアに関して,本手法は偽陽性率の高いベースライン法,特にマルチエージェント討論の要約をLCMに提供した場合に有効であることが判明した。

Improving the accessibility of psychotherapy with the aid of Large Language Models (LLMs) is garnering a significant attention in recent years. Recognizing cognitive distortions from the interviewee's utterances can be an essential part of psychotherapy, especially for cognitive behavioral therapy. In this paper, we propose ERD, which improves LLM-based cognitive distortion classification performance with the aid of additional modules of (1) extracting the parts related to cognitive distortion, and (2) debating the reasoning steps by multiple agents. Our experimental results on a public dataset show that ERD improves the multi-class F1 score as well as binary specificity score. Regarding the latter score, it turns out that our method is effective in debiasing the baseline method which has high false positive rate, especially when the summary of multi-agent debate is provided to LLMs.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# LLMによる特許からのコントラクテーションの抽出

LLM-based Extraction of Contradictions from Patents ( http://arxiv.org/abs/2403.14258v1 )

ライセンス: Link先を確認
Stefan Trapp, Joachim Warschat, (参考訳) 1950年代から既にTRIZは、特許と彼らが解決した技術的矛盾が革新的な製品の開発にインスピレーションを与える重要な源であることを示している。 しかし、TRIZは歴史的特許分析に基づくヒューリスティックであり、現在の特許における最新の技術ソリューションの数が増え続けていることを利用していない。 膨大な数の特許、その長さ、そしてもっとも重要なことは、その複雑さのために、キーワード指向の方法を超えた近代的な特許検索と特許分析が必要であることである。 特許の検索と分析の最近の進歩は、主にGoogle BERTのようなニューラルAIトランスフォーマー言語モデルに基づく高密度ベクトルに焦点を当てている。 例えば、密集検索、質問応答、要約、キーコンセプト抽出などに使われる。 特許要約法とキーコンセプト抽出法における研究の焦点は、それぞれ、問題、解決策、発明の利点、パラメータ、矛盾といったTRIZ概念の一般的な発明的概念である。 規則に基づくアプローチを習得し、文の分類のための細調整されたBERTライクな言語モデルは、発明的概念抽出の最先端を表現している。 彼らは問題やソリューションといった基本的な概念に対して比較的うまく機能しますが、より複雑な抽象化として、矛盾はこれらのモデルにとって課題のままです。 本稿では,生成型Large Language Model(LLM)を用いて,特許文書からTRIZの矛盾を抽出する手法を提案する。 39の抽象TRIZエンジニアリングパラメータに対するコントラクション検出、文抽出、矛盾要約、パラメータ抽出、割り当ては、LangChainフレームワークを使用して単一のプロンプトで実行される。 以上の結果から,GPT-4 は既存のアプローチの真に代替するものであることが示唆された。

Already since the 1950s TRIZ shows that patents and the technical contradictions they solve are an important source of inspiration for the development of innovative products. However, TRIZ is a heuristic based on a historic patent analysis and does not make use of the ever-increasing number of latest technological solutions in current patents. Because of the huge number of patents, their length, and, last but not least, their complexity there is a need for modern patent retrieval and patent analysis to go beyond keyword-oriented methods. Recent advances in patent retrieval and analysis mainly focus on dense vectors based on neural AI Transformer language models like Google BERT. They are, for example, used for dense retrieval, question answering or summarization and key concept extraction. A research focus within the methods for patent summarization and key concept extraction are generic inventive concepts respectively TRIZ concepts like problems, solutions, advantage of invention, parameters, and contradictions. Succeeding rule-based approaches, finetuned BERT-like language models for sentence-wise classification represent the state-of-the-art of inventive concept extraction. While they work comparatively well for basic concepts like problems or solutions, contradictions - as a more complex abstraction - remain a challenge for these models. This paper goes one step further, as it presents a method to extract TRIZ contradictions from patent texts based on Prompt Engineering using a generative Large Language Model (LLM), namely OpenAI's GPT-4. Contradiction detection, sentence extraction, contradiction summarization, parameter extraction and assignment to the 39 abstract TRIZ engineering parameters are all performed in a single prompt using the LangChain framework. Our results show that "off-the-shelf" GPT-4 is a serious alternative to existing approaches.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 教師なし異常検出のためのアンサンブル構造に基づく異常スコア付き拡散モデル

Diffusion Models with Ensembled Structure-Based Anomaly Scoring for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2403.14262v1 )

ライセンス: Link先を確認
Finn Behrendt, Debayan Bhattacharya, Lennart Maack, Julia Krüger, Roland Opfer, Robin Mieling, Alexander Schlaefer, (参考訳) 教師付き深層学習技術は医用画像解析において有望である。 しかし、それらは包括的な注釈付きデータセットを必要としており、特にまれな疾患に対する課題を引き起こしている。 その結果、非教師なし異常検出(UAD)は、トレーニングに必要な健康的なデータのみを必要とするため、病理分類の有効な代替手段として現れる。 しかし、近年のUAD異常スコアリング機能は強度のみに焦点を合わせ、構造的差異を無視することが多く、セグメンテーション性能を損なう。 本研究は, このギャップを埋める構造類似性(SSIM)の可能性について検討する。 SSIMは強度と構造的差異の両方をキャプチャし、古典的な$l1$エラーよりも有利である。 しかし,SSIM計算には複数のカーネルサイズが存在することがわかった。 そこで本研究では,カーネルサイズに応じた適応型アンサンブル戦略について検討し,より病理学的なスコアリング機構を提案する。 我々は、このアンサンブル戦略が、DMの性能を高め、様々な病理の異なるカーネルサイズに対する感受性を緩和し、脳MRI異常検出の可能性を強調できることを示した。

Supervised deep learning techniques show promise in medical image analysis. However, they require comprehensive annotated data sets, which poses challenges, particularly for rare diseases. Consequently, unsupervised anomaly detection (UAD) emerges as a viable alternative for pathology segmentation, as only healthy data is required for training. However, recent UAD anomaly scoring functions often focus on intensity only and neglect structural differences, which impedes the segmentation performance. This work investigates the potential of Structural Similarity (SSIM) to bridge this gap. SSIM captures both intensity and structural disparities and can be advantageous over the classical $l1$ error. However, we show that there is more than one optimal kernel size for the SSIM calculation for different pathologies. Therefore, we investigate an adaptive ensembling strategy for various kernel sizes to offer a more pathology-agnostic scoring mechanism. We demonstrate that this ensembling strategy can enhance the performance of DMs and mitigate the sensitivity to different kernel sizes across varying pathologies, highlighting its promise for brain MRI anomaly detection.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# Skin-Tone Awareness とNudity Identification を用いたポートレートスティル化のためのフレームワーク

A Framework for Portrait Stylization with Skin-Tone Awareness and Nudity Identification ( http://arxiv.org/abs/2403.14264v1 )

ライセンス: Link先を確認
Seungkwon Kim, Sangyeon Kim, Seung-Hun Nam, (参考訳) ポートレート・スタイリングは、入力されたポートレートイメージを特定のスタイルに変換し、固有の特性を保ちながら、困難な作業である。 最近の安定拡散(SD)の導入により、この分野における成果の質が大幅に向上した。 しかし、有害な入力内容を効果的にフィルタリングし、スキントーンなどの入力の特徴を保ちつつ、スタイリゼーションの質を保った実践的なスタイリゼーションフレームワークは依然として欠落している。 これらの課題は、このようなフレームワークの展開を妨げている。 そこで本研究では,Nudity Content Identification Module (NCIM)とSkin-tone-Aware portrait stylization Module (STAPSM)を組み込んだポートレートスタイリングフレームワークを提案する。 実験では、NCIMは明示的な内容フィルタリングの強化に優れた性能を示し、STAPSMは様々な皮膚のトーンを正確に表現した。 提案するフレームワークは,実世界のアプリケーションにおける重要な要件を効果的に満たしている。

Portrait stylization is a challenging task involving the transformation of an input portrait image into a specific style while preserving its inherent characteristics. The recent introduction of Stable Diffusion (SD) has significantly improved the quality of outcomes in this field. However, a practical stylization framework that can effectively filter harmful input content and preserve the distinct characteristics of an input, such as skin-tone, while maintaining the quality of stylization remains lacking. These challenges have hindered the wide deployment of such a framework. To address these issues, this study proposes a portrait stylization framework that incorporates a nudity content identification module (NCIM) and a skin-tone-aware portrait stylization module (STAPSM). In experiments, NCIM showed good performance in enhancing explicit content filtering, and STAPSM accurately represented a diverse range of skin tones. Our proposed framework has been successfully deployed in practice, and it has effectively satisfied critical requirements of real-world applications.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# Scene-Graph ViT:Open-Vocabulary Visual Relationship Detection

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection ( http://arxiv.org/abs/2403.14270v1 )

ライセンス: Link先を確認
Tim Salzmann, Markus Ryll, Alex Bewley, Matthias Minderer, (参考訳) 視覚的関係検出は、画像中のオブジェクトとその関係を識別することを目的としている。 従来のメソッドは、既存のオブジェクト検出アーキテクチャに別個のリレーションモジュールやデコーダを追加することで、このタスクにアプローチする。 この分離は複雑さを増し、エンドツーエンドのトレーニングを妨げ、パフォーマンスを制限します。 オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。 我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。 関係情報を抽出するために,関係を形成する可能性のあるオブジェクトペアを選択するアテンション機構を導入する。 我々は、オブジェクトと関係検出データの混合に基づいて、このモデルをトレーニングするための単一ステージレシピを提供する。 提案手法は,Visual Genome や大語彙 GQA ベンチマーク上で,リアルタイムな推論速度で,最先端の相関検出性能を実現する。 ゼロショット性能、アブレーション、実世界の定性的な例について分析する。

Visual relationship detection aims to identify objects and their relationships in images. Prior methods approach this task by adding separate relationship modules or decoders to existing object detection architectures. This separation increases complexity and hinders end-to-end training, which limits performance. We propose a simple and highly efficient decoder-free architecture for open-vocabulary visual relationship detection. Our model consists of a Transformer-based image encoder that represents objects as tokens and models their relationships implicitly. To extract relationship information, we introduce an attention mechanism that selects object pairs likely to form a relationship. We provide a single-stage recipe to train this model on a mixture of object and relationship detection data. Our approach achieves state-of-the-art relationship detection performance on Visual Genome and on the large-vocabulary GQA benchmark at real-time inference speeds. We provide analyses of zero-shot performance, ablations, and real-world qualitative examples.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 強化学習による原子炉最適化ベンチマーク

Reactor Optimization Benchmark by Reinforcement Learning ( http://arxiv.org/abs/2403.14273v1 )

ライセンス: Link先を確認
Deborah Schwarcz, Nadav Schneider, Gal Oren, Uri Steinitz, (参考訳) 反応器の中性子計算はモンテカルロ法(MC)を用いる場合の大変な作業である。 高性能コンピューティングが進むにつれて、原子炉のシミュレーションはより容易に行えるようになったが、複数のパラメータによる設計と最適化は依然として計算上の課題である。 MC輸送シミュレーションと機械学習技術が組み合わさって、原子炉最適化の効率性と有効性を高めるための有望な道を提供する。 本稿では,強化学習に特化して設計されたOpenNeoMCフレームワークのベンチマーク問題を紹介する。 このベンチマークでは、原子炉臨界性を維持しながら中性子フラックスを最大化するために、2つの異なるパラメータ(燃料密度と水間隔)を持つ原子炉の単位セルを最適化する。 テストケースは、異なる物理状態を表す、異なる局所的な最適性を備えており、アルゴリズムの学習に挑戦している。 進化的および神経進化的アルゴリズムを用いた広範囲なシミュレーションを通じて、複雑な最適化景観を厳密な制約でナビゲートする際の強化学習の有効性を実証する。 さらに,モデル更新やRAM利用によるクロスセクション利用など,OpenNeoMCフレームワーク内での高速化手法を提案し,シミュレーション時間を短縮する。 本研究は, 原子炉最適化における機械学習統合の重要性を強調し, 原子力工学における複雑な最適化課題に対処する手法の進歩に寄与する。 この作業のソースはGitHubリポジトリにある。 https://github.com/Scientific-Computing-Lab-NRCN/RLOpenNeoMC。

Neutronic calculations for reactors are a daunting task when using Monte Carlo (MC) methods. As high-performance computing has advanced, the simulation of a reactor is nowadays more readily done, but design and optimization with multiple parameters is still a computational challenge. MC transport simulations, coupled with machine learning techniques, offer promising avenues for enhancing the efficiency and effectiveness of nuclear reactor optimization. This paper introduces a novel benchmark problem within the OpenNeoMC framework designed specifically for reinforcement learning. The benchmark involves optimizing a unit cell of a research reactor with two varying parameters (fuel density and water spacing) to maximize neutron flux while maintaining reactor criticality. The test case features distinct local optima, representing different physical regimes, thus posing a challenge for learning algorithms. Through extensive simulations utilizing evolutionary and neuroevolutionary algorithms, we demonstrate the effectiveness of reinforcement learning in navigating complex optimization landscapes with strict constraints. Furthermore, we propose acceleration techniques within the OpenNeoMC framework, including model updating and cross-section usage by RAM utilization, to expedite simulation times. Our findings emphasize the importance of machine learning integration in reactor optimization and contribute to advancing methodologies for addressing intricate optimization challenges in nuclear engineering. The sources of this work are available at our GitHub repository: https://github.com/Scientific-Computing-Lab-NRCN/RLOpenNeoMC
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 脆弱性検出のためのLLMによるマルチロールコンセンサス

Multi-role Consensus through LLMs Discussions for Vulnerability Detection ( http://arxiv.org/abs/2403.14274v1 )

ライセンス: Link先を確認
Zhenyu Mao, Jialong Li, Munan Li, Kenji Tei, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア品質保証の重要なコンポーネントである脆弱性検出の可能性を強調している。 このような進歩にもかかわらず、ほとんどの研究は、開発者とテスターの両方を含む典型的なソフトウェア開発ライフサイクルにおいて、さまざまな役割からさまざまな視点を欠いているテスターという、単一の役割の観点に限られている。 そこで本稿では,LLMを用いて実生活のコードレビュープロセスをシミュレートし,コードの脆弱性の存在と分類に関するコンセンサスを議論する。 提案手法の予備評価では、精度が4.73%向上し、リコールレートが58.9%上昇し、F1スコアが28.1%上昇した。

Recent advancements in large language models (LLMs) have highlighted the potential for vulnerability detection, a crucial component of software quality assurance. Despite this progress, most studies have been limited to the perspective of a single role, usually testers, lacking diverse viewpoints from different roles in a typical software development life-cycle, including both developers and testers. To this end, this paper introduces an approach to employ LLMs to act as different roles to simulate real-life code review process, engaging in discussions towards a consensus on the existence and classification of vulnerabilities in the code. Preliminary evaluation of the proposed approach indicates a 4.73% increase in the precision rate, 58.9% increase in the recall rate, and a 28.1% increase in the F1 score.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# NLGシステムの評価には基準が必要か?

Is Reference Necessary in the Evaluation of NLG Systems? When and Where? ( http://arxiv.org/abs/2403.14275v1 )

ライセンス: Link先を確認
Shuqian Sheng, Yi Xu, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xinbing Wang, Chenghu Zhou, (参考訳) NLGシステム評価のための自動メトリクスの大部分は、参照ベースである。 しかしながら、ヒューマンアノテーションの収集という課題は、多くのアプリケーションシナリオにおける信頼性の高い参照の欠如をもたらす。 参照なしメトリクスの最近の進歩にもかかわらず、いつ、どこで参照ベースのメトリクスの代替として使用できるのかはよく理解されていない。 本研究では, 多様な分析手法を用いて, 8つのデータセットと8つの評価モデルを含む多種多様なNLGタスクにおいて, 両指標のパフォーマンスを総合的に評価する。 その結果, 基準自由度は人間の判断と高い相関を示し, 言語品質の低下に対する感度が高いことがわかった。 しかし、その効果はタスクによって異なり、候補テキストの品質に影響される。 したがって、新しいタスクに適用する前に、特に入力が一般的でない場合や、応答空間が高度に変動する場合に、参照不要なメトリクスのパフォーマンスを評価することが重要です。 本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。

The majority of automatic metrics for evaluating NLG systems are reference-based. However, the challenge of collecting human annotation results in a lack of reliable references in numerous application scenarios. Despite recent advancements in reference-free metrics, it has not been well understood when and where they can be used as an alternative to reference-based metrics. In this study, by employing diverse analytical approaches, we comprehensively assess the performance of both metrics across a wide range of NLG tasks, encompassing eight datasets and eight evaluation models. Based on solid experiments, the results show that reference-free metrics exhibit a higher correlation with human judgment and greater sensitivity to deficiencies in language quality. However, their effectiveness varies across tasks and is influenced by the quality of candidate texts. Therefore, it's important to assess the performance of reference-free metrics before applying them to a new task, especially when inputs are in uncommon form or when the answer space is highly variable. Our study can provide insight into the appropriate application of automatic metrics and the impact of metric choice on evaluation performance.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 多画素超電導ナノワイヤ単光子検出器の光バイアスと低温レーザー読取

Optical Bias and Cryogenic Laser Readout of a Multipixel Superconducting Nanowire Single Photon Detector ( http://arxiv.org/abs/2403.14276v1 )

ライセンス: Link先を確認
Frederik Thiele, Niklas Lamberty, Thomas Hummel, Tim Bartley, (参考訳) 低温電子部品の制御・読み出し手段として、低温光電子配線が注目されている。 課題は、低熱負荷処理で十分な信号整合性を達成することである。 この文脈では、低温フォトダイオードとレーザーを用いた4画素超伝導ナノワイヤ単光子検出器アレイの光電子バイアスと読み出しを実証する。 このアプローチは従来のバイアスと同様のシステム検出効率を持つことを示す。 さらに、マルチピクセル検出イベントは光領域と電気領域の間で忠実に変換され、振幅多重光子統計の信頼性の高い抽出が可能となる。 我々の装置は2.6mWの受動熱散逸を持ち、3nsの信号上昇時間を維持し、600kHzの繰り返し速度でフリーラン(セルフリセット)モードで動作する。 これは、スケーラブルな低温信号処理と伝送のための高帯域幅、低ノイズ、低熱負荷光電子配線の可能性を示す。

Cryogenic opto-electronic interconnects are gaining increasing interest as a means to control and read out cryogenic electronic components. The challenge is to achieve sufficient signal integrity with low heat load processing. In this context, we demonstrate the opto-electronic bias and readout of a commercial four-pixel superconducting nanowire single-photon detector array using a cryogenic photodiode and laser. We show that this approach has a similar system detection efficiency to a conventional bias. Furthermore, multi-pixel detection events are faithfully converted between the optical and electrical domain, which allows reliable extraction of amplitude multiplexed photon statistics. Our device has a passive heat dissipation of 2.6mW, maintains the signal rise time of 3ns, and operates in free-running (self-resetting) mode at a repetition rate of 600kHz. This demonstrates the potential of high-bandwidth, low noise, and low heat load opto-electronic interconnects for scalable cryogenic signal processing and transmission.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# Zero123-6D: RGBカテゴリーレベルの6次元空間推定のためのゼロショット新規ビュー合成

Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation ( http://arxiv.org/abs/2403.14279v1 )

ライセンス: Link先を確認
Francesco Di Felice, Alberto Remus, Stefano Gasperini, Benjamin Busam, Lionel Ott, Federico Tombari, Roland Siegwart, Carlo Alberto Avizzano, (参考訳) ロボットプラットフォームが環境と対話するためには、視覚を通して物体のポーズを推定することが不可欠である。 しかし、多くの課題があり、しばしば最先端のソリューションの柔軟性と一般化性の欠如に関連している。 拡散モデルは、2Dおよび3Dコンピュータビジョンを変換する最先端のニューラルネットワークであり、ゼロショットノベルビュー合成における顕著なパフォーマンスを概説している。 このようなユースケースは、特に3Dオブジェクトの再構築に興味深い。 しかし、非構造化環境における物体の局所化は、かなり未解明である。 そこで本研究では,Zero123-6Dを用いて,RGB 6Dのポーズ推定をカテゴリレベルで向上する手法として,拡散モデルに基づく新規ビュー合成装置の有用性を実証する。 アウトライン化手法は、新規なビューシンセサイザーを利用して、ゼロショット6Dポーズ推定タスクのためのRGBのみ参照ビューのスパースセットを拡張する。 実験はCO3Dデータセット上で定量的に分析され、ベースライン上での性能向上、データ要求の大幅な削減、深度情報の必要性の排除が示されている。

Estimating the pose of objects through vision is essential to make robotic platforms interact with the environment. Yet, it presents many challenges, often related to the lack of flexibility and generalizability of state-of-the-art solutions. Diffusion models are a cutting-edge neural architecture transforming 2D and 3D computer vision, outlining remarkable performances in zero-shot novel-view synthesis. Such a use case is particularly intriguing for reconstructing 3D objects. However, localizing objects in unstructured environments is rather unexplored. To this end, this work presents Zero123-6D to demonstrate the utility of Diffusion Model-based novel-view-synthesizers in enhancing RGB 6D pose estimation at category-level by integrating them with feature extraction techniques. The outlined method exploits such a novel view synthesizer to expand a sparse set of RGB-only reference views for the zero-shot 6D pose estimation task. Experiments are quantitatively analyzed on the CO3D dataset, showcasing increased performance over baselines, a substantial reduction in data requirements, and the removal of the necessity of depth information.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# ブロックチェーンセキュリティのための大規模言語モデル - 体系的な文献レビュー

Large Language Models for Blockchain Security: A Systematic Literature Review ( http://arxiv.org/abs/2403.14280v1 )

ライセンス: Link先を確認
Zheyuan He, Zihao Li, Sen Yang, (参考訳) 大規模言語モデル(LLM)は、ブロックチェーンセキュリティ(BS)を含むさまざまなドメインにおいて、強力なツールとして登場した。 いくつかの最近の研究は、BSに適用されたLLMを探索している。 しかしながら、アプリケーションの全範囲、影響、LLMのブロックチェーンセキュリティに対する潜在的な制約に関する理解には、まだギャップがあります。 このギャップを埋めるために、LLM4BSに関する文献レビューを行う。 LLMのブロックチェーンセキュリティへの適用に関する最初のレビューとして、我々の研究は、既存の研究を包括的に分析し、LLMがブロックチェーンシステムのセキュリティ向上にどのように貢献するかを明らかにすることを目的としている。 学術研究の徹底的な調査を通じて、LLMをブロックチェーンセキュリティのさまざまな側面に統合する方法について検討する。 スマートコントラクト監査、アイデンティティ検証、異常検出、脆弱性のある修復など、LLMがブロックチェーンセキュリティを強化するメカニズムについて検討する。 さらに、スケーラビリティ、プライバシの懸念、敵攻撃といった要因を考慮して、LLMをブロックチェーンセキュリティに活用する際の課題と制限を批判的に評価する。 私たちのレビューでは、この収束に固有の可能性や潜在的なリスクについて光を当て、研究者、実践家、政策立案者にも貴重な洞察を与えています。

Large Language Models (LLMs) have emerged as powerful tools in various domains involving blockchain security (BS). Several recent studies are exploring LLMs applied to BS. However, there remains a gap in our understanding regarding the full scope of applications, impacts, and potential constraints of LLMs on blockchain security. To fill this gap, we conduct a literature review on LLM4BS. As the first review of LLM's application on blockchain security, our study aims to comprehensively analyze existing research and elucidate how LLMs contribute to enhancing the security of blockchain systems. Through a thorough examination of scholarly works, we delve into the integration of LLMs into various aspects of blockchain security. We explore the mechanisms through which LLMs can bolster blockchain security, including their applications in smart contract auditing, identity verification, anomaly detection, vulnerable repair, and so on. Furthermore, we critically assess the challenges and limitations associated with leveraging LLMs for blockchain security, considering factors such as scalability, privacy concerns, and adversarial attacks. Our review sheds light on the opportunities and potential risks inherent in this convergence, providing valuable insights for researchers, practitioners, and policymakers alike.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 公正になるには?ラベルと選択バイアスの研究

How to be fair? A study of label and selection bias ( http://arxiv.org/abs/2403.14282v1 )

ライセンス: Link先を確認
Marco Favier, Toon Calders, Sam Pinxteren, Jonathan Meyer, (参考訳) 偏りのあるデータが偏り、従って不公平なモデルにつながることは広く受け入れられている。 そのため、データにおけるバイアスとモデル予測のためのいくつかの尺度が提案され、また、設計によって公正なモデルを学ぶことを目的としたバイアス緩和手法が提案されている。 しかし、過去10年間に開発された無数の緩和技術にもかかわらず、どの方法が機能するかはいまだに理解されていない。 最近では、Wickらによる合成データの実験により、バイアス緩和技術が偏りのないデータで測定された場合、より正確なモデルをもたらす状況があることが示されている。 しかし、詳細な数学的分析がなければ、どの手法がどのような状況で有効であるかは明らかでない。 本稿では,バイアスの種類と緩和手法の有効性の関連性を確立することでこの問題に対処し,最適化したバイアス尺度によって緩和手法を分類する。 本稿では,この原則を,一方のラベルと選択バイアスと,他方の「We're All Equal」と,他方の「We're All Equal」について説明する。 理論的解析によりWick et al の結果が説明でき、公平度を最小化しても最も公平な分布が得られない状況も示される。

It is widely accepted that biased data leads to biased and thus potentially unfair models. Therefore, several measures for bias in data and model predictions have been proposed, as well as bias mitigation techniques whose aim is to learn models that are fair by design. Despite the myriad of mitigation techniques developed in the past decade, however, it is still poorly understood under what circumstances which methods work. Recently, Wick et al. showed, with experiments on synthetic data, that there exist situations in which bias mitigation techniques lead to more accurate models when measured on unbiased data. Nevertheless, in the absence of a thorough mathematical analysis, it remains unclear which techniques are effective under what circumstances. We propose to address this problem by establishing relationships between the type of bias and the effectiveness of a mitigation technique, where we categorize the mitigation techniques by the bias measure they optimize. In this paper we illustrate this principle for label and selection bias on the one hand, and demographic parity and ``We're All Equal'' on the other hand. Our theoretical analysis allows to explain the results of Wick et al. and we also show that there are situations where minimizing fairness measures does not result in the fairest possible distribution.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# ディープスピーカダイアリゼーションのためのスペクトルクラスタリングのロバスト性の評価

Assessing the Robustness of Spectral Clustering for Deep Speaker Diarization ( http://arxiv.org/abs/2403.14286v1 )

ライセンス: Link先を確認
Nikhil Raghav, Md Sahidullah, (参考訳) 話者埋め込みのクラスタ化は話者ダイアリゼーションにおいて重要であるが、他のコンポーネントほど注目されていない。 さらに、様々なデータセットにわたる話者ダイアリゼーションのロバスト性は、開発および評価データが異なるドメインからのものである場合に検討されていない。 このギャップを埋めるために、同領域話者ダイアリゼーションとクロスドメイン話者ダイアリゼーションの両方に対するスペクトルクラスタリングを徹底的に検討した。 広く使われている2つのコーパスであるAMIとDIHARDに関する広範な実験により、ドメインミスマッチの存在下での話者ダイアリゼーションの性能傾向が明らかになった。 2つの異なる領域条件間の性能差がスペクトルクラスタリングの役割に起因することが観察された。 特に,他のモジュールを不一致に保ちながら,最適チューニングパラメータと話者数推定の相違がミスマッチに起因することを示す。 本研究では,話者ダイアリゼーション研究の今後の方向性について述べる。

Clustering speaker embeddings is crucial in speaker diarization but hasn't received as much focus as other components. Moreover, the robustness of speaker diarization across various datasets hasn't been explored when the development and evaluation data are from different domains. To bridge this gap, this study thoroughly examines spectral clustering for both same-domain and cross-domain speaker diarization. Our extensive experiments on two widely used corpora, AMI and DIHARD, reveal the performance trend of speaker diarization in the presence of domain mismatch. We observe that the performance difference between two different domain conditions can be attributed to the role of spectral clustering. In particular, keeping other modules unchanged, we show that differences in optimal tuning parameters as well as speaker count estimation originates due to the mismatch. This study opens several future directions for speaker diarization research.
翻訳日:2024-03-22 14:48:00 公開日:2024-03-21
# 構成キュウリを用いた歴史的画像検索の強化

Enhancing Historical Image Retrieval with Compositional Cues ( http://arxiv.org/abs/2403.14287v1 )

ライセンス: Link先を確認
Tingyu Lin, Robert Sablatnig, (参考訳) 膨大な量のデジタル記憶された歴史的画像データを分析する際、既存のコンテンツベースの検索手法は、しばしば重要な非意味的な情報を見落とし、様々なテーマをまたいだ柔軟な探索の有効性を制限している。 多様な目的のために画像検索手法の適用範囲を広げ、より一般的なパターンを明らかにするために、このトピックに計算美学、すなわち画像合成の重要な要素を革新的に導入する。 CNNが抽出した合成関連情報を設計した検索モデルに明示的に統合することにより、画像の合成規則と意味情報の両方を考察する。 定性的かつ定量的な実験により、合成情報によって導かれる画像検索ネットワークは、コンテンツ情報のみに依存するものよりも優れており、人間の知覚における対象画像に近いデータベース内の画像の識別が容易であることが示された。 コードを試すにはhttps://github.com/linty5/CCBIRを参照してください。

In analyzing vast amounts of digitally stored historical image data, existing content-based retrieval methods often overlook significant non-semantic information, limiting their effectiveness for flexible exploration across varied themes. To broaden the applicability of image retrieval methods for diverse purposes and uncover more general patterns, we innovatively introduce a crucial factor from computational aesthetics, namely image composition, into this topic. By explicitly integrating composition-related information extracted by CNN into the designed retrieval model, our method considers both the image's composition rules and semantic information. Qualitative and quantitative experiments demonstrate that the image retrieval network guided by composition information outperforms those relying solely on content information, facilitating the identification of images in databases closer to the target image in human perception. Please visit https://github.com/linty5/CCBIR to try our codes.
翻訳日:2024-03-22 14:38:15 公開日:2024-03-21
# 多状態連鎖同期パルス法による超低温ディープバウンド分子の形成

Formation of ultracold deeply-bound molecules via multi-state chainwise coincident pulses technique ( http://arxiv.org/abs/2403.14288v1 )

ライセンス: Link先を確認
Jiahui Zhang, (参考訳) 本稿では, 3-state $\Lambda$-type および 5-state M-type 分子系における分子の効率的な生成と検出のための理論的手法を提案する。 本手法は,3状態一致パルス法と一般化5状態一致パルス法に基づく。 3状態系では、この手法は、励起状態の過渡的な集団を無視して、共鳴と共振ポンプとストークスパルスの2組の列車により、フェシュバッハ状態から深い境界状態へ効率的に人口を移動させることができる。 5状態系では、このM型システムは4つのインシデントパルス間の関係の要求とともに大きな1光子デチューニングを仮定して、最も単純な共振結合を持つ$\Lambda$-type構造に一般化できる。 その後、この一般化されたモデルにより、縮小された3状態プロパゲータを用いて、4つの共振パルスを設計し、所望の人口移動を実現することができる。 数値実験では、$^{87}$Rb$_2$を考慮し、弱結合のフェシュバッハ分子は強いレーザーパルスを使わずに、その深い結合状態に効率的に移動でき、全ての中間状態の個体群を適切に抑制できることを示した。

In this paper, a theoretical method for the efficient creation and detection of deeply bound molecules in three-state $\Lambda$-type and five-state M-type molecular systems is proposed. The method is based on the three-state coincident pulses technique and the generalized five-state coincident pulses technique. For the three-state system, the technique can efficiently transfer the populations from the Feshbach state to the deeply-bound state via a train of $N$ pairs of resonant and coincident pump and Stokes pulses, with negligible transient populations of excited states. For the five-state system, it is found that this M-type system can be generalized into a $\Lambda$-type structure with the simplest resonant coupling under the assumption of large one-photon detuning together with a requirement of the relation among the four incident pulses. Thereafter, this generalized model permits us to employ the reduced three-state propagator to design four coincident pulses to achieve the desired population transfer. For the numerical study, $^{87}$Rb$_2$ is considered and, it is shown that the weakly-bound Feshbach molecules can be efficiently transferred to their deeply-bound states without strong laser pulses, and the populations of all intermediate states can be well suppressed.
翻訳日:2024-03-22 14:38:15 公開日:2024-03-21
# オーディオディープフェイク検出のためのグリーンAIの探索

Exploring Green AI for Audio Deepfake Detection ( http://arxiv.org/abs/2403.14290v1 )

ライセンス: Link先を確認
Subhajit Saha, Md Sahidullah, Swagatam Das, (参考訳) ディープニューラルネットワークを利用した最先端のオーディオディープフェイク検出器は、印象的な認識性能を示している。 それでも、この利点には炭素のフットプリントが伴う。 これは主に、アクセラレータによる高性能コンピューティングの使用と、高速なトレーニング時間による。 研究によると、平均深度NLPモデルは約626klbのCO\textsubscript{2}を生産しており、これはその寿命における平均アメリカ車の排出量の5倍に相当する。 これは環境にとって大きな脅威だ。 この課題に対処するために,本研究では,標準CPUリソースを用いてシームレスにトレーニング可能な,オーディオディープフェイク検出のための新しいフレームワークを提案する。 提案フレームワークは,自己教師付き学習(SSL)ベースのモデルを用いて,公開リポジトリで事前学習し,利用できる。 SSLモデルを微調整し、下流タスクに深層ニューラルネットワークを付加する既存の手法とは対照的に、事前学習モデルを用いて抽出したSSL埋め込みを用いてロジスティック回帰や浅部ニューラルネットワークのような古典的な機械学習アルゴリズムを利用する。 提案手法は, 一般的な高炭素フットプリント法と比較して, 競合性を示す。 ASVspoof 2019 LAデータセットを用いた実験では、1k以下のトレーニング可能なモデルパラメータで0.90\%のエラー率(EER)を達成した。 この方向のさらなる研究を奨励し、再現可能な結果をサポートするため、Pythonコードは受け入れ後、一般公開される予定である。 Github:https://github.com/sahasubhajit/Speech-Spoofing-

The state-of-the-art audio deepfake detectors leveraging deep neural networks exhibit impressive recognition performance. Nonetheless, this advantage is accompanied by a significant carbon footprint. This is mainly due to the use of high-performance computing with accelerators and high training time. Studies show that average deep NLP model produces around 626k lbs of CO\textsubscript{2} which is equivalent to five times of average US car emission at its lifetime. This is certainly a massive threat to the environment. To tackle this challenge, this study presents a novel framework for audio deepfake detection that can be seamlessly trained using standard CPU resources. Our proposed framework utilizes off-the-shelve self-supervised learning (SSL) based models which are pre-trained and available in public repositories. In contrast to existing methods that fine-tune SSL models and employ additional deep neural networks for downstream tasks, we exploit classical machine learning algorithms such as logistic regression and shallow neural networks using the SSL embeddings extracted using the pre-trained model. Our approach shows competitive results compared to the commonly used high-carbon footprint approaches. In experiments with the ASVspoof 2019 LA dataset, we achieve a 0.90\% equal error rate (EER) with less than 1k trainable model parameters. To encourage further research in this direction and support reproducible results, the Python code will be made publicly accessible following acceptance. Github: https://github.com/sahasubhajit/Speech-Spoofing-
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 拡散モデルにおける意味的セグメンテーションのためのトークン最適化を用いた開語彙アテンションマップ

Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models ( http://arxiv.org/abs/2403.14291v1 )

ライセンス: Link先を確認
Pablo Marcos-Manchón, Roberto Alcover-Couso, Juan C. SanMiguel, Jose M. Martínez, (参考訳) 拡散モデルは、テキスト・画像生成における新しいパラダイムを表している。 テキストプロンプトから高品質な画像を生成するだけでなく、安定拡散のようなモデルはセマンティックセグメンテーション擬似マスクの融合生成に成功している。 しかし、現在の拡張は主に画像合成に使用されるプロンプトワードに関連付けられた注意を抽出することに依存している。 このアプローチは、テキストプロンプトに含まれないワードトークンから派生したセグメンテーションマスクの生成を制限する。 本研究では,任意の単語に対するアテンションマップの生成を可能にする,テキスト間拡散モデルのための訓練不要なOpen-Vocabulary Attention Maps (OVAM)を提案する。 さらに,OVAMに基づく軽量な最適化プロセスを提案し,単一のアノテーションでオブジェクトクラスに対する正確な注意マップを生成するトークンを探索する。 既存の安定拡散拡張の中でこれらのトークンを評価する。 合成画像の擬似マスクのmIoUを52.1から86.6に改善し、最適化されたトークンがアーキテクチャ変更や再トレーニングなしに既存の手法の性能を改善するための効率的な方法であることを実証した。

Diffusion models represent a new paradigm in text-to-image generation. Beyond generating high-quality images from text prompts, models such as Stable Diffusion have been successfully extended to the joint generation of semantic segmentation pseudo-masks. However, current extensions primarily rely on extracting attentions linked to prompt words used for image synthesis. This approach limits the generation of segmentation masks derived from word tokens not contained in the text prompt. In this work, we introduce Open-Vocabulary Attention Maps (OVAM)-a training-free method for text-to-image diffusion models that enables the generation of attention maps for any word. In addition, we propose a lightweight optimization process based on OVAM for finding tokens that generate accurate attention maps for an object class with a single annotation. We evaluate these tokens within existing state-of-the-art Stable Diffusion extensions. The best-performing model improves its mIoU from 52.1 to 86.6 for the synthetic images' pseudo-masks, demonstrating that our optimized tokens are an efficient way to improve the performance of existing methods without architectural changes or retraining.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# HySim: 画像塗布におけるパッチマッチングのための効率的なハイブリッド類似度測定

HySim: An Efficient Hybrid Similarity Measure for Patch Matching in Image Inpainting ( http://arxiv.org/abs/2403.14292v1 )

ライセンス: Link先を確認
Saad Noufel, Nadir Maaroufi, Mehdi Najib, Mohamed Bakhouya, (参考訳) 画像領域の不足を埋めるためには、医療画像やリモートセンシングなどの様々な応用において重要な課題である。 データ駆動アプローチのトレンド、イメージインペイントの効率は、しばしば広範なデータ前処理を必要とする。 この意味では、データの可用性と品質に制約のあるアプリケーション、特に画像のインペイント技術を用いた時系列予測に関連するアプリケーションには、モデル駆動アプローチが必要である。 本稿では,パッチベースの手法によるモデル駆動手法の改良を提案する。 我々のアプローチは、チェビチェフとミンコフスキー距離の両強度を組み合わせたハイブリッド類似度(HySim)を導入することで、標準の2乗差分(SSD)類似度尺度から逸脱する。 このハイブリダイゼーションはパッチ選択を強化し、ミスマッチエラーを低減した高品質な塗装結果をもたらす。 実験の結果,拡散法やパッチベースアプローチなどの他のモデル駆動手法に対するアプローチの有効性が実証された。

Inpainting, for filling missing image regions, is a crucial task in various applications, such as medical imaging and remote sensing. Trending data-driven approaches efficiency, for image inpainting, often requires extensive data preprocessing. In this sense, there is still a need for model-driven approaches in case of application constrained with data availability and quality, especially for those related for time series forecasting using image inpainting techniques. This paper proposes an improved modeldriven approach relying on patch-based techniques. Our approach deviates from the standard Sum of Squared Differences (SSD) similarity measure by introducing a Hybrid Similarity (HySim), which combines both strengths of Chebychev and Minkowski distances. This hybridization enhances patch selection, leading to high-quality inpainting results with reduced mismatch errors. Experimental results proved the effectiveness of our approach against other model-driven techniques, such as diffusion or patch-based approaches, showcasing its effectiveness in achieving visually pleasing restorations.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 地球観測用モデル予測における欠測データの影響評価

Impact Assessment of Missing Data in Model Predictions for Earth Observation Applications ( http://arxiv.org/abs/2403.14297v1 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Marcela Charfuelan, Marlon Nuske, Andreas Dengel, (参考訳) 複雑で異質なデータソースを含む地球観測(EO)アプリケーションは、一般的に機械学習モデルによってアプローチされる。 しかし、データソースが永続的に利用可能になるという一般的な仮定がある。 ノイズや雲、衛星ミッションの失敗など、さまざまな状況がEOソースの可用性に影響を与える可能性がある。 本研究では,分類タスクと回帰タスクを含む4つのデータセットを対象としたトレーニングモデルにおいて,時間的および静的なEO源の欠如が与える影響を評価する。 異なるメソッドの予測品質を比較して、欠落したデータに対して自然に堅牢であることを示す。 特にEnsembleの戦略は、予測の堅牢性を最大100%達成している。 我々は、欠落したシナリオは分類タスクよりも回帰がかなり難しいことを証明している。 最後に、光学ビューが個別に欠落している場合、最も重要なビューであることが分かる。

Earth observation (EO) applications involving complex and heterogeneous data sources are commonly approached with machine learning models. However, there is a common assumption that data sources will be persistently available. Different situations could affect the availability of EO sources, like noise, clouds, or satellite mission failures. In this work, we assess the impact of missing temporal and static EO sources in trained models across four datasets with classification and regression tasks. We compare the predictive quality of different methods and find that some are naturally more robust to missing data. The Ensemble strategy, in particular, achieves a prediction robustness up to 100%. We evidence that missing scenarios are significantly more challenging in regression than classification tasks. Finally, we find that the optical view is the most critical view when it is missing individually.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 危険から可能性へ:人間の(そしてAI)バイアスがオンラインフォーラムに与える影響を理解する

From Perils to Possibilities: Understanding how Human (and AI) Biases affect Online Fora ( http://arxiv.org/abs/2403.14298v1 )

ライセンス: Link先を確認
Virginia Morini, Valentina Pansanella, Katherine Abramski, Erica Cau, Andrea Failla, Salvatore Citraro, Giulio Rossetti, (参考訳) ソーシャルメディアプラットフォームは、ユーザーが議論し、コンテンツを共有し、接続を構築するオンラインフォーラムである。 本稿では,3つの重要な視点 – オンライン討論,オンラインサポート,人間とAIのインタラクション – のレンズを通して,ソーシャルメディア分析(複雑なネットワーク分析と自然言語処理によって提供されるツールを用いた分析)の文脈における社会的相互作用,ユーザ生成内容,バイアスのダイナミクスについて検討する。 一方、偏光、誤情報、エコーチャンバーの形成がしばしば増加し、アルゴリズムバイアスとホモフィリーの極端なメカニズムによって引き起こされるオンライン討論の現象を列挙する。 一方,ユーザの自己開示とソーシャルサポート機構を通じて,オンライン支援グループの出現について検討する。 オンライン討論と支援メカニズムは、ソーシャルメディアにおける危険と可能性の両立、分離されたコミュニティの危険と分極化された議論、共感の物語と自己ヘルプグループの可能性を示す。 これは、トレーニングセットに隠された人間のバイアスと、人工知能のアーキテクチャから現れる非人間のバイアスの両方を示すことができる。 学際的アプローチを分析した結果,ソーシャルメディアエコシステムの領域における社会的相互作用,ユーザ生成コンテンツ,バイアスの間の複雑な相互作用の理解を深めることが目的である。

Social media platforms are online fora where users engage in discussions, share content, and build connections. This review explores the dynamics of social interactions, user-generated contents, and biases within the context of social media analysis (analyzing works that use the tools offered by complex network analysis and natural language processing) through the lens of three key points of view: online debates, online support, and human-AI interactions. On the one hand, we delineate the phenomenon of online debates, where polarization, misinformation, and echo chamber formation often proliferate, driven by algorithmic biases and extreme mechanisms of homophily. On the other hand, we explore the emergence of online support groups through users' self-disclosure and social support mechanisms. Online debates and support mechanisms present a duality of both perils and possibilities within social media; perils of segregated communities and polarized debates, and possibilities of empathy narratives and self-help groups. This dichotomy also extends to a third perspective: users' reliance on AI-generated content, such as the ones produced by Large Language Models, which can manifest both human biases hidden in training sets and non-human biases that emerge from their artificial neural architectures. Analyzing interdisciplinary approaches, we aim to deepen the understanding of the complex interplay between social interactions, user-generated content, and biases within the realm of social media ecosystems.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# DexDribbler:動的スーパービジョンによるデクサラスサッカー操作の学習

DexDribbler: Learning Dexterous Soccer Manipulation via Dynamic Supervision ( http://arxiv.org/abs/2403.14300v1 )

ライセンス: Link先を確認
Yutong Hu, Kehan Wen, Fisher Yu, (参考訳) 多様な地形を処理し、知的な行動に類似しているため、足のついたロボットの巧妙な移動ポリシーを学習することは、ますます人気が高まっている。 しかし,移動物体の関節操作やサッカーなどの足の動きは,人間や賢い動物にとって自然なことではあるが,学習コミュニティでは注意をそらしている。 このマルチタスク問題を解決するための重要な課題は、操作対象の状態や目標から移動の目的を推測することである。 物体の状態とロボットの移動との暗黙の関係は、トレーニング経験から直接捉えることは困難である。 本稿では,身体の運動を正確に計算するためのフィードバック制御ブロックの追加を提案し,その出力を動的関節運動監視として用いた。 さらに,改良された球動モデル,拡張文脈支援型推定器,及び包括的球観測装置を応用して,シミュレーションで学習した実世界への移動政策を容易にする。 我々の学習手法は、ポリシーネットワークをより早く収束させるだけでなく、サッカーロボットが鋭い切断や平らな表面の旋回といった高度な操作を行うことを可能にする。 ビデオとコードはhttps://github.com/SysCV/soccer-playerで入手できる。

Learning dexterous locomotion policy for legged robots is becoming increasingly popular due to its ability to handle diverse terrains and resemble intelligent behaviors. However, joint manipulation of moving objects and locomotion with legs, such as playing soccer, receive scant attention in the learning community, although it is natural for humans and smart animals. A key challenge to solve this multitask problem is to infer the objectives of locomotion from the states and targets of the manipulated objects. The implicit relation between the object states and robot locomotion can be hard to capture directly from the training experience. We propose adding a feedback control block to compute the necessary body-level movement accurately and using the outputs as dynamic joint-level locomotion supervision explicitly. We further utilize an improved ball dynamic model, an extended context-aided estimator, and a comprehensive ball observer to facilitate transferring policy learned in simulation to the real world. We observe that our learning scheme can not only make the policy network converge faster but also enable soccer robots to perform sophisticated maneuvers like sharp cuts and turns on flat surfaces, a capability that was lacking in previous methods. Video and code are available at https://github.com/SysCV/soccer-player
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# Spiking Resformer:スパイクニューラルネットワークにおけるブリッジ型ResNetとVision Transformer

SpikingResformer: Bridging ResNet and Vision Transformer in Spiking Neural Networks ( http://arxiv.org/abs/2403.14302v1 )

ライセンス: Link先を確認
Xinyu Shi, Zecheng Hao, Zhaofei Yu, (参考訳) 人工ニューラルネットワーク(ANN)におけるビジョントランスフォーマー(Vision Transformers)の成功により、自己認識機構とトランスフォーマーベースのアーキテクチャをスパイキングニューラルネットワーク(SNN)に組み込むことへの関心が高まっている。 既存の手法ではSNNと互換性のある自己注意機構が提案されているが、適切なスケーリング手法が欠如しており、これらの手法によって提案される全体的なアーキテクチャは、局所的な特徴を効果的に抽出するボトルネックに悩まされている。 これらの課題に対処するため、我々はDual Spike Self-Attention (DSSA) という新しい自己注意機構を合理的なスケーリング手法で提案する。 DSSAに基づいて,ResNetベースのマルチステージアーキテクチャとDSSAを組み合わせた新しいスパイキングビジョントランスフォーマアーキテクチャを提案する。 実験結果から,SpkingResformerは,他のスパイキングビジョントランスよりも少ないパラメータと少ないエネルギー消費で高い精度を達成できることがわかった。 特に、私たちのSpkingResformer-Lは、4つのタイムステップを持つImageNet上で79.40%のトップ-1の精度を実現しています。

The remarkable success of Vision Transformers in Artificial Neural Networks (ANNs) has led to a growing interest in incorporating the self-attention mechanism and transformer-based architecture into Spiking Neural Networks (SNNs). While existing methods propose spiking self-attention mechanisms that are compatible with SNNs, they lack reasonable scaling methods, and the overall architectures proposed by these methods suffer from a bottleneck in effectively extracting local features. To address these challenges, we propose a novel spiking self-attention mechanism named Dual Spike Self-Attention (DSSA) with a reasonable scaling method. Based on DSSA, we propose a novel spiking Vision Transformer architecture called SpikingResformer, which combines the ResNet-based multi-stage architecture with our proposed DSSA to improve both performance and energy efficiency while reducing parameters. Experimental results show that SpikingResformer achieves higher accuracy with fewer parameters and lower energy consumption than other spiking Vision Transformer counterparts. Notably, our SpikingResformer-L achieves 79.40% top-1 accuracy on ImageNet with 4 time-steps, which is the state-of-the-art result in the SNN field.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# ChainLM: Chain-of-Thought Promptingを改善した大規模言語モデル

ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting ( http://arxiv.org/abs/2403.14312v1 )

ライセンス: Link先を確認
Xiaoxue Cheng, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) CoT(Chain-of-Thought)プロンプトは、大規模言語モデル(LLM)の推論能力を高め、複雑な推論タスクを解決するための主要なアプローチとして確立する。 既存のCoT合成アプローチは、通常より単純な推論タスクに焦点を合わせ、結果として低品質で矛盾したCoTプロンプトをもたらす。 この課題に対して、我々はCoTプロンプトの自動生成を目的とした新しいフレームワークであるCoTGeniusを、CoTプロンプトの実証研究として紹介する。 CoTGeniusは、進化の成功判定と正当性検証という2つのフィルタリングメカニズムを複雑化し、多様化し、特定する3つの主要な進化戦略に基づいて開発されている。 さらにCoTGeniusを使用して、広範なCoTデータセットを作成し、その後、このデータセット上でLlama 2-Chat 7Bと13Bモデルを微調整します。 結果のモデルをChainLMと呼びます。 推論ステップにおける累積誤差問題に対処するため,複数の議論者が正しい回答に到達するための各推論ステップについて議論する段階レベルの議論手法を提案する。 大規模な実験により,我々のChainLMモデルは,既存のモデルと比較して複雑な推論問題に対処する能力が向上していることが示されている。 さらに,CoTGenius内のデータカテゴリがモデル性能に与える影響を詳細に分析する。 私たちはデータセットとコードをhttps://github.com/RUCAIBox/ChainLMでリリースします。

Chain-of-Thought (CoT) prompting can enhance the reasoning capabilities of large language models (LLMs), establishing itself as a primary approach to solving complex reasoning tasks. Existing CoT synthesis approaches usually focus on simpler reasoning tasks and thus result in low-quality and inconsistent CoT prompts. In response to this challenge, we present an empirical investigation of CoT prompting and introduce CoTGenius, a novel framework designed for the automatic generation of superior CoT prompts. CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify-alongside two filtering mechanisms: evolutionary success judgement and correctness verification. We further employ CoTGenius to create an extensive CoT dataset, and subsequently fine-tune the Llama 2-Chat 7B and 13B models on this dataset. We call the resulting model ChainLM. To deal with the cumulative error issue in reasoning steps, we propose a step-level debating method, wherein multiple debaters discuss each reasoning step to arrive at the correct answer. Extensive experiments demonstrate that our ChainLM models exhibit enhanced proficiency in addressing a spectrum of complex reasoning problems compared to existing models. In addition, we conduct an in-depth analysis of the impact of data categories within CoTGenius on the model performance. We release our dataset and code at https://github.com/RUCAIBox/ChainLM.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 多視点顔表情認識のためのマルチスケール特徴融合による軽量注意型ディープネットワーク

A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition ( http://arxiv.org/abs/2403.14318v1 )

ライセンス: Link先を確認
Ali Ezati, Mohammadreza Dezyani, Rajib Rana, Roozbeh Rajabi, Ahmad Ayatollahi, (参考訳) 畳み込みニューラルネットワーク(CNN)とその変異は、表情認識(FER)において有効であることが示されている。 しかし、計算の複雑さやマルチビューヘッドを扱う場合、現実のシナリオでは課題に直面している。 これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。 最初の課題として、我々は軽量完全畳み込みネットワーク(FCN)を慎重に設計した。 2つ目の課題は、マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提示することである。 MassAttブロックは、重要な特徴を強調しつつ、無関係な特徴を抑えながら特徴マップを再検討するために、チャンネルと空間の注意マップを同時に生成する。 一方、PWFSブロックは、融合前に意味の薄い特徴を破棄する特徴選択機構を採用している。 このメカニズムは、マルチスケール機能を直接フューズする従来の方法と区別する。 提案手法は,KDEFでは90.77%,FER-2013では70.44%,FERPlusデータセットでは86.96%の精度で,パラメータカウントとロバスト性を比較検討した。 LANMSFFのコードはhttps://github.com/AE-1129/LANMSFFで入手できる。

Convolutional neural networks (CNNs) and their variations have shown effectiveness in facial expression recognition (FER). However, they face challenges when dealing with high computational complexity and multi-view head poses in real-world scenarios. We introduce a lightweight attentional network incorporating multi-scale feature fusion (LANMSFF) to tackle these issues. For the first challenge, we have carefully designed a lightweight fully convolutional network (FCN). We address the second challenge by presenting two novel components, namely mass attention (MassAtt) and point wise feature selection (PWFS) blocks. The MassAtt block simultaneously generates channel and spatial attention maps to recalibrate feature maps by emphasizing important features while suppressing irrelevant ones. On the other hand, the PWFS block employs a feature selection mechanism that discards less meaningful features prior to the fusion process. This mechanism distinguishes it from previous methods that directly fuse multi-scale features. Our proposed approach achieved results comparable to state-of-the-art methods in terms of parameter counts and robustness to pose variation, with accuracy rates of 90.77% on KDEF, 70.44% on FER-2013, and 86.96% on FERPlus datasets. The code for LANMSFF is available at https://github.com/AE-1129/LANMSFF.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# Exosense:安全な外骨格ナビゲーションのための視覚中心のシーン理解システム

Exosense: A Vision-Centric Scene Understanding System For Safe Exoskeleton Navigation ( http://arxiv.org/abs/2403.14320v1 )

ライセンス: Link先を確認
Jianeng Wang, Matias Mattamala, Christina Kassab, Lintong Zhang, Maurice Fallon, (参考訳) 運動障害のある人の日常使用のための外骨格の開発が進められている。 正確で堅牢なシーン理解システムが必要です。 現在の研究では、視界を用いて地形と幾何学的障害物を識別しているが、これらのアプローチは利用者の直接の前方での検知に制約されており、限られた地形(例えば、階段、ランプ、平地など)の分類に制限されている。 本稿では,多彩でグローバルな標高マップを生成できる視覚中心の景観理解システムであるExosenseについて述べる。 視覚的SLAMポーズグラフに関連付けられた弾力性のあるAtlasマッピングフレームワークを備えており、Vision-Language Model (VLM)のオープン語彙の部屋ラベルが埋め込まれている。 デバイスの設計には、外骨格ウォーキングパターンによって引き起こされる課題を軽減するために、広視野(FoV)魚眼マルチカメラシステムが含まれる。 本研究では,典型的な周期歩行の課題に対するシステムの堅牢性と,屋内環境における正確な意味豊かな地図構築能力を示す。 さらに、運動計画の可能性も示しています -- エキソ骨格の安全なナビゲーションに向けての一歩です。

Exoskeletons for daily use by those with mobility impairments are being developed. They will require accurate and robust scene understanding systems. Current research has used vision to identify immediate terrain and geometric obstacles, however these approaches are constrained to detections directly in front of the user and are limited to classifying a finite range of terrain types (e.g., stairs, ramps and level-ground). This paper presents Exosense, a vision-centric scene understanding system which is capable of generating rich, globally-consistent elevation maps, incorporating both semantic and terrain traversability information. It features an elastic Atlas mapping framework associated with a visual SLAM pose graph, embedded with open-vocabulary room labels from a Vision-Language Model (VLM). The device's design includes a wide field-of-view (FoV) fisheye multi-camera system to mitigate the challenges introduced by the exoskeleton walking pattern. We demonstrate the system's robustness to the challenges of typical periodic walking gaits, and its ability to construct accurate semantically-rich maps in indoor settings. Additionally, we showcase its potential for motion planning -- providing a step towards safe navigation for exoskeletons.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# ニューラルネットワークによる生体フォトニック画像データの処理と再構成

Neural Network-Based Processing and Reconstruction of Compromised Biophotonic Image Data ( http://arxiv.org/abs/2403.14324v1 )

ライセンス: Link先を確認
Michael John Fanous, Paloma Casteleiro Costa, Cagatay Isil, Luzhe Huang, Aydogan Ozcan, (参考訳) 深層学習技術とバイオフォトニクス装置の統合により、バイオイメージングの新しい地平が開かれた。 この分野で魅力的なトレンドは、コスト、スピード、フォームファクターの観点からより良いバイオイメージングツールを開発するために、ある測定基準を意図的に妥協することであり、続いて、大量の理想、優れた、または代替的なデータに基づいてトレーニングされたディープラーニングモデルを利用することで、結果として生じる欠陥を補償することである。 この戦略的アプローチは、バイオフォトニクスイメージングの様々な側面を強化する可能性から、人気が高まっている。 この戦略を利用する主な動機の1つは、より高時間分解能や画像の速度の向上を追求することであり、微細な生物学的過程を捉えるのに重要である。 このアプローチはまた、ハードウェア要件や複雑さを単純化し、コストやサイズの観点から高度な画像標準をよりアクセスしやすくする。 本稿では, バイオフォトニクス装置において研究者が故意に障害を負う様々な測定側面について, 点拡散関数, 信号-雑音比, サンプリング密度, 画素分解能などについて詳細に検討する。 これらのメトリクスを意図的に妥協することで、研究者は深層学習ネットワークの応用を通じてそれらを回復するだけでなく、視野、深度、空間帯域幅といった他の重要なパラメータを返却することを目指している。 本稿では,この戦略手法をうまく活用した様々なバイオフォトニクス手法について論じる。 これらの手法は幅広い応用に及び、バイオフォトニクスデータにおける深層学習の汎用性と有効性を示す。 最後に、この急速に進化するコンセプトの今後の可能性について、私たちの視点を提供することによって、読者に、AIを介してハードウェアの妥協と補償のバランスをとる新しい方法を探求する動機を与えたいと思っています。

The integration of deep learning techniques with biophotonic setups has opened new horizons in bioimaging. A compelling trend in this field involves deliberately compromising certain measurement metrics to engineer better bioimaging tools in terms of cost, speed, and form-factor, followed by compensating for the resulting defects through the utilization of deep learning models trained on a large amount of ideal, superior or alternative data. This strategic approach has found increasing popularity due to its potential to enhance various aspects of biophotonic imaging. One of the primary motivations for employing this strategy is the pursuit of higher temporal resolution or increased imaging speed, critical for capturing fine dynamic biological processes. This approach also offers the prospect of simplifying hardware requirements/complexities, thereby making advanced imaging standards more accessible in terms of cost and/or size. This article provides an in-depth review of the diverse measurement aspects that researchers intentionally impair in their biophotonic setups, including the point spread function, signal-to-noise ratio, sampling density, and pixel resolution. By deliberately compromising these metrics, researchers aim to not only recuperate them through the application of deep learning networks, but also bolster in return other crucial parameters, such as the field-of-view, depth-of-field, and space-bandwidth product. Here, we discuss various biophotonic methods that have successfully employed this strategic approach. These techniques span broad applications and showcase the versatility and effectiveness of deep learning in the context of compromised biophotonic data. Finally, by offering our perspectives on the future possibilities of this rapidly evolving concept, we hope to motivate our readers to explore novel ways of balancing hardware compromises with compensation via AI.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 糖尿病患者の介入リスク因子同定における構造学習アルゴリズムの有効性の検討

Investigating the validity of structure learning algorithms in identifying risk factors for intervention in patients with diabetes ( http://arxiv.org/abs/2403.14327v1 )

ライセンス: Link先を確認
Sheresh Zahoor, Anthony C. Constantinou, Tim M Curtis, Mohammed Hasanuzzaman, (参考訳) 糖尿病は広範かつ持続的な健康問題であり、健康、金融医療システム、社会福祉に重大な影響を及ぼす。 本研究は、糖尿病の進行に影響を及ぼす潜在的な危険因子のうち因果経路を識別するために、様々な構造学習アルゴリズムを網羅的に探究する。 この手法は、これらのアルゴリズムを関連する糖尿病データに適用し、続いて出力グラフをCausal Bayesian Networks (CBNs)に変換し、文脈特異的ケーススタディにおける仮説的介入の効果に関する予測分析と不一致の評価を可能にする。 本研究は,アルゴリズム選択が介入効果に与える影響を明らかにする。 多様なアルゴリズムからの洞察を集約するために,多様な構造学習アルゴリズムから派生した糖尿病の独自の因果モデルを得るのに役立つモデル構築手法を用いる。 また、各グラフと平均グラフが、グラフエッジを高信頼度、中味度、低信頼タイプに分類したドメイン専門家が引き起こした構造とどのように比較し、これら3つの信頼レベルに対応する3つの個別グラフとなるかを検討する。 結果として得られた因果モデルとデータはオンラインで利用可能となり、医療従事者による情報的意思決定のための貴重なリソースおよびガイドとして役立ち、関連するリスク要因と仮説的介入の効果の間の相互作用の包括的理解を提供する。 したがって,本研究は糖尿病に関する学術的な議論に貢献するだけでなく,効果的な介入・リスクマネジメント戦略の策定における医療専門家の実践的指導にも貢献する。

Diabetes, a pervasive and enduring health challenge, imposes significant global implications on health, financial healthcare systems, and societal well-being. This study undertakes a comprehensive exploration of various structural learning algorithms to discern causal pathways amongst potential risk factors influencing diabetes progression. The methodology involves the application of these algorithms to relevant diabetes data, followed by the conversion of their output graphs into Causal Bayesian Networks (CBNs), enabling predictive analysis and the evaluation of discrepancies in the effect of hypothetical interventions within our context-specific case study. This study highlights the substantial impact of algorithm selection on intervention outcomes. To consolidate insights from diverse algorithms, we employ a model-averaging technique that helps us obtain a unique causal model for diabetes derived from a varied set of structural learning algorithms. We also investigate how each of those individual graphs, as well as the average graph, compare to the structures elicited by a domain expert who categorised graph edges into high confidence, moderate, and low confidence types, leading into three individual graphs corresponding to the three levels of confidence. The resulting causal model and data are made available online, and serve as a valuable resource and a guide for informed decision-making by healthcare practitioners, offering a comprehensive understanding of the interactions between relevant risk factors and the effect of hypothetical interventions. Therefore, this research not only contributes to the academic discussion on diabetes, but also provides practical guidance for healthcare professionals in developing efficient intervention and risk management strategies.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# ロボットロコモーションのための蒸留強化学習法:グラディエントブースティングマシンとシンボリック回帰

Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression ( http://arxiv.org/abs/2403.14328v1 )

ライセンス: Link先を確認
Fernando Acero, Zhibin Li, (参考訳) 近年の強化学習(RL)の進歩は,ロボットの移動能力において顕著な成果をもたらしている。 しかしながら、ニューラルネットワークベースのRLポリシの複雑さと‘ブラックボックス’の性質は、特に高いレベルの安全性と信頼性を要求するアプリケーションにおいて、その解釈可能性と広く受け入れられることを妨げる。 本稿では, グラディエント・ブースティング・マシン(GBM), 説明可能なブースティング・マシン(EBM), シンボリック・レグレッションを用いて, ニューラルRLポリシーをより解釈可能な形で蒸留する方法を提案する。 一般化された加法モデル、決定木、分析式の本質的解釈可能性を活用することにより、不透明なニューラルネットワークポリシーをより透明な「グラスボックス」モデルに変換する。 我々は、RLを用いてエキスパートニューラルネットワークポリシーを訓練し、その後、それらを蒸留する。 (i)GBM (二)EMM、及び (三)象徴的政策 本研究では, 行動クローンの分散シフト問題に対処するため, 専門家と蒸留業者の行動の時間依存的変化のカリキュラムを用いたデータセット集約(DAgger)アルゴリズムを用いて, フィードバック制御ポリシの効率的な蒸留を可能にすることを提案する。 本研究は, 歩行, 歩行, 歩行, 歩行, 結束, ペーシングなど, 様々なロボットの移動歩行に対するアプローチを評価し, 様々な方法を用いた蒸留政策における共同行動における異なる観察の重要性について検討した。 提案手法を用いて,205時間の模擬経験と,各歩行に対する10分間の模擬相互作用で解釈可能なポリシを蒸留する。

Recent advancements in reinforcement learning (RL) have led to remarkable achievements in robot locomotion capabilities. However, the complexity and ``black-box'' nature of neural network-based RL policies hinder their interpretability and broader acceptance, particularly in applications demanding high levels of safety and reliability. This paper introduces a novel approach to distill neural RL policies into more interpretable forms using Gradient Boosting Machines (GBMs), Explainable Boosting Machines (EBMs) and Symbolic Regression. By leveraging the inherent interpretability of generalized additive models, decision trees, and analytical expressions, we transform opaque neural network policies into more transparent ``glass-box'' models. We train expert neural network policies using RL and subsequently distill them into (i) GBMs, (ii) EBMs, and (iii) symbolic policies. To address the inherent distribution shift challenge of behavioral cloning, we propose to use the Dataset Aggregation (DAgger) algorithm with a curriculum of episode-dependent alternation of actions between expert and distilled policies, to enable efficient distillation of feedback control policies. We evaluate our approach on various robot locomotion gaits -- walking, trotting, bounding, and pacing -- and study the importance of different observations in joint actions for distilled policies using various methods. We train neural expert policies for 205 hours of simulated experience and distill interpretable policies with only 10 minutes of simulated interaction for each gait using the proposed method.
翻訳日:2024-03-22 14:38:14 公開日:2024-03-21
# 光メカニカル液滴を用いた連続加速度センシング

Continuous Acceleration Sensing Using Optomechanical Droplets ( http://arxiv.org/abs/2403.14330v1 )

ライセンス: Link先を確認
Gordon R. M. Robb, Josh G. M. Walker, Gian-Luca Oppo, Thorsten Ackemann, (参考訳) 本稿では,Bose-Einstein Condensateを遠距離共振光ポンプ場に照射し,反射鏡から反射することで,光力学的液滴として知られる安定な局所構造が得られることを示す。 これらの液滴は、光強度分布による液滴の位置の連続的なモニタリングにより、BECの加速度を測定するために使用できることを示す。

We show that a Bose--Einstein Condensate illuminated by a far off-resonant optical pump field and its retroreflection from a feedback mirror can produce stable, localised structures known as optomechanical droplets. We show that these droplets could be used to measure the acceleration of a BEC via continuous monitoring of the position of the droplet via the optical intensity distribution.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# よくクラスタ化されたグラフに対する微分プライベートクラスタリングアルゴリズム

A Differentially Private Clustering Algorithm for Well-Clustered Graphs ( http://arxiv.org/abs/2403.14332v1 )

ライセンス: Link先を確認
Weiqiang He, Hendrik Fichtenberger, Pan Peng, (参考訳) 頂点集合を少数の集合に分割可能なグラフであり,高い内部コンダクタンスと小さな外部コンダクタンスのサブグラフを誘導する。 このようなグラフはスペクトルクラスタリングの理論解析におけるベンチマークとして広く利用されている。 このようなグラフに特化された効率的な($\epsilon$,$\delta$)-DPアルゴリズムを提供する。 グラフが2つのほぼバランスの取れたクラスタで構成されている場合の確率的ブロックモデルの回復のためのDPアルゴリズムを開発したChenらによる最近の研究から着想を得た。 我々のアルゴリズムは、$k$のほぼバランスの取れたクラスタを持つよくクラスタ化されたグラフに対して機能し、誤分類比は、最もよく知られた非プライベートなアルゴリズムの1つとほぼ一致する。 我々は、アルゴリズムの長所を実証するために、既知の真実クラスタを持つデータセットに対して実験的な評価を行う。 また、任意の(純粋な)$\epsilon$-DPアルゴリズムが重大なエラーを引き起こすことも示している。

We study differentially private (DP) algorithms for recovering clusters in well-clustered graphs, which are graphs whose vertex set can be partitioned into a small number of sets, each inducing a subgraph of high inner conductance and small outer conductance. Such graphs have widespread application as a benchmark in the theoretical analysis of spectral clustering. We provide an efficient ($\epsilon$,$\delta$)-DP algorithm tailored specifically for such graphs. Our algorithm draws inspiration from the recent work of Chen et al., who developed DP algorithms for recovery of stochastic block models in cases where the graph comprises exactly two nearly-balanced clusters. Our algorithm works for well-clustered graphs with $k$ nearly-balanced clusters, and the misclassification ratio almost matches the one of the best-known non-private algorithms. We conduct experimental evaluations on datasets with known ground truth clusters to substantiate the prowess of our algorithm. We also show that any (pure) $\epsilon$-DP algorithm would result in substantial error.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# CFPL-FAS: 一般化可能な顔アンチスプーフィングのためのクラスフリープロンプト学習

CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing ( http://arxiv.org/abs/2403.14333v1 )

ライセンス: Link先を確認
Ajian Liu, Shuai Xue, Jianwen Gan, Jun Wan, Yanyan Liang, Jiankang Deng, Sergio Escalera, Zhen Lei, (参考訳) ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。 既存の手法は、ドメイン不変な特徴空間を整列するためにドメインラベルに依存するか、サンプル全体から切り離された一般化可能な特徴を持つかのいずれかであり、必然的に意味的特徴構造の歪みを招き、限られた一般化を達成する。 本研究では,CLIPのような大規模VLMを活用し,テキスト機能を利用して分類器の重みを動的に調整し,一般化可能な視覚的特徴を探索する。 具体的には、コンテンツQ-Former(CQF)とStyle Q-Former(SQF)という2つの軽量トランスフォーマーを利用して、学習可能なクエリベクトルのセットを用いて、コンテンツとスタイルの特徴に規定された異なるセマンティックプロンプトを学習するDG FASのためのCFPL(Class Free Prompt Learning)パラダイムを提案する。 そこで,1) プロンプトテキストマッチング(PTM) の監督を導入し,CQF がコンテンツ記述の最も有益な視覚表現を確実に学習できるようにする。 2) DSP(Diversified Style Prompt)技術は,インスタンス固有のスタイル間で特徴統計を混合することにより,スタイルプロンプトの学習を多様化するために提案される。 最後に、学習したテキスト機能は、設計したPrompt Modulation (PM)を通して、視覚的特徴を一般化に変調する。 大規模な実験により、CFPLは複数のクロスドメインデータセット上で最先端の手法より優れていることが示されている。

Domain generalization (DG) based Face Anti-Spoofing (FAS) aims to improve the model's performance on unseen domains. Existing methods either rely on domain labels to align domain-invariant feature spaces, or disentangle generalizable features from the whole sample, which inevitably lead to the distortion of semantic feature structures and achieve limited generalization. In this work, we make use of large-scale VLMs like CLIP and leverage the textual feature to dynamically adjust the classifier's weights for exploring generalizable visual features. Specifically, we propose a novel Class Free Prompt Learning (CFPL) paradigm for DG FAS, which utilizes two lightweight transformers, namely Content Q-Former (CQF) and Style Q-Former (SQF), to learn the different semantic prompts conditioned on content and style features by using a set of learnable query vectors, respectively. Thus, the generalizable prompt can be learned by two improvements: (1) A Prompt-Text Matched (PTM) supervision is introduced to ensure CQF learns visual representation that is most informative of the content description. (2) A Diversified Style Prompt (DSP) technology is proposed to diversify the learning of style prompts by mixing feature statistics between instance-specific styles. Finally, the learned text features modulate visual features to generalization through the designed Prompt Modulation (PM). Extensive experiments show that the CFPL is effective and outperforms the state-of-the-art methods on several cross-domain datasets.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# FFTに基づく重破壊画像のロバスト認識のための統計量の選択と最適化

FFT-based Selection and Optimization of Statistics for Robust Recognition of Severely Corrupted Images ( http://arxiv.org/abs/2403.14335v1 )

ライセンス: Link先を確認
Elena Camuffo, Umberto Michieli, Jijoong Moon, Daehyun Kim, Mete Ozay, (参考訳) 腐敗した画像のモデルロバスト性を改善することは、ロボットエージェントのようなスマートデバイス上でロバストなビジョンシステムを実現する上で重要な課題である。 特に、ロバストなテスト時間パフォーマンスは、ほとんどのアプリケーションにとって必須です。 本稿では, 分類モデルのロバスト性向上のための新しい手法を提案する。 提案手法は,入力画像の劣化型を検出するために高周波特徴を用いて,層単位での特徴正規化統計を抽出する。 FROSTは、異なるモデルやデータセットに対する最先端の結果を提供し、ImageNet-Cの競合製品よりも37.1%向上し、深刻な汚職に対する40.9%のベースラインを改善している。

Improving model robustness in case of corrupted images is among the key challenges to enable robust vision systems on smart devices, such as robotic agents. Particularly, robust test-time performance is imperative for most of the applications. This paper presents a novel approach to improve robustness of any classification model, especially on severely corrupted images. Our method (FROST) employs high-frequency features to detect input image corruption type, and select layer-wise feature normalization statistics. FROST provides the state-of-the-art results for different models and datasets, outperforming competitors on ImageNet-C by up to 37.1% relative gain, improving baseline of 40.9% mCE on severe corruptions.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 大規模原子干渉計のための最適フロケット工学

Optimal Floquet Engineering for Large Scale Atom Interferometers ( http://arxiv.org/abs/2403.14337v1 )

ライセンス: Link先を確認
T. Rodzinka, E. Dionis, L. Calmels, S. Beldjoudi, A. Béguin, D. Guéry-Odelin, B. Allard, D. Sugny, A. Gauguet, (参考訳) 低温原子との原子コヒーレンスを効果的に制御することで、原子干渉計は量子センサーや精密測定に欠かせないツールとなった。 これらの干渉計の性能は、大きなウェーブパケット分離の動作と密接に関連している。 本稿では、加速光学格子における量子状態のストロボスコピック安定化に基づく原子ビームスプリッターの新しいアプローチを提案する。 対応するFloquet状態は、最適制御プロトコルによって生成される。 このようにして、前例のない大型運動量移動(LMT)干渉計を実証し、2本の腕の間に600光子リコイル(600ドル)の運動量分離を行った。 各LMTビームスプリッタは驚くほど短い時間(2ms)で実現され、波状パケットの初期速度分散と格子深さ変動に対して非常に堅牢である。 我々の研究は、Floquetエンジニアリングが量子物理学の新しいフロンティアを大規模に探求するための有望なツールであり、量子センシングと基礎物理学のテストに応用していることを示している。

The effective control of atomic coherence with cold atoms has made atom interferometry an essential tool for quantum sensors and precision measurements. The performance of these interferometers is closely related to the operation of large wave packet separations. We present here a novel approach for atomic beam splitters based on the stroboscopic stabilization of quantum states in an accelerated optical lattice. The corresponding Floquet state is generated by optimal control protocols. In this way, we demonstrate an unprecedented Large Momentum Transfer (LMT) interferometer, with a momentum separation of 600 photon recoils ($600\hbar k$) between its two arms. Each LMT beam splitter is realized in a remarkably short time (2 ms) and is highly robust against the initial velocity dispersion of the wave packet and lattice depth fluctuations. Our study shows that Floquet engineering is a promising tool for exploring new frontiers in quantum physics at large scales, with applications in quantum sensing and testing fundamental physics.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 量子情報デカップリングのための最適2次レート

Optimal Second-Order Rates for Quantum Information Decoupling ( http://arxiv.org/abs/2403.14338v1 )

ライセンス: Link先を確認
Yu-Chen Shen, Li Gao, Hao-Chung Cheng, (参考訳) 本稿では,Alice氏がローカル操作によって環境から切り離し,システムの一部を破棄することを目的とした,標準的な量子情報デカップリングについて考察する。 1-\varepsilon)$-hypothesis-testing entropyという条件で,残余系の最大次元に対して,トレース距離を誤差基準とする$\varepsilon$-decouplingを実現する。 基礎となる系が独立で同一に準備されている場合、この結果は一致した2次速度と一致した適度な偏差率に繋がる。 応用として, エンタングルメント蒸留プロトコルに束縛された達成可能性を見出した。Alice と Bob は, 局所的な操作と一方的な古典的通信のみを用いて, 最大エンタングルド状態に量子状態を変換することが目的である。

In this paper, we consider the standard quantum information decoupling, in which Alice aims to decouple her system from the environment by local operations and discarding some of her systems. To achieve an $\varepsilon$-decoupling with trace distance as the error criterion, we establish a near-optimal one-shot characterization for the largest dimension of the remainder system in terms of the conditional $(1-\varepsilon)$-hypothesis-testing entropy. When the underlying system is independent and identically prepared, our result leads to the matched second-order rate as well as the matched moderate deviation rate. As an application, we find an achievability bound in entanglement distillation protocol, where the objective is for Alice and Bob to transform their quantum state to maximally entangled state with largest possible dimension using only local operations and one-way classical communications.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# $\nabla τ$: Gradient-based and Task-Agnostic Machine Unlearning

$\nabla τ$: Gradient-based and Task-Agnostic machine Unlearning ( http://arxiv.org/abs/2403.14339v1 )

ライセンス: Link先を確認
Daniel Trippa, Cesare Campagnano, Maria Sofia Bucarelli, Gabriele Tolomei, Fabrizio Silvestri, (参考訳) モデルのトレーニングで使用されるデータ例の影響を選択的に排除する機械学習は,実践者が最近のデータ保護規則に従う手段として注目されている。 しかし、既存のアンラーニング手法は、しばしば多数のハイパーパラメータと関連付けられ、比較的小さなデータ部分のみを忘れることの制限など、非常に高いコストを含む重大な欠点に直面している。 これにより、スクラッチからモデルを再トレーニングすることが、より迅速で効果的なソリューションになることが多い。 本研究では,学習データのサブセットの影響を効率的に除去する最適化フレームワークである,Gradient-basedおよびTask-Agnostic Machine Unlearning(\nabla \tau$)を紹介する。 残りのデータに対して標準勾配勾配を用いて、忘れるべきデータに適応勾配を付与する。 $\nabla \tau$は、既存のアプローチよりも多くのメリットを提供する。 トレーニングデータセットの大部分(最大30%)の未学習を可能にする。 多様な未学習タスク(サブセットの忘れやクラス削除など)をサポートし、異なるドメイン(イメージ、テキストなど)で適用することができる。 重要なのは、$\nabla \tau$はハイパーパラメータ調整を必要としないことだ。 我々は、確立されたメンバーシップ推論攻撃指標を用いてフレームワークの有効性を評価し、元のモデルの精度を損なうことなく、最先端の手法と比較して最大10%の性能向上を示す。

Machine Unlearning, the process of selectively eliminating the influence of certain data examples used during a model's training, has gained significant attention as a means for practitioners to comply with recent data protection regulations. However, existing unlearning methods face critical drawbacks, including their prohibitively high cost, often associated with a large number of hyperparameters, and the limitation of forgetting only relatively small data portions. This often makes retraining the model from scratch a quicker and more effective solution. In this study, we introduce Gradient-based and Task-Agnostic machine Unlearning ($\nabla \tau$), an optimization framework designed to remove the influence of a subset of training data efficiently. It applies adaptive gradient ascent to the data to be forgotten while using standard gradient descent for the remaining data. $\nabla \tau$ offers multiple benefits over existing approaches. It enables the unlearning of large sections of the training dataset (up to 30%). It is versatile, supporting various unlearning tasks (such as subset forgetting or class removal) and applicable across different domains (images, text, etc.). Importantly, $\nabla \tau$ requires no hyperparameter adjustments, making it a more appealing option than retraining the model from scratch. We evaluate our framework's effectiveness using a set of well-established Membership Inference Attack metrics, demonstrating up to 10% enhancements in performance compared to state-of-the-art methods without compromising the original model's accuracy.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 生成的アプローチによるグラフ表現学習におけるタスク統合の探索

Exploring Task Unification in Graph Representation Learning via Generative Approach ( http://arxiv.org/abs/2403.14340v1 )

ライセンス: Link先を確認
Yulan Hu, Sheng Ouyang, Zhirui Yang, Ge Chen, Junchen Wan, Xiao Wang, Yong Liu, (参考訳) グラフは現実世界のシナリオにおいてユビキタスであり、ノードレベル、エッジレベル、グラフレベルのタスクから移行学習まで、さまざまなタスクを含んでいる。 しかし、グラフデータの種類ごとに特定のタスクを設計するのは、しばしばコストがかかり、一般化性に欠ける。 プレトレーニング+ファインチューニング(Pre-training + Fine-tuning)"や"プレトレーニング+プロンプト(Pre-training + Prompt)"パラダイムの下での最近の取り組みは、複数のグラフタスクをまたいで一般化可能な統一フレームワークを設計することを目的としている。 これらのうち、生成自己教師付きモデルであるグラフオートエンコーダ(GAE)は、様々なグラフタスクに効果的に対処する可能性を実証している。 それにもかかわらず、これらの手法は通常多段階の訓練を施し、適応的な設計を必要とする。一方、多様なグラフタスクにシームレスに適用することは困難であり、他方、異なるステージ間のタスク目的の相違による負の影響を見落としている。 これらの課題に対処するために, GA^2E を提案する。 具体的には、GA^2Eはサブグラフをメタ構造として用いることを提案し、これは全てのグラフタスク(ノードレベル、エッジレベル、グラフレベルからトランスファーラーニングまで)と全てのステージ(トレーニングと推論の両方)で一貫している。 さらに GA^2E は \textbf{"Generate then Discriminate" のやり方で動作する。 マスク付きGAEを利用して入力サブグラフを再構築すると同時に、再構成されたグラフを入力サブグラフに類似させるジェネレータとして扱う。 さらに、GA^2Eは、再構成された(生成された)サブグラフと入力されたサブグラフとの信頼度を識別する補助判別器を導入し、敵対的な学習機構を通じてグラフ表現の堅牢性を確保する。 GA^2Eの能力は、4種類のグラフタスクにまたがる21のデータセットの広範な実験により検証する。

Graphs are ubiquitous in real-world scenarios and encompass a diverse range of tasks, from node-, edge-, and graph-level tasks to transfer learning. However, designing specific tasks for each type of graph data is often costly and lacks generalizability. Recent endeavors under the "Pre-training + Fine-tuning" or "Pre-training + Prompt" paradigms aim to design a unified framework capable of generalizing across multiple graph tasks. Among these, graph autoencoders (GAEs), generative self-supervised models, have demonstrated their potential in effectively addressing various graph tasks. Nevertheless, these methods typically employ multi-stage training and require adaptive designs, which on one hand make it difficult to be seamlessly applied to diverse graph tasks and on the other hand overlook the negative impact caused by discrepancies in task objectives between the different stages. To address these challenges, we propose GA^2E, a unified adversarially masked autoencoder capable of addressing the above challenges seamlessly. Specifically, GA^2E proposes to use the subgraph as the meta-structure, which remains consistent across all graph tasks (ranging from node-, edge-, and graph-level to transfer learning) and all stages (both during training and inference). Further, GA^2E operates in a \textbf{"Generate then Discriminate"} manner. It leverages the masked GAE to reconstruct the input subgraph whilst treating it as a generator to compel the reconstructed graphs resemble the input subgraph. Furthermore, GA^2E introduces an auxiliary discriminator to discern the authenticity between the reconstructed (generated) subgraph and the input subgraph, thus ensuring the robustness of the graph representation through adversarial training mechanisms. We validate GA^2E's capabilities through extensive experiments on 21 datasets across four types of graph tasks.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 表面的類似性を超えて:金融ナラティブにおける部分意味的変化を検出する

Beyond Surface Similarity: Detecting Subtle Semantic Shifts in Financial Narratives ( http://arxiv.org/abs/2403.14341v1 )

ライセンス: Link先を確認
Jiaxin Liu, Yi Yang, Kar Yan Tam, (参考訳) 本稿では,金融分野固有のNLPタスクであるFinancial-STSタスクを紹介する。 これらの物語は、同じ会社の財務状況から生まれたものであるが、年次比較など、異なる期間に対応している。 これら2つの物語の微妙な意味的な違いを測ることで、市場の利害関係者は、会社の財務状況や運用状況の変化を経時的に測定することができる。 既存の事前学習された埋め込みモデルとLLM埋め込みは、これらの微妙な財務的な物語の変化を識別するのに不足していることがわかった。 このギャップに対処するために,金融STS タスク用に設計された LLM 拡張パイプラインを提案する。 提案手法は,従来のSTSタスクやジェネリックLSMの埋め込みにおいて,既存の手法よりも優れていることを示す。

In this paper, we introduce the Financial-STS task, a financial domain-specific NLP task designed to measure the nuanced semantic similarity between pairs of financial narratives. These narratives originate from the financial statements of the same company but correspond to different periods, such as year-over-year comparisons. Measuring the subtle semantic differences between these paired narratives enables market stakeholders to gauge changes over time in the company's financial and operational situations, which is critical for financial decision-making. We find that existing pretrained embedding models and LLM embeddings fall short in discerning these subtle financial narrative shifts. To address this gap, we propose an LLM-augmented pipeline specifically designed for the Financial-STS task. Evaluation on a human-annotated dataset demonstrates that our proposed method outperforms existing methods trained on classic STS tasks and generic LLM embeddings.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# HyperLedger Fabricにおけるクライアントフェールネス評価のためのAdversary-Augmented Simulation

Adversary-Augmented Simulation to evaluate client-fairness on HyperLedger Fabric ( http://arxiv.org/abs/2403.14342v1 )

ライセンス: Link先を確認
Erwan Mahe, Rouwaida Abdallah, Sara Tucci-Piergiovanni, Pierre-Yves Piriou, (参考訳) 本稿では,ブロックチェーン技術のセキュリティ評価を目的とした,分散システムに特化して設計された,新たな敵モデルを提案する。 敵の仮定と能力に関する文献に基づいて、敵の行動の使用を分類し束縛するための失敗と通信モデルという古典的な概念を含む。 我々は、これらのアクションが分散プロトコルの特性に与える影響に焦点をあてる。 我々の研究の重要な取り組みは、このモデルをMulti-Agent eXperimenter (MAX)フレームワークに統合することである。 この統合により、ブロックチェーンシステムに対する敵攻撃の現実的なシミュレーションが可能になる。 特に,HyperLedger Fabricのクライアントフェールネスに違反する攻撃をシミュレーションした。

This paper presents a novel adversary model specifically tailored to distributed systems, with the aim to asses the security of blockchain technologies. Building upon literature on adversarial assumptions and capabilities, we include classical notions of failure and communication models to classify and bind the use of adversarial actions. We focus on the effect of these actions on properties of distributed protocols. A significant effort of our research is the integration of this model into the Multi-Agent eXperimenter (MAX) framework. This integration enables realistic simulations of adversarial attacks on blockchain systems. In particular, we have simulated attacks violating a form of client-fairness on HyperLedger Fabric.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 情報融合の効率化に向けて:全スライド画像のための同心二元融合注意に基づく複数インスタンス学習

Towards Efficient Information Fusion: Concentric Dual Fusion Attention Based Multiple Instance Learning for Whole Slide Images ( http://arxiv.org/abs/2403.14346v1 )

ライセンス: Link先を確認
Yujian Liu, Ruoxuan Wu, Xinjie Shen, Zihuang Lu, Lingyu Liang, Haiyu Zhou, Shipu Xu, Shaoai Cai, Shidang Xu, (参考訳) デジタル病理学の分野では、多項目学習(multi-mag MIL)は、WSI(Whole Slide Images)の階層構造を利用して情報損失と冗長なデータを削減するのに有効であることが証明されている。 しかし、現在の手法は、事前訓練されたモデルと医療画像の間の領域ギャップを埋めるには不十分であり、しばしば異なる倍率の空間的関係を考慮できない。 これらの課題に対処するため,同心性パッチを用いたポイント・ツー・エリア機能・カラム・アテンションとポイント・ツー・ポイント・トゥ・ポイント・コンセント・アテンション・アテンションを組み合わせたCDFA-MIL(Concentric Dual Fusion Attention-MIL)フレームワークを導入する。 本手法は, 相関情報を効果的に融合し, 特徴表現の強化, WSI 分析のための相関ガイダンスの強化を目的としている。 CDFA-MILは、より優れたWSI認識につながる堅牢な融合戦略を提供することによって、自分自身を区別する。 そのアプリケーションは例外的な性能を示しており、既存のMILメソッドの精度をはるかに上回り、Camelyon16やTGA-NSCLCのような著名なデータセットでF1スコアを獲得した。 具体的には、CDFA-MILの平均精度とF1スコアはそれぞれ93.7\%と94.1\%であり、従来のMILアプローチよりも顕著な進歩を示している。

In the realm of digital pathology, multi-magnification Multiple Instance Learning (multi-mag MIL) has proven effective in leveraging the hierarchical structure of Whole Slide Images (WSIs) to reduce information loss and redundant data. However, current methods fall short in bridging the domain gap between pretrained models and medical imaging, and often fail to account for spatial relationships across different magnifications. Addressing these challenges, we introduce the Concentric Dual Fusion Attention-MIL (CDFA-MIL) framework,which innovatively combines point-to-area feature-colum attention and point-to-point concentric-row attention using concentric patch. This approach is designed to effectively fuse correlated information, enhancing feature representation and providing stronger correlation guidance for WSI analysis. CDFA-MIL distinguishes itself by offering a robust fusion strategy that leads to superior WSI recognition. Its application has demonstrated exceptional performance, significantly surpassing existing MIL methods in accuracy and F1 scores on prominent datasets like Camelyon16 and TCGA-NSCLC. Specifically, CDFA-MIL achieved an average accuracy and F1-score of 93.7\% and 94.1\% respectively on these datasets, marking a notable advancement over traditional MIL approaches.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# 概念ボトルネックモデルにおける信頼性の概念について

On the Concept Trustworthiness in Concept Bottleneck Models ( http://arxiv.org/abs/2403.14349v1 )

ライセンス: Link先を確認
Qihan Huang, Jie Song, Jingwen Hu, Haofei Zhang, Yong Wang, Mingli Song, (参考訳) CBM(Concept Bottleneck Models)は、推論過程をインプット・トゥ・コンセプトマッピングとコンセプト・トゥ・ラベルの予測に分解し、解釈可能な概念ボトルネックによって達成された顕著な解釈可能性により、大きな注目を集めている。 しかし、概念とラベル間の予測の透明性にもかかわらず、入力から中間概念へのマッピングはブラックボックスのままであり、学習された概念の信頼性に関する懸念を引き起こす(すなわち、これらの概念は刺激的な手がかりに基づいて予測される)。 概念の不信の問題はCBMの解釈可能性を大幅に損なうため、さらなる進歩を妨げることになる。 そこで本研究では,CBMにおける概念の信頼性を評価するためのベンチマークを構築した。 概念が関連する領域から導出されているかどうかを評価するために、概念信頼性スコアと呼ばれる先駆的な指標が提案されている。 さらに、拡張されたCBMを導入し、特徴マップの異なる部分から概念予測を具体的に作成できるようにし、それらの領域の探索を容易にする。 さらに, クロスレイヤアライメント (CLA) モジュール, クロスイメージアライメント (CIA) モジュール, 予測アライメント (PA) モジュールの3つのモジュールを導入し, より精巧なCBMにおける概念の信頼性を高める。 10のアーキテクチャにまたがる5つのデータセットの実験では、トレーニング中にローカライゼーションアノテーションを使わずに、我々のモデルは、最先端技術に優れた精度を達成しつつ、大きなマージンで概念の信頼性を向上することを示した。 私たちのコードはhttps://github.com/hqhQAQ/ProtoCBMで利用可能です。

Concept Bottleneck Models (CBMs), which break down the reasoning process into the input-to-concept mapping and the concept-to-label prediction, have garnered significant attention due to their remarkable interpretability achieved by the interpretable concept bottleneck. However, despite the transparency of the concept-to-label prediction, the mapping from the input to the intermediate concept remains a black box, giving rise to concerns about the trustworthiness of the learned concepts (i.e., these concepts may be predicted based on spurious cues). The issue of concept untrustworthiness greatly hampers the interpretability of CBMs, thereby hindering their further advancement. To conduct a comprehensive analysis on this issue, in this study we establish a benchmark to assess the trustworthiness of concepts in CBMs. A pioneering metric, referred to as concept trustworthiness score, is proposed to gauge whether the concepts are derived from relevant regions. Additionally, an enhanced CBM is introduced, enabling concept predictions to be made specifically from distinct parts of the feature map, thereby facilitating the exploration of their related regions. Besides, we introduce three modules, namely the cross-layer alignment (CLA) module, the cross-image alignment (CIA) module, and the prediction alignment (PA) module, to further enhance the concept trustworthiness within the elaborated CBM. The experiments on five datasets across ten architectures demonstrate that without using any concept localization annotations during training, our model improves the concept trustworthiness by a large margin, meanwhile achieving superior accuracy to the state-of-the-arts. Our code is available at https://github.com/hqhQAQ/ProtoCBM.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# アクティブラーニングによるアノテーション効率の良いポリープセグメンテーション

Annotation-Efficient Polyp Segmentation via Active Learning ( http://arxiv.org/abs/2403.14350v1 )

ライセンス: Link先を確認
Duojun Huang, Xinyu Xiong, De-Jun Fan, Feng Gao, Xiao-Jian Wu, Guanbin Li, (参考訳) 深層学習に基づく技術は、十分なピクセルワイドラベル付きデータを提供する際に、ポリプセグメンテーションタスクに有効であることが証明されている。 しかし、手動アノテーションの高コストは、モデル一般化のボトルネックを生み出している。 アノテーションのコストを最小限に抑えるため,アノテーション効率の良いポリプセグメンテーションのための深層能動的学習フレームワークを提案する。 実際に,ポリプの予測マップと背景領域の類似性を調べることで,各試料の不確実性を測定する。 セグメンテーションモデルは、前景と背景領域の区別できない特徴を持つサンプルにおいて弱い傾向にあるため、不確実性サンプリングは、アンダーラーニングデータの適合を促進する。 さらに、クラスタリング画像レベルの特徴は不確実性によって重み付けされ、不確実性と代表性の両方があるサンプルを識別する。 能動選択戦略の選択性を高めるために,新しい教師なし特徴不一致学習機構を提案する。 選択戦略と特徴最適化は、限られたアノテーション予算で最適なパフォーマンスを達成するために、タンデムで作業する。 大規模な実験結果から,提案手法は,公開データセットと大規模社内データセットの双方において,競合相手と比較して最先端性能を達成できた。

Deep learning-based techniques have proven effective in polyp segmentation tasks when provided with sufficient pixel-wise labeled data. However, the high cost of manual annotation has created a bottleneck for model generalization. To minimize annotation costs, we propose a deep active learning framework for annotation-efficient polyp segmentation. In practice, we measure the uncertainty of each sample by examining the similarity between features masked by the prediction map of the polyp and the background area. Since the segmentation model tends to perform weak in samples with indistinguishable features of foreground and background areas, uncertainty sampling facilitates the fitting of under-learning data. Furthermore, clustering image-level features weighted by uncertainty identify samples that are both uncertain and representative. To enhance the selectivity of the active selection strategy, we propose a novel unsupervised feature discrepancy learning mechanism. The selection strategy and feature optimization work in tandem to achieve optimal performance with a limited annotation budget. Extensive experimental results have demonstrated that our proposed method achieved state-of-the-art performance compared to other competitors on both a public dataset and a large-scale in-house dataset.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# DaCapo: ビデオ分析のための自律システムにおける継続的学習の高速化

DaCapo: Accelerating Continuous Learning in Autonomous Systems for Video Analytics ( http://arxiv.org/abs/2403.14353v1 )

ライセンス: Link先を確認
Yoonsung Kim, Changhun Oh, Jinwoo Hwang, Wonung Kim, Seongryong Oh, Yubin Lee, Hardik Sharma, Amir Yazdanbakhsh, Jongse Park, (参考訳) ディープニューラルネットワーク(DNN)ビデオ分析は、自動運転車、無人航空機(UAV)、セキュリティロボットなどの自律システムにとって不可欠である。 しかし、実際のデプロイメントは、計算リソースの制限とバッテリ電力のために困難に直面している。 これらの課題に取り組むために、継続的学習は、デプロイメント(推論)における軽量な"学生"モデルを利用し、サンプルデータ(ラベル付け)のラベル付けにより大きな"教師"モデルを活用し、変化するシナリオ(トレーニング)に適応するために、学生モデルを継続的に再トレーニングする。 本稿では,1)推論とラベリングの計算ニーズを見越しながら,リトレーニングのための計算に重点を置くこと,(2)バッテリー駆動の自律システムには適さないパワーハングリーGPUに依存すること,(3)マルチテナントシナリオを想定したリモート集中型サーバ上に置かれること,そして,プライバシー,ネットワーク可用性,レイテンシに関する懸念から,自律システムには適さないこと,といった,最先端の継続的学習システムの限界を強調した。 本研究では,自律型システムによる推論,ラベル付け,トレーニングの同時実行を実現するためのハードウェアアルゴリズムであるDaCapoを提案する。 DaCapoは,(1)サブアクセラレータ上のカーネルをそれぞれの精度で並列実行可能な空間分割可能かつ高精度な加速器と,(2)資源・正確性トレードオフ空間を戦略的にナビゲートし,資源割り当ての最適決定を容易にする時空間資源割り当てアルゴリズムを備える。 評価の結果,DaCapoは最先端のGPUベースの継続的学習システムであるEkyaとEOMUよりも6.5%,5.5%高い精度を実現し,消費電力は254倍減少した。

Deep neural network (DNN) video analytics is crucial for autonomous systems such as self-driving vehicles, unmanned aerial vehicles (UAVs), and security robots. However, real-world deployment faces challenges due to their limited computational resources and battery power. To tackle these challenges, continuous learning exploits a lightweight "student" model at deployment (inference), leverages a larger "teacher" model for labeling sampled data (labeling), and continuously retrains the student model to adapt to changing scenarios (retraining). This paper highlights the limitations in state-of-the-art continuous learning systems: (1) they focus on computations for retraining, while overlooking the compute needs for inference and labeling, (2) they rely on power-hungry GPUs, unsuitable for battery-operated autonomous systems, and (3) they are located on a remote centralized server, intended for multi-tenant scenarios, again unsuitable for autonomous systems due to privacy, network availability, and latency concerns. We propose a hardware-algorithm co-designed solution for continuous learning, DaCapo, that enables autonomous systems to perform concurrent executions of inference, labeling, and training in a performant and energy-efficient manner. DaCapo comprises (1) a spatially-partitionable and precision-flexible accelerator enabling parallel execution of kernels on sub-accelerators at their respective precisions, and (2) a spatiotemporal resource allocation algorithm that strategically navigates the resource-accuracy tradeoff space, facilitating optimal decisions for resource allocation to achieve maximal accuracy. Our evaluation shows that DaCapo achieves 6.5% and 5.5% higher accuracy than a state-of-the-art GPU-based continuous learning systems, Ekya and EOMU, respectively, while consuming 254x less power.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# LDTR:アンカーチェーン表現を用いた変圧器を用いたレーン検出

LDTR: Transformer-based Lane Detection with Anchor-chain Representation ( http://arxiv.org/abs/2403.14354v1 )

ライセンス: Link先を確認
Zhongyu Yang, Chen Shen, Wei Shao, Tengfei Xing, Runbo Hu, Pengfei Xu, Hua Chai, Ruini Xue, (参考訳) 近年の車線検出手法の進歩にもかかわらず、照明条件や閉塞などの要因により、車線の限定的あるいは非視覚的サイクルを伴うシナリオは、自動走行において困難なままである。 さらに、現在のレーン表現は複雑な後処理を必要とし、特定のインスタンスと競合する。 これらの問題に対処するためのトランスモデルであるLDTRを提案する。 レーンは、新しいアンカーチェーンでモデル化されており、車線全体を最初から含むことで、LDTRが本質的に特別な車線を扱えるようにしている。 レーンインスタンスの知覚を高めるため、LDTRは新しい多参照変形型アテンションモジュールを導入し、オブジェクトの周囲のアテンションを分散させる。 さらに、LDTRは収束効率を向上させるために2行のIoUアルゴリズムを導入し、トレーニング中にモデル表現能力を高めるためにガウス熱マップ補助枝を使用している。 車線検出モデルを評価するために,Frechet距離,パラメータ化F1スコア,および追加の合成指標に依存する。 実験により、LDTRはよく知られたデータセット上で最先端の性能を達成することが示された。

Despite recent advances in lane detection methods, scenarios with limited- or no-visual-clue of lanes due to factors such as lighting conditions and occlusion remain challenging and crucial for automated driving. Moreover, current lane representations require complex post-processing and struggle with specific instances. Inspired by the DETR architecture, we propose LDTR, a transformer-based model to address these issues. Lanes are modeled with a novel anchor-chain, regarding a lane as a whole from the beginning, which enables LDTR to handle special lanes inherently. To enhance lane instance perception, LDTR incorporates a novel multi-referenced deformable attention module to distribute attention around the object. Additionally, LDTR incorporates two line IoU algorithms to improve convergence efficiency and employs a Gaussian heatmap auxiliary branch to enhance model representation capability during training. To evaluate lane detection models, we rely on Frechet distance, parameterized F1-score, and additional synthetic metrics. Experimental results demonstrate that LDTR achieves state-of-the-art performance on well-known datasets.
翻訳日:2024-03-22 14:28:30 公開日:2024-03-21
# DomainLab: ディープラーニングにおけるドメインの一般化のためのモジュール型Pythonパッケージ

DomainLab: A modular Python package for domain generalization in deep learning ( http://arxiv.org/abs/2403.14356v1 )

ライセンス: Link先を確認
Xudong Sun, Carla Feistner, Alexej Gossmann, George Schwarz, Rao Muhammad Umer, Lisa Beer, Patrick Rockenschaub, Rahul Babu Shrestha, Armin Gruber, Nutan Chen, Sayedali Shetab Boushehri, Florian Buettner, Carsten Marr, (参考訳) 目に見えない領域における分布シフトに起因する低次一般化性能は、ディープニューラルネットワークの信頼性の高い展開を妨げることが多い。 多くの領域一般化技術は、訓練中にドメイン不変正則化損失項を追加することでこの問題に対処する。 しかし、様々な方法の利点を再現性に最小限の労力で組み合わせることのできるモジュラーソフトウェアの欠如がある。 DomainLabは、ユーザが指定したニューラルネットワークを、構成可能な正規化損失項でトレーニングするためのモジュール型のPythonパッケージである。 分離された設計により、ニューラルネットワークを正規化損失構造から分離することができる。 ニューラルネットワークの階層的な組み合わせ、異なるドメインの一般化方法、および関連するハイパーパラメータはすべて、単一の設定ファイル内の他の実験的な設定と一緒に指定することができる。 ニューラルネットワークの階層的な組み合わせ、異なるドメインの一般化方法、および関連するハイパーパラメータはすべて、単一の設定ファイル内の他の実験的な設定と一緒に指定することができる。 さらに、DomainLabは、アウト・オブ・ディストリビューションデータにおけるニューラルネットワークの一般化性能を評価するために、強力なベンチマーク機能を提供する。 パッケージは、指定されたベンチマークをHPCクラスタまたはスタンドアロンマシン上で実行することをサポートする。 パッケージは95%以上をカバーし、十分にドキュメント化されている。 ユーザの視点からは、変更はクローズドだが、拡張にはオープンである。 パッケージはMITライセンス下にあり、ソースコード、チュートリアル、ドキュメントはhttps://github.com/marrlab/DomainLabにある。

Poor generalization performance caused by distribution shifts in unseen domains often hinders the trustworthy deployment of deep neural networks. Many domain generalization techniques address this problem by adding a domain invariant regularization loss terms during training. However, there is a lack of modular software that allows users to combine the advantages of different methods with minimal effort for reproducibility. DomainLab is a modular Python package for training user specified neural networks with composable regularization loss terms. Its decoupled design allows the separation of neural networks from regularization loss construction. Hierarchical combinations of neural networks, different domain generalization methods, and associated hyperparameters, can all be specified together with other experimental setup in a single configuration file. Hierarchical combinations of neural networks, different domain generalization methods, and associated hyperparameters, can all be specified together with other experimental setup in a single configuration file. In addition, DomainLab offers powerful benchmarking functionality to evaluate the generalization performance of neural networks in out-of-distribution data. The package supports running the specified benchmark on an HPC cluster or on a standalone machine. The package is well tested with over 95 percent coverage and well documented. From the user perspective, it is closed to modification but open to extension. The package is under the MIT license, and its source code, tutorial and documentation can be found at https://github.com/marrlab/DomainLab.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# グラフ生成における大規模言語モデルの可能性を探る

Exploring the Potential of Large Language Models in Graph Generation ( http://arxiv.org/abs/2403.14358v1 )

ライセンス: Link先を確認
Yang Yao, Xin Wang, Zeyang Zhang, Yijian Qin, Ziwei Zhang, Xu Chu, Yuekui Yang, Wenwu Zhu, Hong Mei, (参考訳) 大規模言語モデル(LLM)は多くの分野で大きな成功を収めており、近年ではノード分類などのグラフ識別タスクのためのLLMの研究が進められている。 しかし、グラフ生成におけるLLMの能力は、文献では明らかにされていない。 グラフ生成には LLM が与えられた特性を持つグラフを生成する必要がある。 本稿では,LLM4GraphGenを提案する。 具体的には、異なるグラフ構造規則に対するLLMの理解、構造型分布の捕捉能力、およびプロパティベースのグラフ生成におけるドメイン知識の利用に関する重要な問題に対処するための総合的な実験に特化して、いくつかのタスクを提案する。 評価の結果,LSM,特にGPT-4は,ルールベースおよび分布ベース生成を含むグラフ生成タスクに予備的能力を示すことがわかった。 また,ほとんどショットやチェーン・オブ・シークレットなどの一般的なプロンプト手法は,性能を継続的に向上させるものではないことも観察した。 加えて、LSMは特定の性質を持つ分子を生成する可能性を示す。 これらの発見は、グラフ生成のための優れたLLMモデルの設計の基礎となり、貴重な洞察とさらなる研究を提供する。

Large language models (LLMs) have achieved great success in many fields, and recent works have studied exploring LLMs for graph discriminative tasks such as node classification. However, the abilities of LLMs for graph generation remain unexplored in the literature. Graph generation requires the LLM to generate graphs with given properties, which has valuable real-world applications such as drug discovery, while tends to be more challenging. In this paper, we propose LLM4GraphGen to explore the ability of LLMs for graph generation with systematical task designs and extensive experiments. Specifically, we propose several tasks tailored with comprehensive experiments to address key questions regarding LLMs' understanding of different graph structure rules, their ability to capture structural type distributions, and their utilization of domain knowledge for property-based graph generation. Our evaluations demonstrate that LLMs, particularly GPT-4, exhibit preliminary abilities in graph generation tasks, including rule-based and distribution-based generation. We also observe that popular prompting methods, such as few-shot and chain-of-thought prompting, do not consistently enhance performance. Besides, LLMs show potential in generating molecules with specific properties. These findings may serve as foundations for designing good LLMs based models for graph generation and provide valuable insights and further research.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# ハイパースペクトル画像を用いたミツバチのバロアデストラクタ検出

Varroa destructor detection on honey bees using hyperspectral imagery ( http://arxiv.org/abs/2403.14359v1 )

ライセンス: Link先を確認
Zina-Sabrina Duma, Tomas Zemcik, Simon Bilik, Tuomas Sihvonen, Peter Honec, Satu-Pia Reinikainen, Karel Horak, (参考訳) 農業におけるハイパースペクトル(HS)画像はますます一般的になりつつある。 これらの画像は高いスペクトル分解能の利点がある。 これらのHS画像の情報ポテンシャルを解き放つには、高度なスペクトル処理技術が必要である。 本稿では,ハチミツバチの体に寄生する寄生性ハチミツバチの寄生性ハチミツバチの寄生性ハチミツバチを検出できるように,多変量統計に根ざした手法を提案する。 この手法は非教師付き(K-means++)と最近開発された寄生的識別のための教師付き(Kernel Flows - partial Least-Squares, KF-PLS)手法を探索する。 さらに, カスタムバンドマルチスペクトルカメラの出現を踏まえ, 本研究は, カスタムバンドカメラの実装に適した有効ビーマイト分離に必要な特定の波長を特定するための戦略を概説する。 実ケースデータセットを用いて,4つのスペクトル帯が正確な寄生虫の同定に十分であることを示す。

Hyperspectral (HS) imagery in agriculture is becoming increasingly common. These images have the advantage of higher spectral resolution. Advanced spectral processing techniques are required to unlock the information potential in these HS images. The present paper introduces a method rooted in multivariate statistics designed to detect parasitic Varroa destructor mites on the body of western honey bee Apis mellifera, enabling easier and continuous monitoring of the bee hives. The methodology explores unsupervised (K-means++) and recently developed supervised (Kernel Flows - Partial Least-Squares, KF-PLS) methods for parasitic identification. Additionally, in light of the emergence of custom-band multispectral cameras, the present research outlines a strategy for identifying the specific wavelengths necessary for effective bee-mite separation, suitable for implementation in a custom-band camera. Illustrated with a real-case dataset, our findings demonstrate that as few as four spectral bands are sufficient for accurate parasite identification.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# 難解なLLMセマンティックスからの本質的な学習による一般化ゼロショット学習の未確認領域への展開

Less but Better: Enabling Generalized Zero-shot Learning Towards Unseen Domains by Intrinsic Learning from Redundant LLM Semantics ( http://arxiv.org/abs/2403.14362v1 )

ライセンス: Link先を確認
Jiaqi Yue, Jiancheng Zhao, Chunhui Zhao, (参考訳) 一般化ゼロショット学習 (GZSL) は、目に見えないクラスと見えないクラスをドメインシフト問題 (DSP) に対して認識することに焦点を当てている。 しかし、既存のGZSLは依然として見るドメインに限られている。 現在の研究では、GZSLを未確認領域に向けるクロスドメインGZSL(CDGZSL)を開拓している。 意味のある未確認クラスの特徴を生成することでDSPを緩和する既存のGZSLメソッドとは異なり、CDGZSLはドメイン間で共通の特徴空間を構築し、ドメイン間で共有される固有の意味論を取得して、目に見えないドメインから未知のドメインへ転送する必要がある。 大規模言語モデル(LLM)に注釈付けされた冗長なクラスセマンティクスによる情報非対称性の問題を考慮して,メタドメインアライメント・セマンティック・リファインメント(MDASR)を提案する。 技術的には、MDASRは2つの部分から構成される: クラス間類似性アライメント(ISA)は、クラス間特徴関係の指導の下ですべてのドメイン間で共有されていない非内在的意味論を排除し、Unseen-class Meta Generation(UMG)は、特徴生成をシミュレートすることで、見かけたクラスと見えないクラス間の接続を維持するために内在的意味論を保存する。 MDASRは、冗長な意味空間と共通の特徴空間を効果的に整合させ、CDGZSLにおける情報の非対称性を緩和する。 MDASRの有効性はOffice-HomeとMini-DomainNetで実証され、これらのデータセットに対するLLMベースのセマンティクスをベンチマークとして共有した。

Generalized zero-shot learning (GZSL) focuses on recognizing seen and unseen classes against domain shift problem (DSP) where data of unseen classes may be misclassified as seen classes. However, existing GZSL is still limited to seen domains. In the current work, we pioneer cross-domain GZSL (CDGZSL) which addresses GZSL towards unseen domains. Different from existing GZSL methods which alleviate DSP by generating features of unseen classes with semantics, CDGZSL needs to construct a common feature space across domains and acquire the corresponding intrinsic semantics shared among domains to transfer from seen to unseen domains. Considering the information asymmetry problem caused by redundant class semantics annotated with large language models (LLMs), we present Meta Domain Alignment Semantic Refinement (MDASR). Technically, MDASR consists of two parts: Inter-class Similarity Alignment (ISA), which eliminates the non-intrinsic semantics not shared across all domains under the guidance of inter-class feature relationships, and Unseen-class Meta Generation (UMG), which preserves intrinsic semantics to maintain connectivity between seen and unseen classes by simulating feature generation. MDASR effectively aligns the redundant semantic space with the common feature space, mitigating the information asymmetry in CDGZSL. The effectiveness of MDASR is demonstrated on the Office-Home and Mini-DomainNet, and we have shared the LLM-based semantics for these datasets as the benchmark.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# WikiFactDiff: 因果的言語モデルにおけるアトミック・ファクチュアル・ナレッジ更新のための大規模でリアルでテンポラブルなデータセット

WikiFactDiff: A Large, Realistic, and Temporally Adaptable Dataset for Atomic Factual Knowledge Update in Causal Language Models ( http://arxiv.org/abs/2403.14364v1 )

ライセンス: Link先を確認
Hichem Ammar Khodja, Frédéric Béchet, Quentin Brabant, Alexis Nasr, Gwénolé Lecorvé, (参考訳) 大規模言語モデル(LLM)の事実性は、トレーニングの後の出来事が彼らにとって「未知」であるため、時間とともに低下する傾向にある。 モデルを最新に保つ方法の1つは、モデル内のある種の単純な(アトミックな)事実を挿入、置換、削除するタスクである。 この課題を研究するために、WikiFactDiffは、2つの日付間の事実知識の進化を、新しい、古い、静的の3つのカテゴリに分けられた単純な事実の集合として記述するデータセットである。 これら3つの基本更新の様々な組み合わせから生じるいくつかの更新シナリオについて述べる。 実際、WikiFactDiffは2021年1月4日と2023年2月27日のWikidata知識ベースの状態を比較して構築された。 これらの事実には、更新アルゴリズムの実行と評価メトリクスを可能にする、言語テンプレートとクローゼテストが伴っている。 zsREやCounterFactといった他のデータセットとは対照的に、WikiFactDiffは、置換、アーカイブ、新しいエンティティ挿入など、さまざまなアップデートシナリオを含む、現実的なアップデート設定を構成している。 また,既存の更新アルゴリズムをWikiFactDiff上で評価する。

The factuality of large language model (LLMs) tends to decay over time since events posterior to their training are "unknown" to them. One way to keep models up-to-date could be factual update: the task of inserting, replacing, or removing certain simple (atomic) facts within the model. To study this task, we present WikiFactDiff, a dataset that describes the evolution of factual knowledge between two dates as a collection of simple facts divided into three categories: new, obsolete, and static. We describe several update scenarios arising from various combinations of these three types of basic update. The facts are represented by subject-relation-object triples; indeed, WikiFactDiff was constructed by comparing the state of the Wikidata knowledge base at 4 January 2021 and 27 February 2023. Those fact are accompanied by verbalization templates and cloze tests that enable running update algorithms and their evaluation metrics. Contrary to other datasets, such as zsRE and CounterFact, WikiFactDiff constitutes a realistic update setting that involves various update scenarios, including replacements, archival, and new entity insertions. We also present an evaluation of existing update algorithms on WikiFactDiff.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# SurroundSDF:符号付き距離場に基づく3次元シーン理解

SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field ( http://arxiv.org/abs/2403.14366v1 )

ライセンス: Link先を確認
Lizhe Liu, Bohua Wang, Hongwei Xie, Daqi Liu, Li Liu, Zhiqiang Tian, Kuiyuan Yang, Bing Wang, (参考訳) 視覚中心の3D環境理解は、自律運転システムにとって不可欠かつ困難である。 近年,オブジェクトフリー手法が注目されている。 このような方法は、離散的なボクセル格子のセマンティクスを予測することによって世界を理解するが、連続かつ正確な障害物面の構築には失敗する。 そこで本稿では,SurroundSDFを用いて,周辺画像からの連続知覚のための符号付き距離場(SDF)と意味場を暗黙的に予測する手法を提案する。 具体的には、クエリベースのアプローチを導入し、Eikonalの定式化に制約されたSDFを用いて障害物の表面を正確に記述する。 さらに, 正確なSDF基底の真理が欠如していることを踏まえ, サンドウィッチ・アイコンナル法(Sandwich Eikonal formulation)と呼ばれる新たなSDFの弱教師付きパラダイムを提案し, 表面の両面に正しい密度の制約を適用し, 表面の知覚精度を高める。 実験により,本手法は, nuScenesデータセット上での占有予測と3次元シーン再構成の両タスクに対してSOTAを実現することが示唆された。

Vision-centric 3D environment understanding is both vital and challenging for autonomous driving systems. Recently, object-free methods have attracted considerable attention. Such methods perceive the world by predicting the semantics of discrete voxel grids but fail to construct continuous and accurate obstacle surfaces. To this end, in this paper, we propose SurroundSDF to implicitly predict the signed distance field (SDF) and semantic field for the continuous perception from surround images. Specifically, we introduce a query-based approach and utilize SDF constrained by the Eikonal formulation to accurately describe the surfaces of obstacles. Furthermore, considering the absence of precise SDF ground truth, we propose a novel weakly supervised paradigm for SDF, referred to as the Sandwich Eikonal formulation, which emphasizes applying correct and dense constraints on both sides of the surface, thereby enhancing the perceptual accuracy of the surface. Experiments suggest that our method achieves SOTA for both occupancy prediction and 3D scene reconstruction tasks on the nuScenes dataset.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# 教師なし映像生成における映像合成とアニメーションの実現

Enabling Visual Composition and Animation in Unsupervised Video Generation ( http://arxiv.org/abs/2403.14368v1 )

ライセンス: Link先を確認
Aram Davtyan, Sepehr Sameni, Björn Ommer, Paolo Favaro, (参考訳) 本研究では,教師なし制御不能な映像生成のための新しい手法を提案する。 一度、アノテーションのないビデオのデータセットでトレーニングされたら、そのモデルは事前に定義されたオブジェクト部品のシーンを合成し、それらを可視かつ制御可能な方法でアニメーション化できる。 これは、トレーニング中に局所的に訓練済みの自己教師付き特徴のランダムに選択されたサブセットにビデオ生成を条件付けることで達成される。 我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。 我々は様々な環境でCAGEの機能を示す一連の実験を行った。 プロジェクトウェブサイト: https://araachie.github.io/cage.com

In this work we propose a novel method for unsupervised controllable video generation. Once trained on a dataset of unannotated videos, at inference our model is capable of both composing scenes of predefined object parts and animating them in a plausible and controlled way. This is achieved by conditioning video generation on a randomly selected subset of local pre-trained self-supervised features during training. We call our model CAGE for visual Composition and Animation for video GEneration. We conduct a series of experiments to demonstrate capabilities of CAGE in various settings. Project website: https://araachie.github.io/cage.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# SyncTweedies: 同期拡散に基づく一般的な生成フレームワーク

SyncTweedies: A General Generative Framework Based on Synchronized Diffusions ( http://arxiv.org/abs/2403.14370v1 )

ライセンス: Link先を確認
Jaihoon Kim, Juil Koo, Kyeongmin Yeo, Minhyuk Sung, (参考訳) 複数の拡散過程を同期させることにより、あいまいな画像、パノラマ画像、メッシュテクスチャ、ガウススプレートテクスチャを含む多様な視覚コンテンツを生成するための一般的なフレームワークを導入する。 本稿では,複数の拡散過程を標準空間で同期化するためのすべてのシナリオを網羅的に検討し,その特性をアプリケーション間で解析する。 そのような場合、探索されていないケースとして、Tweedieの公式の出力を平均化しながら、複数のインスタンス空間で denoising を行う。 このケースは、ダウンストリームタスクに最も適用可能な、最高の品質も提供します。 このケースをSyncTweediesと名付けます。 上述したビジュアルコンテンツを生成する実験では、SyncTweediesが他の同期法、最適化法、反復更新法と比較して優れた生成品質を示す。

We introduce a general framework for generating diverse visual content, including ambiguous images, panorama images, mesh textures, and Gaussian splat textures, by synchronizing multiple diffusion processes. We present exhaustive investigation into all possible scenarios for synchronizing multiple diffusion processes through a canonical space and analyze their characteristics across applications. In doing so, we reveal a previously unexplored case: averaging the outputs of Tweedie's formula while conducting denoising in multiple instance spaces. This case also provides the best quality with the widest applicability to downstream tasks. We name this case SyncTweedies. In our experiments generating visual content aforementioned, we demonstrate the superior quality of generation by SyncTweedies compared to other synchronization methods, optimization-based and iterative-update-based methods.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# ループ改善: 中央サーバなしの不均一データから共有特徴を抽出する効率的なアプローチ

Loop Improvement: An Efficient Approach for Extracting Shared Features from Heterogeneous Data without Central Server ( http://arxiv.org/abs/2403.14371v1 )

ライセンス: Link先を確認
Fei Li, Chu Kiong Loo, Wei Shiung Liew, Xiaofeng Liu, (参考訳) フェデレーション学習では、データの異質性はパフォーマンスに大きく影響する。 典型的な解決策は、これらのパラメータを共有およびパーソナライズされたコンポーネントに分離することであり、これはマルチタスク学習にも関係している。 そこで我々は,この分離と特徴抽出を,参加者間の中央サーバやデータ交換を必要とせずに促進する手法である"Loop Improvement"(LI)を提案する。 パーソナライズされた学習環境において、LIは様々なシナリオにおいて高度なFedALAアルゴリズムよりも常に優れています。 さらに、LIの機能抽出器は、すべてのクライアントからデータを集約する際に達成されたパフォーマンスと密接に一致します。 グローバルなモデルコンテキストでは、LIをスタック化されたパーソナライズされたレイヤと追加のネットワークで使用することで、クライアントデータシナリオの組み合わせに匹敵する結果が得られる。 さらに、LIの適応性はマルチタスク学習にまで拡張され、タスク間で共通の機能の抽出が合理化され、同時にトレーニングする必要がなくなる。 このアプローチは個々のタスクのパフォーマンスを向上させるだけでなく、すべてのタスクを同時に訓練する古典的なマルチタスク学習手法と同等の精度を達成する。 LIは、様々なニューラルネットワークモデルと互換性のある、レイヤワイドおよびエンドツーエンドのトレーニングとループトポロジを統合している。 本稿では,LIの有効性の理論的基盤についても考察し,その可能性について考察する。 コードはhttps://github.com/axedge 1983/LIにある。

In federated learning, data heterogeneity significantly impacts performance. A typical solution involves segregating these parameters into shared and personalized components, a concept also relevant in multi-task learning. Addressing this, we propose "Loop Improvement" (LI), a novel method enhancing this separation and feature extraction without necessitating a central server or data interchange among participants. Our experiments reveal LI's superiority in several aspects: In personalized federated learning environments, LI consistently outperforms the advanced FedALA algorithm in accuracy across diverse scenarios. Additionally, LI's feature extractor closely matches the performance achieved when aggregating data from all clients. In global model contexts, employing LI with stacked personalized layers and an additional network also yields comparable results to combined client data scenarios. Furthermore, LI's adaptability extends to multi-task learning, streamlining the extraction of common features across tasks and obviating the need for simultaneous training. This approach not only enhances individual task performance but also achieves accuracy levels on par with classic multi-task learning methods where all tasks are trained simultaneously. LI integrates a loop topology with layer-wise and end-to-end training, compatible with various neural network models. This paper also delves into the theoretical underpinnings of LI's effectiveness, offering insights into its potential applications. The code is on https://github.com/axedge1983/LI
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# FIT-RAG:Factual Information and Token Reduced Black-Box RAG

FIT-RAG: Black-Box RAG with Factual Information and Token Reduction ( http://arxiv.org/abs/2403.14374v1 )

ライセンス: Link先を確認
Yuren Mao, Xuemei Dong, Wenyi Xu, Yunjun Gao, Bin Wei, Ying Zhang, (参考訳) 非常に多くのパラメータがあるため、長い知識や時代遅れの知識を更新するための微調整のLarge Language Model(LLM)は多くのアプリケーションでは実用的ではない。 微調整を避けるために、LCMをブラックボックス(すなわち、LCMのパラメータを凍結する)として扱い、それをレトリーバル拡張生成(RAG)システム、すなわちブラックボックスRAGで拡張することができる。 近年、ブラックボックスRAGは知識集約的なタスクで成功し、多くの注目を集めている。 既存のブラックボックスRAG法は、典型的にはレトリバーを微調整してLLMの好みに適合させ、検索したすべての文書を入力として結合する。 LLMが好む書類は,当該質問の事実情報を含まず,検索者の誤解を招き,ブラックボックスRAGの有効性を損なうおそれがある。(2)トークンの無駄。 取得したすべての文書を単純に結合すると、LCMに対して大量の不要トークンが発生し、それによってブラックボックスRAGの効率が低下する。 これらの課題に対処するため,本研究ではFIT-RAGと呼ばれる,検索における事実情報を利用した新しいブラックボックスRAGフレームワークを提案し,拡張用トークンの数を削減した。 FIT-RAGは、この事実情報を利用して、バイラベル文書スコアラを構築する。 さらに、自己知識認識器とサブドキュメントレベルのトークン還元器を導入することでトークンを削減する。 FIT-RAGは、TriviaQA、NQ、PopQAの3つのオープンドメイン質問回答データセットにわたる広範な実験によって検証され、優れた効率と効率を達成する。 FIT-RAGは、TriviaQAで14.3\%、NQで19.9\%、PopQAで27.5\%、Llama2-13B-Chatの解答精度を向上させることができる。 さらに、3つのデータセットで平均してトークンの約半分を保存できる。

Due to the extraordinarily large number of parameters, fine-tuning Large Language Models (LLMs) to update long-tail or out-of-date knowledge is impractical in lots of applications. To avoid fine-tuning, we can alternatively treat a LLM as a black-box (i.e., freeze the parameters of the LLM) and augment it with a Retrieval-Augmented Generation (RAG) system, namely black-box RAG. Recently, black-box RAG has achieved success in knowledge-intensive tasks and has gained much attention. Existing black-box RAG methods typically fine-tune the retriever to cater to LLMs' preferences and concatenate all the retrieved documents as the input, which suffers from two issues: (1) Ignorance of Factual Information. The LLM preferred documents may not contain the factual information for the given question, which can mislead the retriever and hurt the effectiveness of black-box RAG; (2) Waste of Tokens. Simply concatenating all the retrieved documents brings large amounts of unnecessary tokens for LLMs, which degenerates the efficiency of black-box RAG. To address these issues, this paper proposes a novel black-box RAG framework which utilizes the factual information in the retrieval and reduces the number of tokens for augmentation, dubbed FIT-RAG. FIT-RAG utilizes the factual information by constructing a bi-label document scorer. Besides, it reduces the tokens by introducing a self-knowledge recognizer and a sub-document-level token reducer. FIT-RAG achieves both superior effectiveness and efficiency, which is validated by extensive experiments across three open-domain question-answering datasets: TriviaQA, NQ and PopQA. FIT-RAG can improve the answering accuracy of Llama2-13B-Chat by 14.3\% on TriviaQA, 19.9\% on NQ and 27.5\% on PopQA, respectively. Furthermore, it can save approximately half of the tokens on average across the three datasets.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# InfNeRF: O(log n)空間複素度を用いた無限スケールNeRFレンダリングを目指して

InfNeRF: Towards Infinite Scale NeRF Rendering with O(log n) Space Complexity ( http://arxiv.org/abs/2403.14376v1 )

ライセンス: Link先を確認
Jiabin Liang, Lanqing Zhang, Zhuoran Zhao, Xiangyu Xu, (参考訳) 従来のメッシュベースのLevel of Detail(LoD)技術は、Google Earthや多くのゲームエンジンなどのアプリケーションで例示され、地球でも大きなシーンを水平に表現する能力を示し、O(log n)の空間複雑さでレンダリングを実現する。 この制約付きデータ要求は、レンダリング効率を向上するだけでなく、動的なデータフェッチを容易にするため、ユーザにシームレスな3Dナビゲーション体験を可能にする。 本研究では,この実証されたLoD手法を,異なるスケールでシーンを表現するオクツリー構造を導入することにより,ニューラルラジアンス場(NeRF)に拡張する。 この革新的なアプローチは、O(log n)のレンダリング空間の複雑さを持つ数学的に単純でエレガントな表現を提供する。 また,O(n)の複雑性を維持する新しいトレーニング戦略を提案する。 この戦略により、最小限のオーバーヘッドで並列トレーニングが可能となり、提案手法のスケーラビリティと効率が保証される。 我々の貢献は、既存の技術の能力を拡張するだけでなく、NeRFとOctree構造を用いたスケーラブルで効率的な大規模シーン表現の基礎を確立することである。

The conventional mesh-based Level of Detail (LoD) technique, exemplified by applications such as Google Earth and many game engines, exhibits the capability to holistically represent a large scene even the Earth, and achieves rendering with a space complexity of O(log n). This constrained data requirement not only enhances rendering efficiency but also facilitates dynamic data fetching, thereby enabling a seamless 3D navigation experience for users. In this work, we extend this proven LoD technique to Neural Radiance Fields (NeRF) by introducing an octree structure to represent the scenes in different scales. This innovative approach provides a mathematically simple and elegant representation with a rendering space complexity of O(log n), aligned with the efficiency of mesh-based LoD techniques. We also present a novel training strategy that maintains a complexity of O(n). This strategy allows for parallel training with minimal overhead, ensuring the scalability and efficiency of our proposed method. Our contribution is not only in extending the capabilities of existing techniques but also in establishing a foundation for scalable and efficient large-scale scene representation using NeRF and octree structures.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# ユーザ中心のサブグラフネットワークによる知識強化勧告

Knowledge-Enhanced Recommendation with User-Centric Subgraph Network ( http://arxiv.org/abs/2403.14377v1 )

ライセンス: Link先を確認
Guangyi Liu, Quanming Yao, Yongqi Zhang, Lei Chen, (参考訳) 近年,様々なプラットフォームに広く実装されているレコメンデーションシステムは,ユーザの好みに応じて関連項目を推薦する。 ユーザ-itemの相互作用行列に依存する古典的な手法には制限があり、特に新しい項目に対するインタラクションデータが欠如しているシナリオでは制限がある。 知識グラフ(KG)ベースのレコメンデーションシステムが,有望なソリューションとして登場した。 しかし、ほとんどのKGベースの手法はノード埋め込みを採用しており、異なるユーザに対してパーソナライズされたレコメンデーションを提供しておらず、新しい項目にうまく対応できない。 これらの制約に対処するために,グラフニューラルネットワーク(GNN)を用いたグラフ学習手法である知識強調型ユーザ中心サブグラフネットワーク(KUCNet)を提案する。 KUCNetは、ユーザ-itemペアごとにU-Iサブグラフを構築し、ユーザ-itemインタラクションの履歴情報とKGで提供されるサイド情報の両方をキャプチャする。 注意に基づくGNNは、U-Iサブグラフをエンコードしてレコメンデーションするように設計されている。 効率性を考慮すると、複数のU-Iサブグラフを同時に計算し、パーソナライズされたPageRankでサイズを計算できるように、パーソナライズされたユーザ中心の計算グラフがさらに導入される。 提案手法は,特に新しい項目に対する精度,効率,解釈可能なレコメンデーションを実現する。 実験により,最先端のKGに基づく協調フィルタリング(CF)方式よりもKUCNetの方が優れていることが示された。

Recommendation systems, as widely implemented nowadays on various platforms, recommend relevant items to users based on their preferences. The classical methods which rely on user-item interaction matrices has limitations, especially in scenarios where there is a lack of interaction data for new items. Knowledge graph (KG)-based recommendation systems have emerged as a promising solution. However, most KG-based methods adopt node embeddings, which do not provide personalized recommendations for different users and cannot generalize well to the new items. To address these limitations, we propose Knowledge-enhanced User-Centric subgraph Network (KUCNet), a subgraph learning approach with graph neural network (GNN) for effective recommendation. KUCNet constructs a U-I subgraph for each user-item pair that captures both the historical information of user-item interactions and the side information provided in KG. An attention-based GNN is designed to encode the U-I subgraphs for recommendation. Considering efficiency, the pruned user-centric computation graph is further introduced such that multiple U-I subgraphs can be simultaneously computed and that the size can be pruned by Personalized PageRank. Our proposed method achieves accurate, efficient, and interpretable recommendations especially for new items. Experimental results demonstrate the superiority of KUCNet over state-of-the-art KG-based and collaborative filtering (CF)-based methods.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# 畳み込みモデルのテンソルネットワーク圧縮性

Tensor network compressibility of convolutional models ( http://arxiv.org/abs/2403.14379v1 )

ライセンス: Link先を確認
Sukhbinder Singh, Saeed S. Jahromi, Roman Orus, (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクにおける最先端のパフォーマンスを示す最も広く使われているニューラルネットワークアーキテクチャの1つである。 より大きなCNNは一般的に高い精度を示すが、そのサイズは精度を維持しながら「拡張」によって効果的に縮小することができる。 テンソル化は、コンボリューション核をタッカー、カノニカルポリアディック分解、行列積状態などの量子誘発分解などのコンパクトな分解に置き換え、分解の要因を直接訓練することで、学習を低階分解に偏らせる。 しかし、なぜテンソル化が精度に悪影響を及ぼさないのか? 我々は、高密度(拡張されていない)CNNの畳み込みカーネルが精度にどのように影響するかを評価することで、これを調査する。 具体的には カーネルを切断し (i)バニラ4層CNN及び (II) CIFAR-10およびCIFAR-100データセットの画像分類のために事前訓練されたResNet-50。 カーネル(特に深い層内)は、しばしばいくつかのカットに沿って切り離され、カーネルノルムは著しく低下するが、分類精度は低下しない。 このような'correlation compression''(テンソル化の下で)は、密集したCNNで情報をエンコードする方法の固有の特徴であることを示している。 また, 畳み込み層の内部相関を圧縮すると, モデルが最小限に抑えられなくなることが示唆された。 この結果はCNNモデルをより効果的にテンソル化・圧縮するために応用できる。

Convolutional neural networks (CNNs) represent one of the most widely used neural network architectures, showcasing state-of-the-art performance in computer vision tasks. Although larger CNNs generally exhibit higher accuracy, their size can be effectively reduced by "tensorization" while maintaining accuracy. Tensorization consists of replacing the convolution kernels with compact decompositions such as Tucker, Canonical Polyadic decompositions, or quantum-inspired decompositions such as matrix product states, and directly training the factors in the decompositions to bias the learning towards low-rank decompositions. But why doesn't tensorization seem to impact the accuracy adversely? We explore this by assessing how truncating the convolution kernels of dense (untensorized) CNNs impact their accuracy. Specifically, we truncated the kernels of (i) a vanilla four-layer CNN and (ii) ResNet-50 pre-trained for image classification on CIFAR-10 and CIFAR-100 datasets. We found that kernels (especially those inside deeper layers) could often be truncated along several cuts resulting in significant loss in kernel norm but not in classification accuracy. This suggests that such ``correlation compression'' (underlying tensorization) is an intrinsic feature of how information is encoded in dense CNNs. We also found that aggressively truncated models could often recover the pre-truncation accuracy after only a few epochs of re-training, suggesting that compressing the internal correlations of convolution layers does not often transport the model to a worse minimum. Our results can be applied to tensorize and compress CNN models more effectively.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# 大規模言語モデルの会話的説得性について:ランダム化制御試験

On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial ( http://arxiv.org/abs/2403.14380v1 )

ライセンス: Link先を確認
Francesco Salvi, Manoel Horta Ribeiro, Riccardo Gallotti, Robert West, (参考訳) 大規模言語モデル(LLM)の開発と普及は、オンライン上で偽りや誤解を招く物語をプッシュするために、テーラーメイドで説得力のある議論を作るのに使用されるのではないかという懸念を提起している。 初期の研究で、言語モデルは少なくとも同程度に認識されたコンテンツを生成し、人間によるメッセージよりも説得力が高いことが判明した。 しかし、人間との直接会話におけるLLMの説得能力や、パーソナライズによってパフォーマンスが向上する方法についてはまだ知識が限られている。 この事前登録された研究では、制御された無害な環境でAIによる説得の効果を分析する。 私たちはWebベースのプラットフォームを作り、参加者はライブの相手と短時間で複数ラウンドの議論を行う。 各参加者はランダムに4つの治療条件のうちの1つに割り当てられ、(1)ゲームは2人または1人の人間と1人のLDMの間で行われ、(2)パーソナライゼーションは有効であるかもしれないし、その2人のプレイヤーのうちの1人が相手に関する基本的な社会学的な情報にアクセスできるようにする。 その結果、GPT-4を個人情報へのアクセスで議論した参加者は81.7%(p < 0.01; N=820)であり、反対者との合意が高まる確率は人間よりも高かった。 パーソナライゼーションがなければ、GPT-4は人間より優れているが、その効果は低く統計的に非有意である(p=0.31)。 以上の結果から,パーソナライズに関する懸念がソーシャルメディアのガバナンスや新しいオンライン環境の設計に重要な意味を持っていることが示唆された。

The development and popularization of large language models (LLMs) have raised concerns that they will be used to create tailor-made, convincing arguments to push false or misleading narratives online. Early work has found that language models can generate content perceived as at least on par and often more persuasive than human-written messages. However, there is still limited knowledge about LLMs' persuasive capabilities in direct conversations with human counterparts and how personalization can improve their performance. In this pre-registered study, we analyze the effect of AI-driven persuasion in a controlled, harmless setting. We create a web-based platform where participants engage in short, multiple-round debates with a live opponent. Each participant is randomly assigned to one of four treatment conditions, corresponding to a two-by-two factorial design: (1) Games are either played between two humans or between a human and an LLM; (2) Personalization might or might not be enabled, granting one of the two players access to basic sociodemographic information about their opponent. We found that participants who debated GPT-4 with access to their personal information had 81.7% (p < 0.01; N=820 unique participants) higher odds of increased agreement with their opponents compared to participants who debated humans. Without personalization, GPT-4 still outperforms humans, but the effect is lower and statistically non-significant (p=0.31). Overall, our results suggest that concerns around personalization are meaningful and have important implications for the governance of social media and the design of new online environments.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# Rephrased Prefix Promptsによる言語ロデルの知識表現の編集

Editing Knowledge Representation of Language Lodel via Rephrased Prefix Prompts ( http://arxiv.org/abs/2403.14381v1 )

ライセンス: Link先を確認
Yuchen Cai, Ding Cao, Rongxi Guo, Yaqin Wen, Guiquan Liu, Enhong Chen, (参考訳) ニューラルネットワークモデル(LM)は、テキストで記述された世界の様々な側面に関する事実知識を保持するために、広大なコーパスで広範囲に訓練されている。 現在の技術では、知識編集手法や特定のプロンプトを使ってLM出力を変更するのが一般的である。 しかし、既存の知識編集手法は費用がかかり非効率であり、適切なテキストを作成するのに苦労している。 さらに、プロンプトエンジニアリングは不透明であり、適切なプロンプトを見つけるためにかなりの努力を要する。 これらの問題に対処するため,PSPEM (Prefix Soft Prompt Editing Method) と呼ばれる新しい手法を導入する。 知識編集手法における非効率性と一般化可能性の問題を解消し、最適なソフトプロンプトを自動で求めることにより、プロンプトエンジニアリングの不透明さを克服する。 具体的には、プロンプトエンコーダとエンコードコンバータを用いて、プロンプト内のキー情報を洗練し、プロンプトアライメント技術を用いてモデル生成をガイドし、意図された構造や内容に対するテキストの一貫性と定着を確保し、効率と精度の最適なバランスを維持する。 我々は知識編集と属性挿入によるPSPEMの有効性を検証した。 COUNTERFACTデータセットでは、PSPEMは100倍近い編集精度を達成し、最も高い流速を示した。 さらに、PSPEMと元のプロンプトの類似点とモデル内部への影響について分析した。 その結果,PSPEMはオリジナルのプロンプトの代替として機能し,効率的な編集を支援することが示唆された。

Neural language models (LMs) have been extensively trained on vast corpora to store factual knowledge about various aspects of the world described in texts. Current technologies typically employ knowledge editing methods or specific prompts to modify LM outputs. However, existing knowledge editing methods are costly and inefficient, struggling to produce appropriate text. Additionally, prompt engineering is opaque and requires significant effort to find suitable prompts. To address these issues, we introduce a new method called PSPEM (Prefix Soft Prompt Editing Method), that can be used for a lifetime with just one training. It resolves the inefficiencies and generalizability issues in knowledge editing methods and overcomes the opacity of prompt engineering by automatically seeking optimal soft prompts. Specifically, PSPEM utilizes a prompt encoder and an encoding converter to refine key information in prompts and uses prompt alignment techniques to guide model generation, ensuring text consistency and adherence to the intended structure and content, thereby maintaining an optimal balance between efficiency and accuracy. We have validated the effectiveness of PSPEM through knowledge editing and attribute inserting. On the COUNTERFACT dataset, PSPEM achieved nearly 100\% editing accuracy and demonstrated the highest level of fluency. We further analyzed the similarities between PSPEM and original prompts and their impact on the model's internals. The results indicate that PSPEM can serve as an alternative to original prompts, supporting the model in effective editing.
翻訳日:2024-03-22 14:18:45 公開日:2024-03-21
# 物質波干渉によるイオントラップの主軸方向の決定

Determination of principal axes orientation in an ion trap using matter-wave interference ( http://arxiv.org/abs/2403.14383v1 )

ライセンス: Link先を確認
Ryoichi Saito, Takashi Mukaiyama, (参考訳) トラップ周波数の制御機構について検討し,イオントラップ主軸の配向を決定する。 イオントラップのトラップ周波数を微調整するために一般的に使用される地上電極への直流電圧の適用は、トラップ主軸の回転につながる。 イオン物質波干渉信号の解析により、トラップ主軸の方向を決定することができる。 実験とシミュレーションの両方で、トラップ半径軸間のカップリングに起因する回避交差挙動が明らかになった。 さらに、シミュレーションにより、対称トラップ構造はこの結合を欠いていることが示され、トラップ構造非対称性が軸間の結合を引き起こすことが示唆された。 この研究の結果は、量子科学とテクノロジーの多様な応用のためのイオントラップに関する貴重な洞察を提供する。

We investigate the control mechanism of trap frequencies and determine the orientation of ion trap principal axes. The application of DC voltage to the ground electrodes, commonly employed to finely tune trap frequencies in ion traps, leads to the rotation of the trap principal axes. Analyzing the ion matter-wave interference signal enables us to determine the directions of the trap principal axes. Both the experiments and simulations reveal an avoided-crossing behavior resulting from the coupling between the trap radial axes. Additionally, simulations indicate that symmetric trap structures lack this coupling, suggesting that trap structure asymmetry causes coupling between the axes. The findings of this study offer valuable insights into ion traps for diverse applications in quantum science and technology.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# エルゴディディティ破壊のプローブとしてのクリロフ局在

Krylov localization as a probe for ergodicity breaking ( http://arxiv.org/abs/2403.14384v1 )

ライセンス: Link先を確認
Heiko Georg Menzler, Rishabh Jha, (参考訳) クリロフ複雑性は、最近、非対角作用素ランツォス係数の観点から、時間における作用素の複雑さの増大を測定することに注目されている。 演算子ランツォスアルゴリズムは、複雑性成長の問題を1粒子半無限強結合鎖(クリロフ連鎖として知られる)に還元する。 アンダーソン局在化現象を用いて、弱エルゴディディディティ破壊を検出するプローブとして、クリロフ鎖上の逆局在化長を提案する。 クリロフ連鎖上では、SYKモデルで示されるように、エルゴード系における非局在化と、弱いエルゴード性破壊系における局所化を見出す。 揺らぎ以外の力学を考えると、弱いエルゴディディディティ破壊の時点で、異なるシステムサイズにまたがる崩壊が定量的な予測に繋がる。 さらに、スクランブル力学を超えたエルゴード的状態における異なる作用素の普遍的特性を示す。 我々は,(1)結合SYKモデル,(2)量子東モデルという2つの設定を検証した。 本研究は, エルゴディディティ/弱エルゴディディティ-ブレーキング遷移をクリロフ鎖上の非局在化/局在化現象へマッピングするための道を開いた。

Krylov complexity has recently gained attention where the growth of operator complexity in time is measured in terms of the off-diagonal operator Lanczos coefficients. The operator Lanczos algorithm reduces the problem of complexity growth to a single-particle semi-infinite tight-binding chain (known as the Krylov chain). Employing the phenomenon of Anderson localization, we propose the inverse localization length on the Krylov chain as a probe to detect weak ergodicity-breaking. On the Krylov chain we find delocalization in an ergodic regime, as we show for the SYK model, and localization in case of a weakly ergodicity-broken regime. Considering the dynamics beyond scrambling, we find a collapse across different system sizes at the point of weak ergodicity-breaking leading to a quantitative prediction. We further show universal traits of different operators in the ergodic regime beyond the scrambling dynamics. We test for two settings: (1) the coupled SYK model, and (2) the quantum East model. Our findings open avenues for mapping ergodicity/weak ergodicity-breaking transitions to delocalization/localization phenomenology on the Krylov chain.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# ダブル機械学習による因果効果推定手法の評価

Estimating Causal Effects with Double Machine Learning -- A Method Evaluation ( http://arxiv.org/abs/2403.14385v1 )

ライセンス: Link先を確認
Jonathan Fuhr, Philipp Berens, Dominik Papies, (参考訳) 観測データによる因果効果の推定は非常に活発な研究領域である。 近年,機械学習を用いて因果効果の推定に必要な古典的仮定を緩和するフレームワークが開発されている。 本稿では、従来の統計手法と比較してシミュレーションデータの性能を比較し、実世界のデータに適用する前に実証的に評価することで、最も顕著な手法の1つである「ダブル/デバイアスド機械学習」(DML)を概観する。 この結果から, DML 内でのフレキシブルな機械学習アルゴリズムの適用により, 様々な非線形共起関係の調整が向上することが示唆された。 この利点は、因果効果推定に通常必要とされる伝統的な機能形式仮定から逸脱することができる。 しかし,本手法は因果構造と同定に関する標準的な仮定に強く依存し続けている。 我が国の住宅価格に対する大気汚染の影響を推定すると、DMLの推定値は、よりフレキシブルでない方法の推定よりも一貫して大きいことが分かる。 総合的な結果から、研究者が実際にDMLを適用する際にすべき特定の選択について、実行可能なレコメンデーションを提供する。

The estimation of causal effects with observational data continues to be a very active research area. In recent years, researchers have developed new frameworks which use machine learning to relax classical assumptions necessary for the estimation of causal effects. In this paper, we review one of the most prominent methods - "double/debiased machine learning" (DML) - and empirically evaluate it by comparing its performance on simulated data relative to more traditional statistical methods, before applying it to real-world data. Our findings indicate that the application of a suitably flexible machine learning algorithm within DML improves the adjustment for various nonlinear confounding relationships. This advantage enables a departure from traditional functional form assumptions typically necessary in causal effect estimation. However, we demonstrate that the method continues to critically depend on standard assumptions about causal structure and identification. When estimating the effects of air pollution on housing prices in our application, we find that DML estimates are consistently larger than estimates of less flexible methods. From our overall results, we provide actionable recommendations for specific choices researchers must make when applying DML in practice.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 大から小へ:弱スーパービジョンによる数学語問題に対する数学的専門知識の蒸留と精製

From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision ( http://arxiv.org/abs/2403.14390v1 )

ライセンス: Link先を確認
Qingwen Lin, Boyan Xu, Zhengting Huang, Ruichu Cai, (参考訳) 数学語問題(MWP)の解法における高アノテーションコストの課題に対して,近年の研究では,最終回答のみを教師付き信号として依存する弱教師付きタスク設定が提案されている。 既存の先導的なアプローチは、典型的には中間方程式を推論するために様々な検索技法を用いるが、自然言語記述とのセマンティックな整合性を保証することはできない。 ChatGPTのような大規模言語モデル(LLM)の台頭は、MWPに直接対処する新たな可能性を開いた。 しかし、LLMの計算要求により、資源が密接な環境での使用には理想的ではない。 これらの課題を踏まえて,大規模から小型の言語モデルから数学的専門家を積極的に移行する,革新的な2段階のフレームワークを導入する。 本稿では,LLMから数学的知識を抽出し,教師付きトレーニングに必要な問題方程式ペアを構築するために,MWPの特性を満たす一連の抽出プロセスを提案する。 知識蒸留法では,全データの完全活用を保証できないため,検索に失敗するデータを知識精製法で効果的に活用する。 最後に,2段階法により生成された蒸留データを用いて小型モデルを訓練する。 提案手法は,探索用'problem-equation'ペアのセマンティック理解機能を完全に活用するので,ChatGPTよりも計算コストをはるかに低く保ちながら,Math23KとWeak12Kデータセットの性能を大幅に向上させる。

Addressing the challenge of high annotation costs in solving Math Word Problems (MWPs) through full supervision with intermediate equations, recent works have proposed weakly supervised task settings that rely solely on the final answer as a supervised signal. Existing leading approaches typically employ various search techniques to infer intermediate equations, but cannot ensure their semantic consistency with natural language descriptions. The rise of Large Language Models (LLMs) like ChatGPT has opened up new possibilities for addressing MWPs directly. However, the computational demands of LLMs make them less than ideal for use in settings where resources are tight. In light of these challenges, we introduce an innovative two-stage framework that adeptly transfers mathematical Expertise from large to tiny language models. In \emph{Distillation Stage}, we propose a series of extraction processes that satisfy the properties of MWPs to distill mathematical knowledge from LLMs to construct problem-equation pairs required for supervised training. In \emph{Refinement Stage}, Due to Knowledge distilling method cannot guarantee the full utilization of all data, we further utilize the unsuccessfully searched data effectively by Knowledge Refine method. Finally, We train a small model using distilled data generated through two-stage methods. As our method fully leverages the semantic understanding capabilities during the searching 'problem-equation' pair, it demonstrates significantly improved performance on the Math23K and Weak12K datasets compared to existing small model methods, while maintaining a much lower computational cost than ChatGPT.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# Few-Shot Class-Incremental Learningのためのトリックの袋

A Bag of Tricks for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2403.14392v1 )

ライセンス: Link先を確認
Shuvendu Roy, Chunjong Park, Aldi Fahrezi, Ali Etemad, (参考訳) 本稿では,少数のクラスインクリメンタル・ラーニング(FSCIL)のためのトリック・フレームワークについて紹介する。 FSCILは安定性と適応性の両方を必要とする。 提案するトリックの袋は,FSCILの統一フレームワークの下で,安定性,適応性,全体的なパフォーマンスを向上させる8つの重要かつ影響力の高いテクニックをまとめる。 これらのトリックを,安定性トリック,適応性トリック,トレーニングトリックという3つのカテゴリに分類する。 安定性のトリックは、学習したクラスの埋め込みの分離を強化し、新しいクラスを学ぶ際の干渉を最小限にすることで、学習したクラスの忘れを緩和することを目的としている。 一方、適応性のトリックは、新しいクラスの効果的な学習に焦点を当てている。 最後に、トレーニングのトリックは、安定性や適応性を損なうことなく、全体的なパフォーマンスを改善する。 我々は,CIFAR-100,CUB-200,MiniIMageNetの3つのベンチマークデータセットについて広範な実験を行い,提案フレームワークの効果を評価する。 詳細な分析により,本手法は安定性と適応性の両方を著しく向上させ,その領域における先行研究を上回り,新たな最先端技術を確立した。 我々は,本手法がゴーツーソリューションであり,今後の研究の基盤となると信じている。

We present a bag of tricks framework for few-shot class-incremental learning (FSCIL), which is a challenging form of continual learning that involves continuous adaptation to new tasks with limited samples. FSCIL requires both stability and adaptability, i.e., preserving proficiency in previously learned tasks while learning new ones. Our proposed bag of tricks brings together eight key and highly influential techniques that improve stability, adaptability, and overall performance under a unified framework for FSCIL. We organize these tricks into three categories: stability tricks, adaptability tricks, and training tricks. Stability tricks aim to mitigate the forgetting of previously learned classes by enhancing the separation between the embeddings of learned classes and minimizing interference when learning new ones. On the other hand, adaptability tricks focus on the effective learning of new classes. Finally, training tricks improve the overall performance without compromising stability or adaptability. We perform extensive experiments on three benchmark datasets, CIFAR-100, CUB-200, and miniIMageNet, to evaluate the impact of our proposed framework. Our detailed analysis shows that our approach substantially improves both stability and adaptability, establishing a new state-of-the-art by outperforming prior works in the area. We believe our method provides a go-to solution and establishes a robust baseline for future research in this area.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# ニューラルネットワークの学習のための非接触サブプロブレム解法を用いた正規化適応モーメント2次平均化

Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network ( http://arxiv.org/abs/2403.14398v1 )

ライセンス: Link先を確認
Zih-Syuan Huang, Ching-pei Lee, (参考訳) 本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)アルゴリズムを提案する。 既存の正規化適応法と同様に、RAMDAの更新方向を計算するサブプロブレムは非滑らかな正規化器と対角式のプレコンディショナーを含んでいるため、一般にクローズドフォームの解を持たない。 そこで本研究では,RAMDAと既存手法の両方のサブプロブレムに対して,コンバージェンス保証を厳格に保持する実装可能な不コンパクト性条件を慎重に考案し,それを実現するための相補的効率的な解法を提案する。 変分解析における多様体同定の理論を利用して、そのような不完全性が存在する場合でも、RAMDA の反復体は漸近収束の定常点において正則化子によって誘導される理想構造に達することを示す。 この構造は収束点付近で局所的に最適であるため、RAMDAは同じ点に収束する全てのメソッドの中で可能な限り最高の構造が得られることが保証され、(局所的に)最適に構造化された状態で優れた予測性能を持つモデルを出力する最初の正規化適応法となる。 大規模コンピュータビジョン、言語モデリング、音声タスクにおける大規模な数値実験は、提案されたRAMDAが効率的であり、構造化ニューラルネットワークのトレーニングのための最先端技術よりも一貫して優れていることを示している。 私たちのアルゴリズムの実装は、http://www.github.com/ismoptgroup/RAMDA/で利用可能です。

We propose a Regularized Adaptive Momentum Dual Averaging (RAMDA) algorithm for training structured neural networks. Similar to existing regularized adaptive methods, the subproblem for computing the update direction of RAMDA involves a nonsmooth regularizer and a diagonal preconditioner, and therefore does not possess a closed-form solution in general. We thus also carefully devise an implementable inexactness condition that retains convergence guarantees similar to the exact versions, and propose a companion efficient solver for the subproblems of both RAMDA and existing methods to make them practically feasible. We leverage the theory of manifold identification in variational analysis to show that, even in the presence of such inexactness, the iterates of RAMDA attain the ideal structure induced by the regularizer at the stationary point of asymptotic convergence. This structure is locally optimal near the point of convergence, so RAMDA is guaranteed to obtain the best structure possible among all methods converging to the same point, making it the first regularized adaptive method outputting models that possess outstanding predictive performance while being (locally) optimally structured. Extensive numerical experiments in large-scale modern computer vision, language modeling, and speech tasks show that the proposed RAMDA is efficient and consistently outperforms state of the art for training structured neural network. Implementation of our algorithm is available at http://www.github.com/ismoptgroup/RAMDA/.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 言語学習指導による正確な翻訳台詞構築

Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning ( http://arxiv.org/abs/2403.14399v1 )

ライセンス: Link先を確認
Changtong Zan, Liang Ding, Li Shen, Yibing Zhen, Weifeng Liu, Dacheng Tao, (参考訳) 翻訳調整大型言語モデル(LLM)は、教師付き訓練された商用翻訳システムと競合する、優れた翻訳能力を示す。 しかし、特に低リソース言語では、ターゲット外の翻訳は未解決の問題であり、正確なLLMベースの翻訳モデルの開発を妨げる。 オフターゲット翻訳問題を緩和し、翻訳におけるLLMの性能を高めるため、最近の研究は、翻訳命令の機能を強調するための高度なプロンプト戦略を設計するか、あるいは、数発のデモを流し、LLMのテキスト内学習能力を活用した。 しかし、これらの手法は基本的にLLMの翻訳命令、特に言語方向情報に従う能力を改善するものではない。 本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。 具体的には、まず、基本翻訳能力を引き出すために、翻訳データセットの最大推定損失を最大化してLLMをチューニングする。 第2段階では、命令中の翻訳指示を間違った命令にランダムに置き換えて、そのサンプルを学習するために余分な不規則な損失を導入することによって、命令記述型サンプルを構築する。 ゼロショット方向16のLLaMAモデルを用いたIWSLTおよびWMTベンチマーク実験により、競合するベースラインであるLLamaと比較して、オフターゲット変換比(平均-53.3\%)を効果的に低減し、平均+5.7 SacreBLEUおよび+16.4 BLEURTで翻訳品質を向上させることができた。 解析の結果,本手法はAlpacaEval上でのモデルの一般的なタスク性能を維持できることがわかった。 コードとモデルは \url{https://github.com/alphadl/LanguageAware_Tuning} でリリースされる。

Translation-tailored Large language models (LLMs) exhibit remarkable translation capabilities, even competing with supervised-trained commercial translation systems. However, off-target translation remains an unsolved problem, especially for low-resource languages, hindering us from developing accurate LLMs-based translation models. To mitigate the off-target translation problem and enhance the performance of LLMs on translation, recent works have either designed advanced prompting strategies to highlight the functionality of translation instructions or exploited the in-context learning ability of LLMs by feeding few-shot demonstrations. However, these methods essentially do not improve LLM's ability to follow translation instructions, especially the language direction information. In this work, we design a two-stage fine-tuning algorithm to improve the instruction-following ability (especially the translation direction) of LLMs. Specifically, we first tune LLMs with the maximum likelihood estimation loss on the translation dataset to elicit the basic translation capabilities. In the second stage, we construct instruction-conflicting samples by randomly replacing the translation directions with a wrong one within the instruction, and then introduce an extra unlikelihood loss to learn those samples. Experiments on IWSLT and WMT benchmarks upon the LLaMA model spanning 16 zero-shot directions show that, compared to the competitive baseline -- translation-finetuned LLama, our method could effectively reduce the off-target translation ratio (averagely -53.3\%), thus improving translation quality with average +5.7 SacreBLEU and +16.4 BLEURT. Analysis shows that our method could preserve the model's general task performance on AlpacaEval. Code and models will be released at \url{https://github.com/alphadl/LanguageAware_Tuning}.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# Pensieve: 視覚幻覚を緩和するレトロスペクティブ

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination ( http://arxiv.org/abs/2403.14401v1 )

ライセンス: Link先を確認
Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang, (参考訳) MLLM(Multi-modal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めている。 しかし、それらは視覚幻覚に悩まされ、生成した応答は提供された画像から分岐する。 MLLMは幻覚時の正確な視覚的手がかりを完全に無視しているか? 本研究により,視覚枝は,正確な内容と存在しない内容の両方を同時に主張できることが明らかとなった。 この問題を解決するために,Pensieveを提案する。Pensieveは,類似した視覚幻覚が,共通の意味的特徴と外観的特徴を共有する画像の間に生じうるという観察から着想を得た,トレーニング不要の手法である。 推論中、PensieveはMLLMに対して、関連する画像を参照として振り返り、テストイメージと比較することを可能にする。 このパラダイムは、視覚入力によって誤って支持された幻覚コンテンツを低下させるMLLMを支援する。 Whoops、MME、POPE、LLaVA Benchの実験は、Pensieveが視覚幻覚を緩和し、他の高度な復号戦略を上回る効果を示した。 さらに、Pensieveは画像内の詳細を識別し、画像記述の特異性を高めるMLLMを支援する。

Multi-modal Large Language Models (MLLMs) demonstrate remarkable success across various vision-language tasks. However, they suffer from visual hallucination, where the generated responses diverge from the provided image. Are MLLMs completely oblivious to accurate visual cues when they hallucinate? Our investigation reveals that the visual branch may simultaneously advocate both accurate and non-existent content. To address this issue, we propose Pensieve, a training-free method inspired by our observation that analogous visual hallucinations can arise among images sharing common semantic and appearance characteristics. During inference, Pensieve enables MLLMs to retrospect relevant images as references and compare them with the test image. This paradigm assists MLLMs in downgrading hallucinatory content mistakenly supported by the visual input. Experiments on Whoops, MME, POPE, and LLaVA Bench demonstrate the efficacy of Pensieve in mitigating visual hallucination, surpassing other advanced decoding strategies. Additionally, Pensieve aids MLLMs in identifying details in the image and enhancing the specificity of image descriptions.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# XLAVS-R:ノイズ・ロバスト音声知覚のための言語間音声・ビジュアル音声表現学習

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception ( http://arxiv.org/abs/2403.14402v1 )

ライセンス: Link先を確認
HyoJung Han, Mohamed Anwar, Juan Pino, Wei-Ning Hsu, Marine Carpuat, Bowen Shi, Changhan Wang, (参考訳) 音声認識と翻訳システムは、現実的な環境で頻繁に発生するノイズの多い入力に対して、性能が良くない。 これらのシステムを視覚信号で拡張することは、ノイズに対する堅牢性を改善する可能性がある。 しかし、オーディオ・ヴィジュアル(AV)データは限られた量でしか使えず、音声のみのリソースよりも少ない言語でしか利用できない。 このギャップに対処するため,100以上の言語で音声認識・翻訳を行う言語間音声視覚表現モデルXLAVS-Rを提案する。 音声のみの多言語事前学習の上に構築し、既存の事前学習スキームを簡素化することにより、限られた多言語AV事前学習データの利点を最大化するように設計されている。 MuAViCベンチマークの広範囲な評価は、XLAVS-Rが下流の音声視覚音声認識および翻訳タスクにおいて、ノイズの多いAV入力を与えられた18.5%のWERと4.7のBLEUに上回り、オーディオのみの微調整で強力なゼロショットオーディオ視覚能力を実現する。

Speech recognition and translation systems perform poorly on noisy inputs, which are frequent in realistic environments. Augmenting these systems with visual signals has the potential to improve robustness to noise. However, audio-visual (AV) data is only available in limited amounts and for fewer languages than audio-only resources. To address this gap, we present XLAVS-R, a cross-lingual audio-visual speech representation model for noise-robust speech recognition and translation in over 100 languages. It is designed to maximize the benefits of limited multilingual AV pre-training data, by building on top of audio-only multilingual pre-training and simplifying existing pre-training schemes. Extensive evaluation on the MuAViC benchmark shows the strength of XLAVS-R on downstream audio-visual speech recognition and translation tasks, where it outperforms the previous state of the art by up to 18.5% WER and 4.7 BLEU given noisy AV inputs, and enables strong zero-shot audio-visual ability with audio-only fine-tuning.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# Adaptive-RAG:質問複雑度による検索型大規模言語モデルへの適応学習

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity ( http://arxiv.org/abs/2403.14403v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park, (参考訳) 外部知識ベースからの非パラメトリック知識をLLMに組み込んだ検索型大規模言語モデル (LLM) は,質問回答 (QA) などのタスクにおいて,応答精度を高めるための有望なアプローチとして登場した。 しかし、異なる複雑さのクエリを扱う様々なアプローチがあるにもかかわらず、不要な計算オーバーヘッドを伴う単純なクエリを扱うか、複雑なマルチステップクエリに適切に対処できないかのいずれかである。 本稿では,クエリの複雑さに基づいて,最も単純なものから最も洗練されたものまで,最も適切な(検索可能な)LLM戦略を動的に選択できる,適応型QAフレームワークを提案する。 また、この選択プロセスは、データセットの実際の予測結果と固有の帰納バイアスから得られる、自動収集されたラベルによる入ってくるクエリの複雑さレベルを予測するために訓練された、より小さなLMの分類器で操作される。 このアプローチは、一連のクエリの複雑さに対応するため、反復的および単一ステップの検索拡張LDMと非検索的手法をシームレスに適応するバランスのとれた戦略を提供する。 我々は,複数のクエリの複雑さを網羅したオープンドメインQAデータセットの集合上でモデルを検証し,適応的検索手法を含む関連するベースラインと比較して,QAシステムの全体的な効率性と精度を向上させることを示す。 コードは、https://github.com/starsuzi/Adaptive-RAG.comで入手できる。

Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external knowledge bases into LLMs, have emerged as a promising approach to enhancing response accuracy in several tasks, such as Question-Answering (QA). However, even though there are various approaches dealing with queries of different complexities, they either handle simple queries with unnecessary computational overhead or fail to adequately address complex multi-step queries; yet, not all user requests fall into only one of the simple or complex categories. In this work, we propose a novel adaptive QA framework, that can dynamically select the most suitable strategy for (retrieval-augmented) LLMs from the simplest to the most sophisticated ones based on the query complexity. Also, this selection process is operationalized with a classifier, which is a smaller LM trained to predict the complexity level of incoming queries with automatically collected labels, obtained from actual predicted outcomes of models and inherent inductive biases in datasets. This approach offers a balanced strategy, seamlessly adapting between the iterative and single-step retrieval-augmented LLMs, as well as the no-retrieval methods, in response to a range of query complexities. We validate our model on a set of open-domain QA datasets, covering multiple query complexities, and show that ours enhances the overall efficiency and accuracy of QA systems, compared to relevant baselines including the adaptive retrieval approaches. Code is available at: https://github.com/starsuzi/Adaptive-RAG.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 物理インフォームド拡散モデル

Physics-Informed Diffusion Models ( http://arxiv.org/abs/2403.14404v1 )

ライセンス: Link先を確認
Jan-Hendrik Bastek, WaiChing Sun, Dennis M. Kochmann, (参考訳) 拡散モデルのような生成モデルは、非常に複雑なデータ分布を近似する能力が急速に進歩している。 科学的な機械学習にも活用され、インプリートされたデータ分布のサンプルは特定の支配方程式に従うことが期待されている。 本稿では,モデル学習中に生成したサンプルに対する基礎的制約について,拡散モデルに通知する枠組みを提案する。 提案手法は, 提案した制約付きサンプルのアライメントを改善し, 推論速度に影響を与えることなく, 既存の手法を著しく上回っている。 さらに,トレーニング中にこのような制約を組み込むことで,過剰適合に対する自然な規則化が期待できる。 我々のフレームワークは、等式制約や不等式制約を課し、補助最適化の目的を課すための適用性において、実装が容易で、多用途である。

Generative models such as denoising diffusion models are quickly advancing their ability to approximate highly complex data distributions. They are also increasingly leveraged in scientific machine learning, where samples from the implied data distribution are expected to adhere to specific governing equations. We present a framework to inform denoising diffusion models on underlying constraints on such generated samples during model training. Our approach improves the alignment of the generated samples with the imposed constraints and significantly outperforms existing methods without affecting inference speed. Additionally, our findings suggest that incorporating such constraints during training provides a natural regularization against overfitting. Our framework is easy to implement and versatile in its applicability for imposing equality and inequality constraints as well as auxiliary optimization objectives.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 遅延位置ルーティング問題に対する強化学習誘導ハイブリッド進化アルゴリズム

A reinforcement learning guided hybrid evolutionary algorithm for the latency location routing problem ( http://arxiv.org/abs/2403.14405v1 )

ライセンス: Link先を確認
Yuji Zou, Jin-Kao Hao, Qinghua Wu, (参考訳) 遅延位置ルーティング問題は、施設位置問題と多点累積容量車両ルーティング問題を統合する。 この問題は、すべての顧客に対して待ち時間(到着時間)を最小化しつつ、補給所の場所と車両ルートに関する同時決定を顧客に提供することである。 計算的に困難な問題に対処するために,メメティックアルゴリズムの枠組みに従う強化学習誘導ハイブリッド進化アルゴリズムを提案する。 提案アルゴリズムは,有望な子孫を構築するために,多様性に富んだ多目的のエッジアセンブリ・クロスオーバーと,複数の地区の探索順序を決定するための強化学習による可変近傍降下に依存している。 さらに、戦略的振動は、実現不可能な解と実現不可能な解の両方のバランスの取れた探索を達成するために用いられる。 最新手法に対するアルゴリズムの競争性は、76の一般的なインスタンスの3つのセットに対して実験結果によって示され、59のインスタンスに対して51の最適化された最適解(新しい上限)と残りのインスタンスに対して等しく最適な解を含む。 また、アルゴリズムの重要なコンポーネントに光を放つための追加実験も行います。

The latency location routing problem integrates the facility location problem and the multi-depot cumulative capacitated vehicle routing problem. This problem involves making simultaneous decisions about depot locations and vehicle routes to serve customers while aiming to minimize the sum of waiting (arriving) times for all customers. To address this computationally challenging problem, we propose a reinforcement learning guided hybrid evolutionary algorithm following the framework of the memetic algorithm. The proposed algorithm relies on a diversity-enhanced multi-parent edge assembly crossover to build promising offspring and a reinforcement learning guided variable neighborhood descent to determine the exploration order of multiple neighborhoods. Additionally, strategic oscillation is used to achieve a balanced exploration of both feasible and infeasible solutions. The competitiveness of the algorithm against state-of-the-art methods is demonstrated by experimental results on the three sets of 76 popular instances, including 51 improved best solutions (new upper bounds) for the 59 instances with unknown optima and equal best results for the remaining instances. We also conduct additional experiments to shed light on the key components of the algorithm.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 量子機械学習の量子ビット数制限

Quantum Machine Learning With a Limited Number Of Qubits ( http://arxiv.org/abs/2403.14406v1 )

ライセンス: Link先を確認
Stian Bilek, (参考訳) 量子回路分割(Quantum circuit partitioning)は、小さな量子コンピュータ上の大規模量子システムをシミュレートすることを目的としたハイブリッド量子古典的アプローチである。 量子計算はより小さな回路に分割され、これらの回路上での測定結果は古典的な処理で組み合わせられる。 現在のアプローチでは、アダマールテストやSWAPテストが実施され、従って完全な量子ビット接続性を持つ補助量子ビットが必要となる。 本研究では,特定の量子状態や観測可能値に対して,期待値の簡単な測定を行うことで,そのアプローチを実現することができることを示す。 しかし、これは量子状態と可観測物の適用空間に制限が伴う。 このアプローチは量子機械学習の領域、特に桁データセットで実証された。 3 と 6 の分類に適用すると,100 % の精度でサンプル外データを一般化することができた。

Quantum circuit partitioning is a hybrid quantum-classical approach that aims to simulate large quantum systems on smaller quantum computers. The quantum computation is divided into smaller circuits and results of measurements on these circuits are combined using classical processing. Current approaches involve performing the Hadamard test or SWAP test and thus require an ancillary qubit with full qubit-connectivity. In this study, we show that for certain quantum states and observables, the approach can be realized by performing simple measurements of expectation values. However, this comes with a limitation on the applicable space of quantum states and observables. The approach was demonstrated in the realm of quantum machine learning, specifically to the digits dataset. When applied to the classification between the digits 3 and 6, we were able to generalize to out-of-sample data with an accuracy of $100 \%$.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# 大規模言語モデルにおけるジェンダーバイアスの配置と緩和

Locating and Mitigating Gender Bias in Large Language Models ( http://arxiv.org/abs/2403.14409v1 )

ライセンス: Link先を確認
Yuchen Cai, Ding Cao, Rongxi Guo, Yaqin Wen, Guiquan Liu, Enhong Chen, (参考訳) 大規模言語モデル(LLM)は、人間の嗜好を含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。 しかし、このプロセスは、社会で広く見られるバイアスやステレオタイプを取得するこれらのモデルに必然的に結びつく可能性がある。 従来の研究は1次元の視点で偏見の問題に取り組み、位置決めや緩和に集中していた。 この限定的な視点は、相互に相乗的に補完し、段階的に構築するバイアスの研究を促進する上で、障害を生み出しました。 本研究では,一貫した枠組みに偏見の配置と緩和のプロセスを統合する。 当初我々は、大言語モデルにおける様々なコンポーネントの活性化の因果効果を追究するために、因果媒介分析を用いた。 そこで我々はLSDM(Least Square Debias Method)という,職業代名詞における性バイアスを緩和する知識編集手法を提案し,これを3つの性バイアスデータセットと7つの知識能力試験データセットの2つのベースラインと比較した。 実験結果から, 性別バイアスの主な寄与要因は, 職業代名詞の最後のトークンに作用する最下段のMLPモジュールと, 文の最後の単語に作用する最上段の注意モジュールであることが示唆された。 さらに、LSDMはモデル内の性バイアスを他のベースラインよりも効果的に軽減し、他のすべての側面においてモデルの能力を完全に保存する。

Large language models(LLM) are pre-trained on extensive corpora to learn facts and human cognition which contain human preferences. However, this process can inadvertently lead to these models acquiring biases and stereotypes prevalent in society. Prior research has typically tackled the issue of bias through a one-dimensional perspective, concentrating either on locating or mitigating it. This limited perspective has created obstacles in facilitating research on bias to synergistically complement and progressively build upon one another. In this study, we integrate the processes of locating and mitigating bias within a unified framework. Initially, we use causal mediation analysis to trace the causal effects of different components' activation within a large language model. Building on this, we propose the LSDM (Least Square Debias Method), a knowledge-editing based method for mitigating gender bias in occupational pronouns, and compare it against two baselines on three gender bias datasets and seven knowledge competency test datasets. The experimental results indicate that the primary contributors to gender bias are the bottom MLP modules acting on the last token of occupational pronouns and the top attention module acting on the final word in the sentence. Furthermore, LSDM mitigates gender bias in the model more effectively than the other baselines, while fully preserving the model's capabilities in all other aspects.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# GLC++:グローバルローカルクラスタリングとコントラスト親和性学習によるソースフリーユニバーサルドメイン適応

GLC++: Source-Free Universal Domain Adaptation through Global-Local Clustering and Contrastive Affinity Learning ( http://arxiv.org/abs/2403.14410v1 )

ライセンス: Link先を確認
Sanqing Qu, Tianpei Zou, Florian Röhrbein, Cewu Lu, Guang Chen, Dacheng Tao, Changjun Jiang, (参考訳) ディープニューラルネットワークは、共変量およびカテゴリーシフトの下で、しばしば準最適性能を示す。 Source-Free Domain Adaptation (SFDA)はこのジレンマに対して有望な解決策を提供するが、ほとんどのSFDAアプローチはクローズドセットシナリオに限定されている。 本稿では、共通カテゴリに属する「既知の」データを正確に分類し、ターゲットプライベートな「未知」データから分離することを目的とした、ソースフリーユニバーサルドメイン適応(SF-UniDA)について検討する。 本稿では,グローバルクラスタリング(GLC, Global and Local Clustering)手法を提案する。この手法は1対1のグローバルクラスタリングアルゴリズムを用いて,ターゲットクラスを識別し,ローカルk-NNクラスタリング戦略を補完し,負の転送を緩和する。 この効果にもかかわらず、固有のクローズド・セット・ソース・アーキテクチャは「未知」なデータを均一に扱い、異なる「未知」なカテゴリの識別を妨げる。 これを解決するため、GLCをGLC++に進化させ、対照的な親和性学習戦略を統合する。 複数のベンチマークおよびカテゴリシフトシナリオにおけるGLCとGLC++の優位性を検討する。 注目すべきは、最も困難なオープンパーティショナリーセットのシナリオでは、GLCとGLC++がそれぞれ、VisDAのHスコアで16.7%、GLC++が18.6%を上回っていることである。 GLC++は、Office-Home上のオープンセットシナリオにおいて、GLCの新しいカテゴリクラスタリング精度を4.3%向上させる。 さらに, コントラスト学習戦略の導入は, GLCを増強するだけでなく, 既存の方法論を著しく促進する。

Deep neural networks often exhibit sub-optimal performance under covariate and category shifts. Source-Free Domain Adaptation (SFDA) presents a promising solution to this dilemma, yet most SFDA approaches are restricted to closed-set scenarios. In this paper, we explore Source-Free Universal Domain Adaptation (SF-UniDA) aiming to accurately classify "known" data belonging to common categories and segregate them from target-private "unknown" data. We propose a novel Global and Local Clustering (GLC) technique, which comprises an adaptive one-vs-all global clustering algorithm to discern between target classes, complemented by a local k-NN clustering strategy to mitigate negative transfer. Despite the effectiveness, the inherent closed-set source architecture leads to uniform treatment of "unknown" data, impeding the identification of distinct "unknown" categories. To address this, we evolve GLC to GLC++, integrating a contrastive affinity learning strategy. We examine the superiority of GLC and GLC++ across multiple benchmarks and category shift scenarios. Remarkably, in the most challenging open-partial-set scenarios, GLC and GLC++ surpass GATE by 16.7% and 18.6% in H-score on VisDA, respectively. GLC++ enhances the novel category clustering accuracy of GLC by 4.3% in open-set scenarios on Office-Home. Furthermore, the introduced contrastive learning strategy not only enhances GLC but also significantly facilitates existing methodologies.
翻訳日:2024-03-22 14:09:01 公開日:2024-03-21
# CombiNeRF:Few-Shot Neural Radiance Field View Synthesisのための正規化手法の組み合わせ

CombiNeRF: A Combination of Regularization Techniques for Few-Shot Neural Radiance Field View Synthesis ( http://arxiv.org/abs/2403.14412v1 )

ライセンス: Link先を確認
Matteo Bonotto, Luigi Sarrocco, Daniele Evangelista, Marco Imperoli, Alberto Pretto, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、十分に多くのビューが利用可能である場合に、新しいビュー合成のための印象的な結果を示す。 少数のショット設定、すなわち入力ビューの小さなセットを扱う場合、トレーニングはこれらのビューに過度に適合し、結果のレンダリングにおけるアーティファクトと幾何学的および彩色的不整合をもたらす可能性がある。 正規化は、NeRFの一般化に役立つ有効な解である。 一方、最新のNeRF正則化手法は、それぞれ特定のレンダリング問題を緩和することを目的としている。 そこで本研究では,複数の正規化手法を相乗的に組み合わせたフレームワークであるCombiNeRFを提案する。 特に、単光線と隣接光線の分布を正則化し、近傍の測地線を正則化する滑らかな項を加える。 これらの幾何学的アプローチの後、我々はNeRF密度とカラーネットワークの両方に対するリプシッツ正則化と、入力特徴量正則化のための符号化マスクの利用を提案する。 CombiNeRFは、いくつかの公開データセットにおいて、数ショット設定で最先端の手法よりも優れていることを示す。 また,選択を支援するLLFFおよびNeRF合成データセットについて,アブレーション研究を行った。 本論文では,フレームワークのオープンソース実装について述べる。

Neural Radiance Fields (NeRFs) have shown impressive results for novel view synthesis when a sufficiently large amount of views are available. When dealing with few-shot settings, i.e. with a small set of input views, the training could overfit those views, leading to artifacts and geometric and chromatic inconsistencies in the resulting rendering. Regularization is a valid solution that helps NeRF generalization. On the other hand, each of the most recent NeRF regularization techniques aim to mitigate a specific rendering problem. Starting from this observation, in this paper we propose CombiNeRF, a framework that synergically combines several regularization techniques, some of them novel, in order to unify the benefits of each. In particular, we regularize single and neighboring rays distributions and we add a smoothness term to regularize near geometries. After these geometric approaches, we propose to exploit Lipschitz regularization to both NeRF density and color networks and to use encoding masks for input features regularization. We show that CombiNeRF outperforms the state-of-the-art methods with few-shot settings in several publicly available datasets. We also present an ablation study on the LLFF and NeRF-Synthetic datasets that support the choices made. We release with this paper the open-source implementation of our framework.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 進化的最適化とベイズ最適化におけるモデル不確かさの比較分析

Model Uncertainty in Evolutionary Optimization and Bayesian Optimization: A Comparative Analysis ( http://arxiv.org/abs/2403.14413v1 )

ライセンス: Link先を確認
Hao Hao, Xiaoqun Zhang, Aimin Zhou, (参考訳) 多くの実世界のアプリケーションで一般的なブラックボックス最適化問題は、内部動作にアクセスせずに入出力相互作用を通じて最適化する必要がある。 これはしばしばシミュレーションのために消費される重要な計算資源に繋がる。 Bayesian Optimization (BO) と Surrogate-Assisted Evolutionary Algorithm (SAEA) は、そのような問題に対処するために広く使われている勾配のない最適化手法である。 どちらのアプローチも、探索プロセスを導くために代理モデルに依存する同様の反復手順に従う。 本稿では,これらの2つの手法間のモデル不確かさの類似点と相違点の解明と,モデル不正確さがアルゴリズム性能に与える影響について述べる。 未評価のソリューションを利用して子孫を生成する新しいモデル支援戦略を導入し、モデル支援最適化の有効性を高めるために、進化的アルゴリズムの集団に基づく探索機能を活用する。 実験結果から,提案手法はベイズ最適化アルゴリズムよりも精度と効率の点で優れていることが示された。

Black-box optimization problems, which are common in many real-world applications, require optimization through input-output interactions without access to internal workings. This often leads to significant computational resources being consumed for simulations. Bayesian Optimization (BO) and Surrogate-Assisted Evolutionary Algorithm (SAEA) are two widely used gradient-free optimization techniques employed to address such challenges. Both approaches follow a similar iterative procedure that relies on surrogate models to guide the search process. This paper aims to elucidate the similarities and differences in the utilization of model uncertainty between these two methods, as well as the impact of model inaccuracies on algorithmic performance. A novel model-assisted strategy is introduced, which utilizes unevaluated solutions to generate offspring, leveraging the population-based search capabilities of evolutionary algorithm to enhance the effectiveness of model-assisted optimization. Experimental results demonstrate that the proposed approach outperforms mainstream Bayesian optimization algorithms in terms of accuracy and efficiency.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 純距離における量子チャネルシミュレーションは状態分割よりも困難ではない

Quantum Channel Simulation under Purified Distance is no more difficult than State Splitting ( http://arxiv.org/abs/2403.14416v1 )

ライセンス: Link先を確認
Michael X. Cao, Rahul Jain, Marco Tomamichel, (参考訳) 量子チャネルシミュレーションに必要な最小限の通信を特徴付けることは、量子情報理論の基本的な課題である。 本稿では, 精製された距離において, デ・フィネッティ還元法(de Finetti reduction)と呼ばれる手法を用いることなく, 量子チャネルシミュレーションを量子状態分割法(quantum state splitting)により直接実現できることを示す。 境界を用いて、量子逆シャノン定理をはるかに単純な方法で復元する。

Characterizing the minimal communication needed for the quantum channel simulation is a fundamental task in the quantum information theory. In this paper, we show that, under the purified distance, the quantum channel simulation can be directly achieved via quantum state splitting without using a technique known as the de Finetti reduction, and thus provide a pair of tighter one-shot bounds. Using the bounds, we also recover the quantum reverse Shannon theorem in a much simpler way.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# OA-CNN: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation

OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation ( http://arxiv.org/abs/2403.14418v1 )

ライセンス: Link先を確認
Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia, (参考訳) 2020年代の3D認識のブームは、ポイントクラウドトランスフォーマーの導入から始まった。 彼らはすぐにスパースCNNを圧倒し、特に3Dセマンティックセグメンテーションにおいて最先端のモデルとなった。 しかし、その効率性や使いやすさから、スパースCNNはいまだに貴重なネットワークである。 本研究では,設計上の違いを再検討し,スパースCNNが達成できる限界を検証する。 パフォーマンスの違いの鍵となるのは適応性であることに気付きました。 具体的には、このギャップを埋めるために、適応受容場(親和性)と適応関係という2つの重要な要素を提案する。 この探索によりOmni-Adaptive 3D CNN (OA-CNNs) が開発された。これは軽量モジュールを統合し、最小計算コストでスパースCNNの適応性を大幅に向上させるネットワークのファミリーである。 自己アテンションモジュールがなければ、OA-CNNは屋内と屋外の両方でポイントトランスフォーマーをはるかに上回り、レイテンシとメモリコストが大幅に削減される。 特に、ScanNet v2、nuScenes、SemanticKITTIの検証ベンチマークで76.1%、78.9%、70.6%のmIoUを達成した。 この啓示は、トランスフォーマー関連ネットワークを上回る純粋なスパースCNNの可能性を強調している。

The booming of 3D recognition in the 2020s began with the introduction of point cloud transformers. They quickly overwhelmed sparse CNNs and became state-of-the-art models, especially in 3D semantic segmentation. However, sparse CNNs are still valuable networks, due to their efficiency treasure, and ease of application. In this work, we reexamine the design distinctions and test the limits of what a sparse CNN can achieve. We discover that the key credit to the performance difference is adaptivity. Specifically, we propose two key components, i.e., adaptive receptive fields (spatially) and adaptive relation, to bridge the gap. This exploration led to the creation of Omni-Adaptive 3D CNNs (OA-CNNs), a family of networks that integrates a lightweight module to greatly enhance the adaptivity of sparse CNNs at minimal computational cost. Without any self-attention modules, OA-CNNs favorably surpass point transformers in terms of accuracy in both indoor and outdoor scenes, with much less latency and memory cost. Notably, it achieves 76.1%, 78.9%, and 70.6% mIoU on ScanNet v2, nuScenes, and SemanticKITTI validation benchmarks respectively, while maintaining at most 5x better speed than transformer counterparts. This revelation highlights the potential of pure sparse CNNs to outperform transformer-related networks.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# DP-RDM:微調整なしでドメインに拡散モデルを適用する

DP-RDM: Adapting Diffusion Models to Private Domains Without Fine-Tuning ( http://arxiv.org/abs/2403.14421v1 )

ライセンス: Link先を確認
Jonathan Lebensold, Maziar Sanjabi, Pietro Astolfi, Adriana Romero-Soriano, Kamalika Chaudhuri, Mike Rabbat, Chuan Guo, (参考訳) テキストと画像の拡散モデルはサンプルレベルの記憶に悩まされ、訓練されている画像のほぼ完璧な複製を再現する可能性があるが、それは望ましくないかもしれない。 この問題を解決するために、我々は、プライバシー保証を提供しながら高品質な画像サンプルを生成することができる最初の差分プライベート(DP)検索拡張生成アルゴリズムを開発した。 具体的には、少量の公開データに基づいて訓練されたテキスト間拡散モデルへのアクセスを想定し、DP検索機構を設計し、プライベート検索データセットから検索したサンプルを用いてテキストプロンプトを増強する。 我々は,検索データセットの微調整を必要とせず,最新の生成モデルを用いて,厳密なDP保証を満足しつつ高品質な画像サンプルを生成することができる。 例えば、MS-COCOで評価すると、DP-RDMはプライバシー予算が$\epsilon=10$のサンプルを生成できます。

Text-to-image diffusion models have been shown to suffer from sample-level memorization, possibly reproducing near-perfect replica of images that they are trained on, which may be undesirable. To remedy this issue, we develop the first differentially private (DP) retrieval-augmented generation algorithm that is capable of generating high-quality image samples while providing provable privacy guarantees. Specifically, we assume access to a text-to-image diffusion model trained on a small amount of public data, and design a DP retrieval mechanism to augment the text prompt with samples retrieved from a private retrieval dataset. Our \emph{differentially private retrieval-augmented diffusion model} (DP-RDM) requires no fine-tuning on the retrieval dataset to adapt to another domain, and can use state-of-the-art generative models to generate high-quality image samples while satisfying rigorous DP guarantees. For instance, when evaluated on MS-COCO, our DP-RDM can generate samples with a privacy budget of $\epsilon=10$, while providing a $3.5$ point improvement in FID compared to public-only retrieval for up to $10,000$ queries.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 微分可能シミュレーションと最適化によるeNMPCのタスク最適データ駆動サロゲートモデル

Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization ( http://arxiv.org/abs/2403.14425v1 )

ライセンス: Link先を確認
Daniel Mayfrank, Na Young Ahn, Alexander Mitsos, Manuel Dahmen, (参考訳) 制御における最適性能を実現するために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。 標準強化学習(RL)アルゴリズムを用いた以前のコントリビューションとは対照的に,機械的シミュレーションモデルに基づく環境の潜在的な微分可能性を利用したトレーニングアルゴリズムを用いる。 文献的eNMPCケーススタディにおいて、他のコントローラタイプと比較し、トレーニングアルゴリズムの組み合わせにより、本手法の性能を評価する。 提案手法はこの問題に対して優れた性能を示し,ダイナミックサロゲートモデルを用いたより有能な制御器への道を開く。

We present a method for end-to-end learning of Koopman surrogate models for optimal performance in control. In contrast to previous contributions that employ standard reinforcement learning (RL) algorithms, we use a training algorithm that exploits the potential differentiability of environments based on mechanistic simulation models. We evaluate the performance of our method by comparing it to that of other controller type and training algorithm combinations on a literature known eNMPC case study. Our method exhibits superior performance on this problem, thereby constituting a promising avenue towards more capable controllers that employ dynamic surrogate models.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 言語モデルにおける創発的コミュニケーションと学習圧力--言語進化の視点から

Emergent communication and learning pressures in language models: a language evolution perspective ( http://arxiv.org/abs/2403.14427v1 )

ライセンス: Link先を確認
Lukas Galke, Limor Raviv, (参考訳) 言語モデルと人間は2種類の学習システムである。 共通点の発見や促進は、言語の獲得と進化に対する私たちの理解に大きなブレークスルーをもたらす可能性がある。 言語進化の多くの理論は、学習バイアスと学習圧力に大きく依存している。 しかし、学習のプレッシャーがかなり異なるため、人間と機械の類似性は、人間の参加者とテストする価値のある洞察に十分かどうか疑わしい。 本稿では,言語進化の観点から,多エージェント強化学習のサブフィールドである創発的コミュニケーション文献を概観する。 創発的なコミュニケーション文献は、自然言語の初期の欠落した言語現象を復元するためのモデルの設計と適応に長けている。 短い文献レビューに基づいて、コミュニケーションの成功、効率性、学習可能性、その他の心理・社会言語学的要因など、創発的コミュニケーションモデルにおいて、当初欠落していた人間のパターンを回復した重要なプレッシャーを同定する。 これは言語習得と言語進化研究のための言語モデルを設計する方法のインスピレーションになるかもしれない、と我々は主張する。

Language models and humans are two types of learning systems. Finding or facilitating commonalities could enable major breakthroughs in our understanding of the acquisition and evolution of language. Many theories of language evolution rely heavily on learning biases and learning pressures. Yet due to substantial differences in learning pressures, it is questionable whether the similarity between humans and machines is sufficient for insights to carry over and to be worth testing with human participants. Here, we review the emergent communication literature, a subfield of multi-agent reinforcement learning, from a language evolution perspective. We find that the emergent communication literature excels at designing and adapting models to recover initially absent linguistic phenomena of natural languages. Based on a short literature review, we identify key pressures that have recovered initially absent human patterns in emergent communication models: communicative success, efficiency, learnability, and other psycho-/sociolinguistic factors. We argue that this may serve as inspiration for how to design language models for language acquisition and language evolution research.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# FHAUC:完全同型暗号を用いたフェデレーション学習のためのプライバシ保護型AUC計算

FHAUC: Privacy Preserving AUC Calculation for Federated Learning using Fully Homomorphic Encryption ( http://arxiv.org/abs/2403.14428v1 )

ライセンス: Link先を確認
Cem Ata Baykara, Ali Burak Ünal, Mete Akgün, (参考訳) データプライバシの確保は、モデルトレーニング中だけでなく、評価中においても、マシンラーニングアプリケーションにとって重要な課題である。 フェデレーテッド・ラーニングは近年、大きな研究の関心を集めている。 連合学習に関する現在の研究は、主にトレーニング期間中のプライバシの保護に焦点を当てている。 しかし、この段階での重大なプライバシー漏洩の可能性にもかかわらず、モデル評価は適切に対処されていない。 本稿では、差分プライバシを利用するフェデレーション学習システムにおける最先端のAUC計算手法が、信頼性の高い中央エンティティを必要としながら、テストデータに関する機密情報を漏洩していることを示す。 さらに,データサイズが小さくなるにつれて,本手法の性能が完全に損なわれることを示す。 本稿では,AUCを水平連合型学習システムで計算可能な,効率的で正確で,堅牢で,よりセキュアな評価アルゴリズムを提案する。 提案手法は,現状技術よりもセキュリティを向上するだけでなく,実験結果から示すように,近似性能と計算堅牢性の両方において,最先端のAUC計算手法を超越する。 提案手法は,データサイズに関係なく,100のパーティを含む連合学習システムのAUCを効率よく計算し,99.93%の精度をわずか0.68秒で達成し,完全なデータプライバシを提供する。

Ensuring data privacy is a significant challenge for machine learning applications, not only during model training but also during evaluation. Federated learning has gained significant research interest in recent years as a result. Current research on federated learning primarily focuses on preserving privacy during the training phase. However, model evaluation has not been adequately addressed, despite the potential for significant privacy leaks during this phase as well. In this paper, we demonstrate that the state-of-the-art AUC computation method for federated learning systems, which utilizes differential privacy, still leaks sensitive information about the test data while also requiring a trusted central entity to perform the computations. More importantly, we show that the performance of this method becomes completely unusable as the data size decreases. In this context, we propose an efficient, accurate, robust, and more secure evaluation algorithm capable of computing the AUC in horizontal federated learning systems. Our approach not only enhances security compared to the current state-of-the-art but also surpasses the state-of-the-art AUC computation method in both approximation performance and computational robustness, as demonstrated by experimental results. To illustrate, our approach can efficiently calculate the AUC of a federated learning system involving 100 parties, achieving 99.93% accuracy in just 0.68 seconds, regardless of data size, while providing complete data privacy.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 半監督的病理組織分離のためのスタイル抽出拡散モデル

Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation ( http://arxiv.org/abs/2403.14429v1 )

ライセンス: Link先を確認
Mathias Öttl, Frauke Wilm, Jana Steenpass, Jingna Qiu, Matthias Rübner, Arndt Hartmann, Matthias Beckmann, Peter Fasching, Andreas Maier, Ramona Erber, Bernhard Kainz, Katharina Breininger, (参考訳) 深層学習に基づく画像生成は拡散モデルによって著しく進歩し、特に生成画像の品質が向上した。 これらの発展にもかかわらず、下流作業に有用な特徴のない画像を生成することは、あまり注目されていない。 このギャップを埋めるために,2つの条件付け機構を備えたスタイル抽出拡散モデルを提案する。 具体的には 1)画像生成時の未確認画像のスタイル情報を注入できるスタイル条件付け機構 2) ダウンストリームタスク,例えばセグメンテーションのレイアウトを対象とするコンテントコンディショニング。 画像からスタイル情報を抽出するトレーニング可能なスタイルエンコーダと、複数のスタイル入力からスタイル情報をマージする集約ブロックを導入する。 このアーキテクチャにより、見えない画像のスタイルを活用することにより、目に見えないスタイルの画像をゼロショットで生成することが可能となり、より多様な世代が生まれる。 本研究では,画像レイアウトを目標条件として使用し,まず自然画像データセット上での手法の有効性を概念実証として示す。 組織組成に関する事前の知識と注釈のないデータを組み合わせて、既知のレイアウトを持つ多様な合成画像を作成するという、組織病理学におけるその汎用性をさらに実証する。 これにより、半教師付き方式でセグメンテーションネットワークをトレーニングするために、追加の合成データを生成することができる。 本研究では, セグメンテーショントレーニングにおいて, 合成画像に含まれる患者間でのセグメンテーション結果の改善と, パフォーマンス変動の低減により, 生成画像の付加価値を検証した。 私たちのコードは[LINK]で公開されます。

Deep learning-based image generation has seen significant advancements with diffusion models, notably improving the quality of generated images. Despite these developments, generating images with unseen characteristics beneficial for downstream tasks has received limited attention. To bridge this gap, we propose Style-Extracting Diffusion Models, featuring two conditioning mechanisms. Specifically, we utilize 1) a style conditioning mechanism which allows to inject style information of previously unseen images during image generation and 2) a content conditioning which can be targeted to a downstream task, e.g., layout for segmentation. We introduce a trainable style encoder to extract style information from images, and an aggregation block that merges style information from multiple style inputs. This architecture enables the generation of images with unseen styles in a zero-shot manner, by leveraging styles from unseen images, resulting in more diverse generations. In this work, we use the image layout as target condition and first show the capability of our method on a natural image dataset as a proof-of-concept. We further demonstrate its versatility in histopathology, where we combine prior knowledge about tissue composition and unannotated data to create diverse synthetic images with known layouts. This allows us to generate additional synthetic data to train a segmentation network in a semi-supervised fashion. We verify the added value of the generated images by showing improved segmentation results and lower performance variability between patients when synthetic images are included during segmentation training. Our code will be made publicly available at [LINK].
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 不十分なラベルを用いたオープンエンディングビデオ質問応答のためのランク付け蒸留法

Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels ( http://arxiv.org/abs/2403.14430v1 )

ライセンス: Link先を確認
Tianming Liang, Chaolei Tan, Beihao Xia, Wei-Shi Zheng, Jian-Fang Hu, (参考訳) 本稿では,ビデオ関連質問に対する応答として,大きめの回答から正しい回答を見つけることを目的とした,オープンなビデオ質問応答に焦点を当てた。 これは本質的には、質問には複数の答えがあるため、多ラベル分類タスクである。 しかしながら、アノテーションのコストのため、既存のベンチマークのラベルは常に極めて不十分であり、1つの質問に対して通常1つの回答がある。 結果として、既存の研究は、ラベル付けされていない全ての答えを直接負のラベルとして扱う傾向にあり、一般化の能力が制限される。 そこで本研究では,手作業によるアノテーションを伴わずにこの問題を軽減するため,簡易かつ効果的なランキング蒸留フレームワーク (RADI) を提案する。 RADIは、ラベルの優先順位に関する豊富な知識とラベル関連視覚的手がかりを含む潜在的な回答のランク付けを生成するために、不完全なラベルで訓練された教師モデルを用いている。 不完全な教師モデルの過度な信頼を避けるために、適応的ソフトマージンを導入し、様々なペアワイズランキングの最適化制約を動的に洗練するペアワイズ・アプローチと、サンプリングに基づく部分リストワイズ学習を採用して教師ランキングのバイアスに抵抗するリストワイズ・アプローチという、2つの堅牢かつパラメータフリーなランキング蒸留手法を提案する。 5つの人気のあるベンチマークの大規模な実験は、我々のペアワイドとリストワイドのRADIが最先端の手法より優れていることを一貫して示している。 さらなる分析により,提案手法が不十分なラベル付け問題に与える影響が示された。

This paper focuses on open-ended video question answering, which aims to find the correct answers from a large answer set in response to a video-related question. This is essentially a multi-label classification task, since a question may have multiple answers. However, due to annotation costs, the labels in existing benchmarks are always extremely insufficient, typically one answer per question. As a result, existing works tend to directly treat all the unlabeled answers as negative labels, leading to limited ability for generalization. In this work, we introduce a simple yet effective ranking distillation framework (RADI) to mitigate this problem without additional manual annotation. RADI employs a teacher model trained with incomplete labels to generate rankings for potential answers, which contain rich knowledge about label priority as well as label-associated visual cues, thereby enriching the insufficient labeling information. To avoid overconfidence in the imperfect teacher model, we further present two robust and parameter-free ranking distillation approaches: a pairwise approach which introduces adaptive soft margins to dynamically refine the optimization constraints on various pairwise rankings, and a listwise approach which adopts sampling-based partial listwise learning to resist the bias in teacher ranking. Extensive experiments on five popular benchmarks consistently show that both our pairwise and listwise RADIs outperform state-of-the-art methods. Further analysis demonstrates the effectiveness of our methods on the insufficient labeling problem.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 強化学習と最適制御における値関数の連続性と滑らか性について

On the continuity and smoothness of the value function in reinforcement learning and optimal control ( http://arxiv.org/abs/2403.14432v1 )

ライセンス: Link先を確認
Hans Harder, Sebastian Peitz, (参考訳) 値関数は、エージェントが強化学習と最適制御の両方で受ける累積的未来報酬の尺度として重要な役割を果たす。 したがって、隣り合う状態の値がどの程度類似しているか、すなわち値関数の連続性を研究することは興味がある。 我々は、値関数の連続性のモジュラリティに関する上限を提供し、検証する。 さらに、基底系上の比較的弱い仮定の下では、値関数は常に H より古い連続であり、微分不可能な値関数は、系の少しの「乱れ」によって微分可能であることを示す。

The value function plays a crucial role as a measure for the cumulative future reward an agent receives in both reinforcement learning and optimal control. It is therefore of interest to study how similar the values of neighboring states are, i.e., to investigate the continuity of the value function. We do so by providing and verifying upper bounds on the value function's modulus of continuity. Additionally, we show that the value function is always H\"older continuous under relatively weak assumptions on the underlying system and that non-differentiable value functions can be made differentiable by slightly "disturbing" the system.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# Biased Binary Attribute Classifiers Ignore the Majority Classs

Biased Binary Attribute Classifiers Ignore the Majority Classes ( http://arxiv.org/abs/2403.14435v1 )

ライセンス: Link先を確認
Xinyi Zhang, Johanna Sophie Bieri, Manuel Günther, (参考訳) 分類器が決定を下す関心領域を視覚化するため,クラス活性化マッピング(CAM)法が開発されている。 しかしながら、これらの手法はすべて分類器のみを対象としているが、現実のタスクのほとんどは二項分類である。 本稿では,勾配に基づくCAM手法を拡張して二項分類器と併用し,二項属性分類器のアクティブ領域を可視化する。 アンバランスなバイナリ分類器を不均衡なデータセットでトレーニングする場合、大多数のクラス、すなわち多くのトレーニングサンプルを持つクラスは、ほとんどトレーニングインスタンスを持たないマイノリティークラスよりもはるかに良く予測されていることが知られている。 CelebAデータセットを用いた実験では、アンバランスな分類器を訓練して40の顔属性を同時に抽出する場合に、これらの結果を検証する。 偏見付き分類器は、主に多数クラスの特徴を抽出することを学び、アクティベーションの比例エネルギーは、属性が位置する画像の特定の領域に主に存在することを期待する。 しかし、多数派階級のサンプルの定期的な活性化はほとんど見られず、少数派階級のアクティブな領域は概ね合理的で、我々の期待と重なるように思われる。 これらの結果は、偏見分類器は、主に多数派クラスの偏見アクティベーションに依存していることを示唆している。 属性固有のクラスウェイトを用いて不均衡データ上でバランスの取れた分類器を訓練する場合、多数派と少数派は同様に分類され、ほぼ全ての属性に対して期待される活性化を示す。

To visualize the regions of interest that classifiers base their decisions on, different Class Activation Mapping (CAM) methods have been developed. However, all of these techniques target categorical classifiers only, though most real-world tasks are binary classification. In this paper, we extend gradient-based CAM techniques to work with binary classifiers and visualize the active regions for binary facial attribute classifiers. When training an unbalanced binary classifier on an imbalanced dataset, it is well-known that the majority class, i.e. the class with many training samples, is mostly predicted much better than minority class with few training instances. In our experiments on the CelebA dataset, we verify these results, when training an unbalanced classifier to extract 40 facial attributes simultaneously. One would expect that the biased classifier has learned to extract features mainly for the majority classes and that the proportional energy of the activations mainly reside in certain specific regions of the image where the attribute is located. However, we find very little regular activation for samples of majority classes, while the active regions for minority classes seem mostly reasonable and overlap with our expectations. These results suggest that biased classifiers mainly rely on bias activation for majority classes. When training a balanced classifier on the imbalanced data by employing attribute-specific class weights, majority and minority classes are classified similarly well and show expected activations for almost all attributes
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 量子最適制御のためのスペクトル法:人工境界条件

Spectral Methods for Quantum Optimal Control: Artificial Boundary Conditions ( http://arxiv.org/abs/2403.14436v1 )

ライセンス: Link先を確認
Ales Wodecki, Jakub Marecek, Vyacheslav Kungurtsev, Pavel Eichler, Georgios Korpas, Philip Intallura, (参考訳) 量子状態の準備の問題は、量子優位性を達成する上での大きな課題の1つである。 さらに、古典的には、マルチレベル問題に対して、対応する量子最適制御問題を解く能力は比較的限られている。 後者が前者に与える能力は、量子コンピューティングにおいて大きな進歩をもたらす可能性がある。 この課題に対処するために、スペクトル法と組み合わせて、Schr\"odinger方程式の人工境界条件を利用する量子最適制御の定式化を提案する。 得られた定式化は周期ポテンシャルの調査に適しており、従来の境界領域の手法を用いて直接数値処理に役立てる。

The problem of quantum state preparation is one of the main challenges in achieving the quantum advantage. Furthermore, classically, for multi-level problems, our ability to solve the corresponding quantum optimal control problems is rather limited. The ability of the latter to feed into the former may result in significant progress in quantum computing. To address this challenge, we propose a formulation of quantum optimal control that makes use of artificial boundary conditions for the Schr\"odinger equation in combination with spectral methods. The resulting formulations are well suited for investigating periodic potentials and lend themselves to direct numerical treatment using conventional methods for bounded domains.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 大規模言語モデルを用いたデバイス指向音声検出へのマルチモーダルアプローチ

A Multimodal Approach to Device-Directed Speech Detection with Large Language Models ( http://arxiv.org/abs/2403.14438v1 )

ライセンス: Link先を確認
Dominik Wager, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi, Aarshee Mishra, Erik Marchi, (参考訳) 仮想アシスタントとのインタラクションは通常、事前に定義されたトリガーフレーズから始まり、その後にユーザコマンドが続く。 アシスタントとの対話をより直感的にするために、ユーザがトリガーフレーズで各コマンドを起動しなければならないという要求を省くことが可能かどうかを検討する。 まず、音声波形から得られた音響情報のみを用いて分類器を訓練する。 第2に,大規模言語モデル(LLM)の入力特徴として,1-best仮説などの自動音声認識(ASR)システムのデコーダ出力を用いる。 最後に、LLMにおけるASRデコーダ信号と同様に、音響的特徴と語彙的特徴を組み合わせたマルチモーダルシステムについて検討する。 マルチモーダル情報を使用することで、テキストのみのモデルとオーディオのみのモデルに対して、最大39%と61%のエラーレートが相対的に向上する。 LLMのサイズを増大させ、低ランク適応によるトレーニングを行うことで、データセット上でEERを最大18%削減することが可能になる。

Interactions with virtual assistants typically start with a predefined trigger phrase followed by the user command. To make interactions with the assistant more intuitive, we explore whether it is feasible to drop the requirement that users must begin each command with a trigger phrase. We explore this task in three ways: First, we train classifiers using only acoustic information obtained from the audio waveform. Second, we take the decoder outputs of an automatic speech recognition (ASR) system, such as 1-best hypotheses, as input features to a large language model (LLM). Finally, we explore a multimodal system that combines acoustic and lexical features, as well as ASR decoder signals in an LLM. Using multimodal information yields relative equal-error-rate improvements over text-only and audio-only models of up to 39% and 61%. Increasing the size of the LLM and training with low-rank adaption leads to further relative EER reductions of up to 18% on our dataset.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# Raw Instinct: 分類器を信頼し、変換をスキップする

Raw Instinct: Trust Your Classifiers and Skip the Conversion ( http://arxiv.org/abs/2403.14439v1 )

ライセンス: Link先を確認
Christos Kantas, Bjørk Antoniussen, Mathias V. Andersen, Rasmus Munksø, Shobhit Kotnala, Simon B. Jensen, Andreas Møgelmose, Lau Nørgaard, Thomas B. Moeslund, (参考訳) コンピュータビジョン問題におけるRAW-imagesの使用は、RAWからRGBへの変換が新たなキャプチャ情報を導入しないことを考えると、驚くほど過小評価されている。 本稿では,RGBと比較して,RAW入力に対して十分な高度な分類器が等価な結果を得られることを示し,RAW画像と対応する変換RGB画像からなる新しい公開データセットを提案する。 RAWから直接画像を分類することは、RGBへの変換をスキップでき、計算時間を著しく短縮できるので、魅力的である。 2つのCNN分類器を使用して、両方のフォーマットで画像を分類し、分類性能を実際に保持できることを確認する。 さらに、RAW画像データからRAW画像の分類結果までの計算時間は、RGBよりも最大8.46倍高速であることを示す。 これらの結果は、RAW画像をコンピュータビジョンアルゴリズムへの直接入力として使用するという、関連する研究で発見された証拠に寄与する。

Using RAW-images in computer vision problems is surprisingly underexplored considering that converting from RAW to RGB does not introduce any new capture information. In this paper, we show that a sufficiently advanced classifier can yield equivalent results on RAW input compared to RGB and present a new public dataset consisting of RAW images and the corresponding converted RGB images. Classifying images directly from RAW is attractive, as it allows for skipping the conversion to RGB, lowering computation time significantly. Two CNN classifiers are used to classify the images in both formats, confirming that classification performance can indeed be preserved. We furthermore show that the total computation time from RAW image data to classification results for RAW images can be up to 8.46 times faster than RGB. These results contribute to the evidence found in related works, that using RAW images as direct input to computer vision algorithms looks very promising.
翻訳日:2024-03-22 13:59:14 公開日:2024-03-21
# 医用画像における拡散セグメンテーションの解析

Analysing Diffusion Segmentation for Medical Images ( http://arxiv.org/abs/2403.14440v1 )

ライセンス: Link先を確認
Mathias Öttl, Siyuan Mei, Frauke Wilm, Jana Steenpass, Matthias Rübner, Arndt Hartmann, Matthias Beckmann, Peter Fasching, Andreas Maier, Ramona Erber, Katharina Breininger, (参考訳) 拡散確率モデル(Diffusion Probabilistic Model)は、確率的モデリングを提供し、多様な出力を生成する能力によって人気が高まっている。 この汎用性は、画像セグメンテーションへの適応にインスピレーションを与え、そこでは、モデルの複数の予測が、高い品質を達成するだけでなく、モデルに固有の不確実性も捉えることのできるセグメンテーション結果を生成することができる。 ここでは拡散セグメンテーション性能を向上させるために強力なアーキテクチャが提案されている。 しかし,拡散セグメンテーションと画像生成の相違に関する分析や議論は目覚ましいものであり,これらのアーキテクチャが拡散セグメンテーションのメリットを特に有する点から,それらのセグメンテーションにもたらす改善を区別する徹底的な評価が欠落している。 本研究では,医用画像の拡散分割が拡散画像生成とどのように異なるのかを批判的に分析し,特にトレーニング行動に着目して議論する。 さらに,提案した拡散分割アーキテクチャが,直接セグメンテーションを訓練した場合にどのように機能するかを評価する。 最後に,異なる医療セグメンテーションタスクが拡散セグメンテーションの挙動にどのように影響するかを検討する。 これらの分析により,拡散セグメンテーションの挙動を詳細に把握し,将来的な拡散セグメンテーション手法の設計と評価を行う。

Denoising Diffusion Probabilistic models have become increasingly popular due to their ability to offer probabilistic modeling and generate diverse outputs. This versatility inspired their adaptation for image segmentation, where multiple predictions of the model can produce segmentation results that not only achieve high quality but also capture the uncertainty inherent in the model. Here, powerful architectures were proposed for improving diffusion segmentation performance. However, there is a notable lack of analysis and discussions on the differences between diffusion segmentation and image generation, and thorough evaluations are missing that distinguish the improvements these architectures provide for segmentation in general from their benefit for diffusion segmentation specifically. In this work, we critically analyse and discuss how diffusion segmentation for medical images differs from diffusion image generation, with a particular focus on the training behavior. Furthermore, we conduct an assessment how proposed diffusion segmentation architectures perform when trained directly for segmentation. Lastly, we explore how different medical segmentation tasks influence the diffusion segmentation behavior and the diffusion process could be adapted accordingly. With these analyses, we aim to provide in-depth insights into the behavior of diffusion segmentation that allow for a better design and evaluation of diffusion segmentation methods in the future.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# RoDLA:ドキュメントレイアウト分析モデルのロバストさのベンチマーク

RoDLA: Benchmarking the Robustness of Document Layout Analysis Models ( http://arxiv.org/abs/2403.14442v1 )

ライセンス: Link先を確認
Yufan Chen, Jiaming Zhang, Kunyu Peng, Junwei Zheng, Ruiping Liu, Philip Torr, Rainer Stiefelhagen, (参考訳) 実世界のアプリケーションでドキュメントレイアウト分析(DLA)モデルを開発する前に、包括的な堅牢性テストを実施することが不可欠である。 しかし、DLAモデルのロバスト性は文献では未解明のままである。 これを解決するために,3つのデータセットの450Kのドキュメントイメージを含む,DLAモデルの堅牢性ベンチマークを最初に導入しました。 そこで本研究では,現実の文書処理に触発された36の共用文書摂動を伴う摂動分類を提案する。 さらに、文書摂動の影響をよりよく理解するために、摂動評価のための平均摂動効果(mPE)と頑健性評価のための平均ロバストネス劣化(mRD)の2つの指標を提案する。 さらに、ロバスト文書レイアウトアナライザー(RoDLA)と呼ばれる自己タイトルモデルを導入し、ロバストな特徴の抽出を促進するための注意機構を改善した。 提案されたベンチマーク(PubLayNet-P、DocLayNet-P、M$^6$Doc-P)では、RoDLAがそれぞれ115.7、135.4、150.4の最先端のmRDスコアを得ることを示した。 従来の方法と比較して、RoDLAはmAPが+3.8%、+7.1%、+12.1%で顕著に改善されている。

Before developing a Document Layout Analysis (DLA) model in real-world applications, conducting comprehensive robustness testing is essential. However, the robustness of DLA models remains underexplored in the literature. To address this, we are the first to introduce a robustness benchmark for DLA models, which includes 450K document images of three datasets. To cover realistic corruptions, we propose a perturbation taxonomy with 36 common document perturbations inspired by real-world document processing. Additionally, to better understand document perturbation impacts, we propose two metrics, Mean Perturbation Effect (mPE) for perturbation assessment and Mean Robustness Degradation (mRD) for robustness evaluation. Furthermore, we introduce a self-titled model, i.e., Robust Document Layout Analyzer (RoDLA), which improves attention mechanisms to boost extraction of robust features. Experiments on the proposed benchmarks (PubLayNet-P, DocLayNet-P, and M$^6$Doc-P) demonstrate that RoDLA obtains state-of-the-art mRD scores of 115.7, 135.4, and 150.4, respectively. Compared to previous methods, RoDLA achieves notable improvements in mAP of +3.8%, +7.1% and +12.1%, respectively.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 言語モデルによる情報市場における非対称性の低減

Language Models Can Reduce Asymmetry in Information Markets ( http://arxiv.org/abs/2403.14443v1 )

ライセンス: Link先を確認
Nasim Rahaman, Martin Weiss, Manuel Wüthrich, Yoshua Bengio, Li Erran Li, Chris Pal, Bernhard Schölkopf, (参考訳) 本研究は、情報市場における買い手の検査パラドックスに対処する。 パラドックスは、買い手はその価値を決定するために情報にアクセスする必要があり、売り手は盗難を防ぐためにアクセスを制限する必要があることである。 そこで我々は,言語モデルを利用した知的エージェントが,外部参加者に代わって情報を売買・販売する,オープンソースのシミュレート・デジタル・マーケットプレースを紹介した。 このマーケットプレースを実現する中心的なメカニズムはエージェントの二重機能であり、それらは特権情報の品質を評価する能力を持つだけでなく、忘れる能力も備えている。 このアムネシアを誘発する能力により、ベンダーはプロプライエタリな情報への一時的なアクセスを許可することができ、許可されていない保持のリスクを著しく低減し、エージェントは特定のクエリやタスクに対する情報の関連性を正確に評価することができる。 適切に行動するためには、エージェントは合理的な判断をし、生成されたサブクエリを通じて市場を戦略的に探索し、購入した情報から回答を合成する必要がある。 具体的には、我々の実験 (a)不合理な行動につながる言語モデルのバイアスを明らかにし、これらのバイアスを軽減する技術を評価する。 ロ 情報商品の文脈において、物価が需要にどう影響するか、及び (c) 検査と高い予算の両方がより高い品質の成果をもたらすことを示す。

This work addresses the buyer's inspection paradox for information markets. The paradox is that buyers need to access information to determine its value, while sellers need to limit access to prevent theft. To study this, we introduce an open-source simulated digital marketplace where intelligent agents, powered by language models, buy and sell information on behalf of external participants. The central mechanism enabling this marketplace is the agents' dual capabilities: they not only have the capacity to assess the quality of privileged information but also come equipped with the ability to forget. This ability to induce amnesia allows vendors to grant temporary access to proprietary information, significantly reducing the risk of unauthorized retention while enabling agents to accurately gauge the information's relevance to specific queries or tasks. To perform well, agents must make rational decisions, strategically explore the marketplace through generated sub-queries, and synthesize answers from purchased information. Concretely, our experiments (a) uncover biases in language models leading to irrational behavior and evaluate techniques to mitigate these biases, (b) investigate how price affects demand in the context of informational goods, and (c) show that inspection and higher budgets both lead to higher quality outcomes.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 単なる統計的再帰以上のこと--形態的過程におけるMāori単語セグメンテーションの人間と機械による教師なし学習

More than Just Statistical Recurrence: Human and Machine Unsupervised Learning of Māori Word Segmentation across Morphological Processes ( http://arxiv.org/abs/2403.14444v1 )

ライセンス: Link先を確認
Ashvini Varatharaj, Simon Todd, (参考訳) 非M\=アオリ語を話すニュージーランド人(NMS)は、M\=アオリ語を流線型話者(Panther et al ,2024)と非常に類似した方法で分類することができる。 この能力は、統計的に反復する形式の同定と抽出によって引き起こされると仮定される。 本研究では,NMSセグメンテーションとMorfessorの非教師なし機械学習モデルとを,様々な形態的プロセスによって形成された単語間でどのように比較するかを問うことで,この仮定を考察する。 NMSとMorfessorはどちらも、結合過程(アロモルフィスを含まない結合や接尾辞)によって形成される単語のセグメンテーションに成功しているが、NMSはテンプレート(複製やアロモルフィス)や他の形態構造を誘導する単語にも成功しており、学習過程が単に統計的再発に敏感であることを示している。

Non-M\=aori-speaking New Zealanders (NMS)are able to segment M\=aori words in a highlysimilar way to fluent speakers (Panther et al.,2024). This ability is assumed to derive through the identification and extraction of statistically recurrent forms. We examine this assumption by asking how NMS segmentations compare to those produced by Morfessor, an unsupervised machine learning model that operates based on statistical recurrence, across words formed by a variety of morphological processes. Both NMS and Morfessor succeed in segmenting words formed by concatenative processes (compounding and affixation without allomorphy), but NMS also succeed for words that invoke templates (reduplication and allomorphy) and other cues to morphological structure, implying that their learning process is sensitive to more than just statistical recurrence.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# ロボットの視点からの3次元人物位置推定と予測:HARPERデータセット

Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset ( http://arxiv.org/abs/2403.14447v1 )

ライセンス: Link先を確認
Andrea Avogaro. Andrea Toaiari, Federico Cunico, Xiangmin Xu, Haralambos Dafas, Alessandro Vinciarelli, Emma Li, Marco Cristani, (参考訳) 我々は,ボストン・ダイナミクスが製造する四足歩行ロボットであるShaspotとユーザ間のダイアドインタラクションにおける3Dボディポーズ推定と予測のための新しいデータセットであるHARPERを紹介した。 キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。 これらの3Dボディのポーズ分析は、地面の近くにいると部分的にしか人間を捕えることができないため、難しい。 HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。 コーパスはSpotの内蔵ステレオカメラの録音だけでなく、6カメラのOptiTrackシステム(すべての録音は同期)の録音も含んでいる。 これにより、1ミリ未満の精度で骨格の地上構造が表現される。 さらに、コーパスには、公開ベースラインアプローチに基づいた、3Dヒューマンポース推定、ヒューマンポース予測、コリジョン予測の再現可能なベンチマークが含まれている。 これにより、将来のHARPERユーザは、この作業で提供する結果と厳格に比較することができます。

We introduce HARPER, a novel dataset for 3D body pose estimation and forecast in dyadic interactions between users and \spot, the quadruped robot manufactured by Boston Dynamics. The key-novelty is the focus on the robot's perspective, i.e., on the data captured by the robot's sensors. These make 3D body pose analysis challenging because being close to the ground captures humans only partially. The scenario underlying HARPER includes 15 actions, of which 10 involve physical contact between the robot and users. The Corpus contains not only the recordings of the built-in stereo cameras of Spot, but also those of a 6-camera OptiTrack system (all recordings are synchronized). This leads to ground-truth skeletal representations with a precision lower than a millimeter. In addition, the Corpus includes reproducible benchmarks on 3D Human Pose Estimation, Human Pose Forecasting, and Collision Prediction, all based on publicly available baseline approaches. This enables future HARPER users to rigorously compare their results with those we provide in this work.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 量子プライバシーメカニズムのための最大$α$-Leakage

Maximal $α$-Leakage for Quantum Privacy Mechanisms ( http://arxiv.org/abs/2403.14450v1 )

ライセンス: Link先を確認
Bo-Yu Yang, Hsuan Yu, Hao-Chung Cheng, (参考訳) この研究で最大$\alpha$-leakageを導入し、量子プライバシーメカニズムを通じて乱れたバージョンを観察することで、量子敵がデータの機密情報についてどれだけの量を学ぶことができるかを定量化する。 まず,最適測定値を用いた相手の最大値$\alpha$-geinが,条件付きR'enyiエントロピーによって特徴づけられることを示す。 これはK\"onig et al's famous guessing probability formula [IEEE Trans. Inf. Theory, 55(9), 2009] のパラメトリック一般化と見なすことができる。 次に,量子プライバシー機構の最大値である$\alpha$-leakageと$\alpha$-leakageは,それぞれ有本情報とR'enyiキャパシティによって決定されることを示す。 データ処理の不等式や組成特性など,最大$\alpha$-leakageの様々な特性が確立されている。 さらに、同一かつ独立な量子プライバシー機構のための正規化$\alpha$-leakageと正規化$\alpha$-leakageは、それぞれ$\alpha$-tilted sandwiched R\'enyi情報とサンドイッチR\enyiキャパシティに一致することを示す。

In this work, maximal $\alpha$-leakage is introduced to quantify how much a quantum adversary can learn about any sensitive information of data upon observing its disturbed version via a quantum privacy mechanism. We first show that an adversary's maximal expected $\alpha$-gain using optimal measurement is characterized by measured conditional R\'enyi entropy. This can be viewed as a parametric generalization of K\"onig et al.'s famous guessing probability formula [IEEE Trans. Inf. Theory, 55(9), 2009]. Then, we prove that the $\alpha$-leakage and maximal $\alpha$-leakage for a quantum privacy mechanism are determined by measured Arimoto information and measured R\'enyi capacity, respectively. Various properties of maximal $\alpha$-leakage, such as data processing inequality and composition property are established as well. Moreover, we show that regularized $\alpha$-leakage and regularized maximal $\alpha$-leakage for identical and independent quantum privacy mechanisms coincide with $\alpha$-tilted sandwiched R\'enyi information and sandwiched R\'enyi capacity, respectively.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 1dポテンシャルの新しいモデルにおけるDOSの解析的発現とそのランダム摂動

Analytic expression of the DOS for a new model of 1d-potential and its random perturbation ( http://arxiv.org/abs/2403.14453v1 )

ライセンス: Link先を確認
Hakim Boumaza, Olivier Lafitte, (参考訳) 本稿では、ある周期ポテンシャルに対する一次元シュリンガー作用素のスペクトルと、その有限個のサイトへの制限の比較を示す。 我々は、この有限だが多数のサイトから導出するハミルトニアン作用素に付随する積分状態密度(IDS)を導出する。 IDSの正確な公式が与えられ、DOSの式は解析的である。 全ての計算は特定の周期的 Airy-potential 上で行われ、DOS の解析的表現を持つ新しいケースである。 それは連続的で周期的なポテンシャルであり、断片的なアフィンである。 周期作用素として、スペクトルは帯域スペクトルである。

In this article we present comparisons between the spectrum of a one-dimensional Schr\"odinger operator for a particular periodic potential and for its restriction to a finite number of sites. We deduce from this finite, but large, number of sites, the Integrated Density of States (IDS) associated to the Hamiltonian operator whose derivate is the DOS. The exact formula for the IDS is given and the expression of the DOS is analytical. All our calculations are done on the particular periodic Airy-potential, which is a new case for which one has an analytical expression of the DOS. It is a continuous, periodic potential, piecewise affine. As a periodic operator, the spectrum is a band spectrum.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 翻訳過程における翻訳手法の予測

Prediction of Translation Techniques for the Translation Process ( http://arxiv.org/abs/2403.14454v1 )

ライセンス: Link先を確認
Fan Zhou, Vincent Vandeghinste, (参考訳) 機械翻訳(MT)は、翻訳の精度を高めるための様々な手法を含んでいる。 対照的に、人為翻訳のプロセスは、言語的妥当性と流布の確保に不可欠である幅広い翻訳技術に依存している。 本研究は,これらの翻訳技術が,翻訳プロセスを効果的に導くために適用される前に,機械翻訳が自動的に識別される場合,さらに最適化できることを示唆する。 この研究は、翻訳プロセスの2つのシナリオ、すなわち from-scratch 翻訳と post-editing を区別する。 各シナリオに対して、最も適切な翻訳テクニックを予測するために、特定の実験セットが設計されている。 以上の結果から, 翻訳後の予測精度は82%, 編集後の予測精度は93%であった。

Machine translation (MT) encompasses a variety of methodologies aimed at enhancing the accuracy of translations. In contrast, the process of human-generated translation relies on a wide range of translation techniques, which are crucial for ensuring linguistic adequacy and fluency. This study suggests that these translation techniques could further optimize machine translation if they are automatically identified before being applied to guide the translation process effectively. The study differentiates between two scenarios of the translation process: from-scratch translation and post-editing. For each scenario, a specific set of experiments has been designed to forecast the most appropriate translation techniques. The findings indicate that the predictive accuracy for from-scratch translation reaches 82%, while the post-editing process exhibits even greater potential, achieving an accuracy rate of 93%.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 非マルコフ皮膚効果

Non-Markovian skin effect ( http://arxiv.org/abs/2403.14455v1 )

ライセンス: Link先を確認
Po-Chen Kuo, Shen-Liang Yang, Neill Lambert, Jhen-Dong Lin, Yi-Te Huang, Franco Nori, Yueh-Nan Chen, (参考訳) リウヴィリアスキン効果と非エルミートスキン効果はどちらも系の境界付近の固有モデムの局在を説明するために用いられてきたが、前者は量子ジャンプの組み入れにより明らかに正確である。 しかしながら、これらのフレームワークは主にマルコフの弱い相互作用に焦点を当てており、メモリ効果の潜在的に重要な役割を無視している。 これを解決するために, 強力な階層型運動方程式を用いて, 非マルコフ環境がリウビリアスキン効果をどう修正できるかを考察する。 我々は,非マルコフ環境が,皮膚モードがバルクに広がり,スキンモードのコヒーレンスに変化し,コヒーレンス・デローカライゼーションと発振緩和を引き起こす「薄い皮膚効果」を誘導できることを実証した。 注目すべきは、スキンモードと定常状態のコヒーレンスの両方が、追加の環境ノイズによるデコヒーレンスに対する耐性を示すことである。 これらの知見は緩和と局所化に対するシステムバス相関の深い影響を浮き彫りにし、従来のマルコフ近似を超える特異な現象を明らかにした。

The Liouvillian skin effect and the non-Hermitian skin effect have both been used to explain the localization of eigenmodes near system boundaries, though the former is arguably more accurate in some regimes due to its incorporation of quantum jumps. However, these frameworks predominantly focus on weak Markovian interactions, neglecting the potentially crucial role of memory effects. To address this, we investigate, utilizing the powerful hierarchical equations of motion method, how a non-Markovian environment can modify the Liouvillian skin effect. We demonstrate that a non-Markovian environment can induce not only a ``thick skin effect", where the skin mode broadens and shifts into the bulk, but also skin-mode coherence, leading to the coherence-delocalization and oscillatory relaxation with a characteristic linear scaling with system size. Remarkably, both the skin-mode and steady-state coherence exhibit resistance to decoherence from additional environmental noise. These findings highlight the profound impact of system-bath correlations on relaxation and localization, revealing unique phenomena beyond conventional Markovian approximations.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# gTBLS: 条件付き質問回答によるテキストから表を生成する

gTBLS: Generating Tables from Text by Conditional Question Answering ( http://arxiv.org/abs/2403.14457v1 )

ライセンス: Link先を確認
Anirudh Sundar, Christopher Richardson, Larry Heck, (参考訳) 大規模で非構造化のテキストをテーブルのような構造化された、凝縮された形式に蒸留することは、オープンな研究課題である。 テーブルの自動生成における主な課題の1つは、その構文的妥当性を保証することである。 以前のアプローチでは、特定の行や列ヘッダに出席するTransformerのアテンションメカニズムにパラメータを追加することで、この問題に対処していた。 本手法とは対照的に,生成テーブル (gTBLS) と呼ばれる2段階の手法を提案する。 第1段は、テキストからテーブル構造(ロウとカラムヘッダ)を推論する。 第2段階では、これらのヘッダを使って質問を定式化し、それに対応するために因果言語モデルを微調整する。 さらに、gTBLSアプローチは、ゼロショット構成での事前訓練された大規模言語モデルの利用に有効であり、微調整が不可能な状況において、テーブル生成のためのソリューションを提供する。 gTBLSは、テーブル構築タスクでBERTScoreを最大10%改善し、E2E、WikiTableText、WikiBio、RotoWireデータセットのテーブルコンテンツ生成タスクで最大20%改善する。

Distilling large, unstructured text into a structured, condensed form such as tables is an open research problem. One of the primary challenges in automatically generating tables is ensuring their syntactic validity. Prior approaches address this challenge by including additional parameters in the Transformer's attention mechanism to attend to specific rows and column headers. In contrast to this single-stage method, this paper presents a two-stage approach called Generative Tables (gTBLS). The first stage infers table structure (row and column headers) from the text. The second stage formulates questions using these headers and fine-tunes a causal language model to answer them. Furthermore, the gTBLS approach is amenable to the utilization of pre-trained Large Language Models in a zero-shot configuration, presenting a solution for table generation in situations where fine-tuning is not feasible. gTBLS improves prior approaches by up to 10% in BERTScore on the table construction task and up to 20% on the table content generation task of the E2E, WikiTableText, WikiBio, and RotoWire datasets.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 物理における自己分布構造

Self-distributive structures in physics ( http://arxiv.org/abs/2403.14458v1 )

ライセンス: Link先を確認
Tobias Fritz, (参考訳) これは、観測可能群が変換の一パラメータ群を生成するという、既存の物理理論の重要な特徴である。 古典的ハミルトニアン力学や量子力学において、これは可観測物がリー代数を形成するという事実によるものであり、ネーターの定理にそれ自身を表わす。 本稿では、観測可能が変換を生成するという考え方を表現するのに必要な最小の数学的構造として \emph{Lie quandles} を紹介する。 これは、主に結び目理論で使用される四つ組の概念に基づいており、その主な定義的性質は自己分布方程式 $x \triangleright (y \triangleright) である。 z) = (x \triangleright y) \triangleright (x \triangleright) z)$. リー四角形はリー代数の非線形一般化と考えることができる。 また、物理的に混合状態に対応するベクトル空間における点の凸結合を取ることは、同じ形の自己分布性を満たす。

It is an important feature of our existing physical theories that observables generate one-parameter groups of transformations. In classical Hamiltonian mechanics and quantum mechanics, this is due to the fact that the observables form a Lie algebra, and it manifests itself in Noether's theorem. In this paper, we introduce \emph{Lie quandles} as the minimal mathematical structure needed to express the idea that observables generate transformations. This is based on the notion of a quandle used primarily in knot theory, whose main defining property is the self-distributivity equation $x \triangleright (y \triangleright z) = (x \triangleright y) \triangleright (x \triangleright z)$. We argue that Lie quandles can be thought of as nonlinear generalizations of Lie algebras. We also observe that taking convex combinations of points in vector spaces, which physically corresponds to mixing states, satisfies the same form of self-distributivity.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# 生成言語モデルのためのマルチレベル記述法

Multi-Level Explanations for Generative Language Models ( http://arxiv.org/abs/2403.14459v1 )

ライセンス: Link先を確認
Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss, Amit Dhurandhar, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Werner Geyer, Soumya Ghosh, (参考訳) LIMEやSHAPのような摂動に基づく説明法はテキスト分類に一般的に適用される。 この研究は、生成言語モデルへの拡張に焦点を当てている。 テキストを出力として、長いテキスト入力として扱うことの課題に対処するために、異なる属性アルゴリズムでインスタンス化できるMExGenという一般的なフレームワークを提案する。 テキスト出力を扱うために,テキストを実数にマッピングするスカラライザの概念を導入し,複数の可能性について検討する。 長い入力を処理するために、我々は、より粒度の粗いレベルからより微細なレベルへと進み、モデルクエリの線形スケーリングを伴うアルゴリズムに焦点をあてるマルチレベルアプローチを採っている。 我々は,要約と文脈的質問応答のための摂動に基づく帰属手法の,自動的および人的両方の体系的評価を行う。 その結果、我々のフレームワークは、生成した出力をより局所的に忠実に説明できることがわかった。

Perturbation-based explanation methods such as LIME and SHAP are commonly applied to text classification. This work focuses on their extension to generative language models. To address the challenges of text as output and long text inputs, we propose a general framework called MExGen that can be instantiated with different attribution algorithms. To handle text output, we introduce the notion of scalarizers for mapping text to real numbers and investigate multiple possibilities. To handle long inputs, we take a multi-level approach, proceeding from coarser levels of granularity to finer ones, and focus on algorithms with linear scaling in model queries. We conduct a systematic evaluation, both automated and human, of perturbation-based attribution methods for summarization and context-grounded question answering. The results show that our framework can provide more locally faithful explanations of generated outputs.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# ソフトウェア設計自動車における単一システムイリュージョン - 自動化されたAI駆動ワークフロー

Towards Single-System Illusion in Software-Defined Vehicles -- Automated, AI-Powered Workflow ( http://arxiv.org/abs/2403.14460v1 )

ライセンス: Link先を確認
Krzysztof Lebioda, Viktor Vorobev, Nenad Petrovic, Fengjunjie Pan, Vahid Zolfaghari, Alois Knoll, (参考訳) 本稿では,エンドアーキテクチャが明確に定義されていない自動車ソフトウェアシステム開発のための,新しいモデルと機能に基づくアプローチを提案する。 代わりに、特定の制約、要求、ハードウェアアーキテクチャを与えられた探索と最適化の反復的なプロセスから生まれ、一方、アプリケーションが論理的に均一な環境で実行されるシングルシステムイリュージョンの性質を保持します。 提案されたアプローチの重要なポイントの1つは、ループに現代的な生成AI、特にLLM(Large Language Models)を組み込むことである。 この分野の最近の進歩により、LCMは要件の処理、形式的なシステムモデルの生成、ソフトウェアデプロイメント仕様とテストコードの生成を支援できることを期待しています。 その結果、パイプラインは広範囲に自動化され、各ステップでフィードバックが生成される。

We propose a novel model- and feature-based approach to development of vehicle software systems, where the end architecture is not explicitly defined. Instead, it emerges from an iterative process of search and optimization given certain constraints, requirements and hardware architecture, while retaining the property of single-system illusion, where applications run in a logically uniform environment. One of the key points of the presented approach is the inclusion of modern generative AI, specifically Large Language Models (LLMs), in the loop. With the recent advances in the field, we expect that the LLMs will be able to assist in processing of requirements, generation of formal system models, as well as generation of software deployment specification and test code. The resulting pipeline is automated to a large extent, with feedback being generated at each step.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# Cath Flow:光流と変圧器を用いたインターベンショナル超音波におけるカテーテルの自己監督セグメンテーション

CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers ( http://arxiv.org/abs/2403.14465v1 )

ライセンス: Link先を確認
Alex Ranne, Liming Kuang, Yordanka Velikova, Nassir Navab, Ferdinando Rodriguez y Baena, (参考訳) 最小侵襲の血管内手術では,造影造影造影が最も堅牢な画像診断法である。 しかし、放射線曝露の長期化により、患者と臨床医の健康を犠牲にしている。 代替として、干渉超音波は、放射線のない、展開が速い、手術室の足跡が小さいといった顕著な利点がある。 しかし、超音波は解釈が困難で、人工物やノイズに強く依存する。 さらに、介入放射線科医は、患者を効果的に診断し治療する資格を得る前に、広範な訓練を受けなければならない。 本研究では,縦型超音波画像中のカテーテルをラベル付きデータなしでセグメント化するために,自己教師付きディープラーニングアーキテクチャを導入することにより,両課題に対処する。 ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマーであるAiAReSeg上に構築されており、時間と空間にわたって機能変更を学習することができる。 トレーニングを容易にするために,物理駆動カテーテル挿入シミュレーションに基づく合成超音波データを用いて,データを独自のCT-Ultrasound共通ドメインであるCACTUSSに変換し,セグメンテーション性能を向上した。 本研究では,FlowNet2を用いて隣接するフレーム間の光学的流れを計算し,しきい値を用いて2値マップ推定を行うことにより,地中真理セグメンテーションマスクを生成する。 最後に,シリコンオルタファントムから収集した合成データと画像からなるテストデータセットを用いて本モデルを検証し,将来臨床データに適用する可能性を示した。

In minimally invasive endovascular procedures, contrast-enhanced angiography remains the most robust imaging technique. However, it is at the expense of the patient and clinician's health due to prolonged radiation exposure. As an alternative, interventional ultrasound has notable benefits such as being radiation-free, fast to deploy, and having a small footprint in the operating room. Yet, ultrasound is hard to interpret, and highly prone to artifacts and noise. Additionally, interventional radiologists must undergo extensive training before they become qualified to diagnose and treat patients effectively, leading to a shortage of staff, and a lack of open-source datasets. In this work, we seek to address both problems by introducing a self-supervised deep learning architecture to segment catheters in longitudinal ultrasound images, without demanding any labeled data. The network architecture builds upon AiAReSeg, a segmentation transformer built with the Attention in Attention mechanism, and is capable of learning feature changes across time and space. To facilitate training, we used synthetic ultrasound data based on physics-driven catheter insertion simulations, and translated the data into a unique CT-Ultrasound common domain, CACTUSS, to improve the segmentation performance. We generated ground truth segmentation masks by computing the optical flow between adjacent frames using FlowNet2, and performed thresholding to obtain a binary map estimate. Finally, we validated our model on a test dataset, consisting of unseen synthetic data and images collected from silicon aorta phantoms, thus demonstrating its potential for applications to clinical data in the future.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# マルチタスクデータセットの同時解釈性のための普遍的特徴選択

Universal Feature Selection for Simultaneous Interpretability of Multitask Datasets ( http://arxiv.org/abs/2403.14466v1 )

ライセンス: Link先を確認
Matt Raymond, Jacob Charles Saldinger, Paolo Elvati, Clayton Scott, Angela Violi, (参考訳) 科学的領域にまたがる複雑な高次元データセットから有意義な特徴を抽出することは依然として困難である。 現在のメソッドはスケーラビリティに苦しむことが多く、大きなデータセットに適用性を制限するか、機能とプロパティの関係を限定的に仮定することで、複雑なインタラクションをキャプチャする能力を妨げている。 BoUTSの汎用的かつスケーラブルな特徴選択アルゴリズムは、これらの制限を超え、すべてのデータセットに関連する普遍的な特徴と、特定のサブセットに対して予測されるタスク固有の特徴の両方を識別する。 7つの多様な化学回帰データセットに基づいて評価され、BoUTSは専門的な手法に匹敵する予測精度を維持しながら、最先端の特徴空間を達成する。 特に、BoUTSの普遍的な機能は、データセット間のドメイン固有の知識伝達を可能にし、一見異なる化学データセットにおける深い接続を提案する。 これらの結果は,手動誘導逆問題における重要な影響を期待する。 現在のアプリケーション以外にも、BoUTSは、同様のデータ豊富なシステムからの情報を活用することで、データポーアシステムを解明する大きな可能性を秘めている。 BoUTSはクロスドメインな特徴選択の大きな飛躍であり、様々な科学分野の進歩に繋がる可能性がある。

Extracting meaningful features from complex, high-dimensional datasets across scientific domains remains challenging. Current methods often struggle with scalability, limiting their applicability to large datasets, or make restrictive assumptions about feature-property relationships, hindering their ability to capture complex interactions. BoUTS's general and scalable feature selection algorithm surpasses these limitations to identify both universal features relevant to all datasets and task-specific features predictive for specific subsets. Evaluated on seven diverse chemical regression datasets, BoUTS achieves state-of-the-art feature sparsity while maintaining prediction accuracy comparable to specialized methods. Notably, BoUTS's universal features enable domain-specific knowledge transfer between datasets, and suggest deep connections in seemingly-disparate chemical datasets. We expect these results to have important repercussions in manually-guided inverse problems. Beyond its current application, BoUTS holds immense potential for elucidating data-poor systems by leveraging information from similar data-rich systems. BoUTS represents a significant leap in cross-domain feature selection, potentially leading to advancements in various scientific fields.
翻訳日:2024-03-22 13:49:29 公開日:2024-03-21
# Recourse for Reclamation: Chatting with Generative Language Model

Recourse for reclamation: Chatting with generative language models ( http://arxiv.org/abs/2403.14467v1 )

ライセンス: Link先を確認
Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac, (参考訳) 研究者や開発者は、顧客サービス、情報検索、コンテンツ生成などの設定において、中程度の生成言語モデル出力に対する毒性のスコアリングにますます依存している。 しかし、毒性のスコアリングは、関連する情報をアクセス不能、固化、あるいは「バリューロック」文化規範にし、特に辺境的な人々にとって、言語再生のプロセスを妨げる可能性がある。 本研究では, 生成言語モデルに対するアルゴリズム的リコースの概念を拡張し, 有害度フィルタリングのしきい値を動的に設定することで, 利用者が求める予測を達成するための新しいメカニズムを提供する。 これにより、ユーザは、ベースラインシステムとのインタラクションに対して、増大するエージェンシーを行使する。 提案手法の可能性を実証したパイロット研究 (n = 30$) では, モデル出力の固定閾値毒性フィルタと比較して, 使用性の向上が示唆された。 今後の研究は、毒性スコアリング、モデル制御性、ユーザエージェンシー、言語再生プロセスの共通点を探り、特に、生成言語モデルと対話する際に多くのコミュニティが直面するバイアスについて検討する必要がある。

Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study ($n = 30$) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# AnyV2V:あらゆるビデオ編集タスクのためのプラグイン・アンド・プレイフレームワーク

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks ( http://arxiv.org/abs/2403.14468v1 )

ライセンス: Link先を確認
Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen, (参考訳) ビデオ対ビデオ編集は、ソースビデオと提供されたコントロールに合わせる新しいビデオを生成するために、追加の制御(テキストプロンプト、主題、スタイルなど)と共にソースビデオを編集する。 従来のメソッドは特定の編集タイプに制限されており、幅広いユーザ要求を満たす能力に制限されている。 本稿では,(1)既製の画像編集モデル(例:InstructPix2Pix,InstantIDなど)を用いて第1フレームを編集し,(2)既存の画像から映像への生成モデル(例:I2VGen-XL)を用いてDDIMのインバージョンと特徴注入を行う。 最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。 従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートできる。 第2段階では、AnyV2Vは既存の画像間モデルをプラグインしてDDIMインバージョンと中間機能注入を実行し、ソースビデオとの外観と動きの整合性を維持する。 プロンプトベースの編集では、AnyV2Vは、プロンプトアライメントで35倍、人選好で25倍の速さで過去のベストアプローチを上回り得ることを示す。 3つの新しいタスクにおいて、AnyV2Vは高い成功率を達成することを示す。 我々は、高速進化する画像編集手法をシームレスに統合する能力により、AnyV2Vは今後も成長を続けると信じている。 このような互換性は、AnyV2Vの汎用性を高め、多様なユーザー要求に対応するのに役立つ。

Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# ChatGPT代替ソリューション:大規模言語モデル調査

ChatGPT Alternative Solutions: Large Language Models Survey ( http://arxiv.org/abs/2403.14469v1 )

ライセンス: Link先を確認
Hanieh Alipour, Nick Pendar, Kohinoor Roy, (参考訳) 近年、Large Language Models (LLMs) の壮大さは、自然言語処理の領域を揺るがすだけでなく、多くのアプリケーションにその輝きをもたらしている。 LLM能力のこの顕著な表示は、この領域における研究貢献の急増に火をつけ、様々なトピックにまたがっている。 これらのコントリビューションには、ニューラルネットワークアーキテクチャの進歩、コンテキスト長の強化、モデルアライメント、トレーニングデータセット、ベンチマーク、効率改善などが含まれている。 近年、学術と産業のダイナミックな相乗効果が見られ、LLM研究の分野を新たな高地へと押し上げた。 この旅で注目すべきマイルストーンは、LLMに基盤を置く強力なAIチャットボットであるChatGPTの導入である。 LLMの進化する技術は、AIコミュニティ全体の景観を再構築し始めており、AIアルゴリズムの作成と採用の方法に革命的な変化をもたらすことを約束している。 この急激な技術的進化を踏まえて、我々の調査はLLMの世界における最近の進歩をカプセル化するための旅に出た。 文献の背景、重要な発見、一般的な方法論の探索を通じて、文献の最新のレビューを提供する。 複数のLCMモデルを調べることで、本論文は包括的概要を示すだけでなく、既存の課題を特定し、今後の研究軌道に向けての視点を示すコースも示す。 この調査は、ジェネレーティブAIの現状をよく理解し、さらなる探索、強化、イノベーションの機会に光を当てている。

In recent times, the grandeur of Large Language Models (LLMs) has not only shone in the realm of natural language processing but has also cast its brilliance across a vast array of applications. This remarkable display of LLM capabilities has ignited a surge in research contributions within this domain, spanning a diverse spectrum of topics. These contributions encompass advancements in neural network architecture, context length enhancements, model alignment, training datasets, benchmarking, efficiency improvements, and more. Recent years have witnessed a dynamic synergy between academia and industry, propelling the field of LLM research to new heights. A notable milestone in this journey is the introduction of ChatGPT, a powerful AI chatbot grounded in LLMs, which has garnered widespread societal attention. The evolving technology of LLMs has begun to reshape the landscape of the entire AI community, promising a revolutionary shift in the way we create and employ AI algorithms. Given this swift-paced technical evolution, our survey embarks on a journey to encapsulate the recent strides made in the world of LLMs. Through an exploration of the background, key discoveries, and prevailing methodologies, we offer an up-to-the-minute review of the literature. By examining multiple LLM models, our paper not only presents a comprehensive overview but also charts a course that identifies existing challenges and points toward potential future research trajectories. This survey furnishes a well-rounded perspective on the current state of generative AI, shedding light on opportunities for further exploration, enhancement, and innovation.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 知識編集による大規模言語モデルのデトックス化

Detoxifying Large Language Models via Knowledge Editing ( http://arxiv.org/abs/2403.14472v1 )

ライセンス: Link先を確認
Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen, (参考訳) 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。 我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。 我々は,知識編集アプローチを従来のベースラインと比較する実験を行い,知識編集がLLMを効率よく解毒する可能性を示唆した。 そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。 さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制できるが, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。 これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。 コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments to compare knowledge editing approaches with previous baselines, indicating that knowledge editing has the potential to efficiently detoxify LLMs with limited impact on general performance. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxify approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 医学・医療におけるチャットGPTの倫理 : 大規模言語モデル(LLM)の体系的考察

The Ethics of ChatGPT in Medicine and Healthcare: A Systematic Review on Large Language Models (LLMs) ( http://arxiv.org/abs/2403.14473v1 )

ライセンス: Link先を確認
Joschka Haltaufderheide, Robert Ranisch, (参考訳) ChatGPTの導入により、Large Language Models (LLMs) は医療において大きな注目を集めている。 その潜在的な利点にもかかわらず、研究者は様々な倫理的影響を過小評価してきた。 個々の事例が注目されている一方で、この議論は、現在研究されている実践的応用とそれらに関連する倫理的問題に関する体系的な概要を欠いている。 このような背景から, この研究は, LLMの医療・医療への展開の現段階を取り巻く倫理的景観を地図化することを目的としている。 電子データベースとプリプリントサーバは包括的な検索戦略を用いてクエリされた。 研究は、修正された迅速なレビューのアプローチに従って、スクリーニングされ、抽出された。 手法的品質をハイブリッドアプローチで評価した。 53レコードに対してメタ凝集合成を行った。 4つの応用分野が出現し、鮮明な探査段階に証明された。 LLMを使うことの利点は、データ分析、パーソナライズされた情報提供、意思決定のサポート、情報損失の軽減、情報アクセシビリティの向上にある。 しかし、公平性、偏見、非効率性、透明性、プライバシに関連する、繰り返し発生する倫理的懸念も認識している。 顕著な懸念は、有害な誤報や、説得力のあるが不正確な内容を生み出す傾向にある。 倫理的指導と人的監督に対する繰り返しの嘆願は明らかである。 様々なユースケースを考えると、倫理的ガイダンスに関する議論は、アプリケーションの範囲で許容される人間の監督を構成するものを定義することに焦点を合わせるように再編成されることが示唆されている。 これには、多様な設定、障害に対するさまざまな可能性、そして医療におけるパフォーマンスと確実性に対する異なる許容しきい値を検討することが含まれる。 また,LLMの現在の試験的使用がどの程度必要で正当化されているかを決定するためには,批判的な調査が必要である。

With the introduction of ChatGPT, Large Language Models (LLMs) have received enormous attention in healthcare. Despite their potential benefits, researchers have underscored various ethical implications. While individual instances have drawn much attention, the debate lacks a systematic overview of practical applications currently researched and ethical issues connected to them. Against this background, this work aims to map the ethical landscape surrounding the current stage of deployment of LLMs in medicine and healthcare. Electronic databases and preprint servers were queried using a comprehensive search strategy. Studies were screened and extracted following a modified rapid review approach. Methodological quality was assessed using a hybrid approach. For 53 records, a meta-aggregative synthesis was performed. Four fields of applications emerged and testify to a vivid exploration phase. Advantages of using LLMs are attributed to their capacity in data analysis, personalized information provisioning, support in decision-making, mitigating information loss and enhancing information accessibility. However, we also identifies recurrent ethical concerns connected to fairness, bias, non-maleficence, transparency, and privacy. A distinctive concern is the tendency to produce harmful misinformation or convincingly but inaccurate content. A recurrent plea for ethical guidance and human oversight is evident. Given the variety of use cases, it is suggested that the ethical guidance debate be reframed to focus on defining what constitutes acceptable human oversight across the spectrum of applications. This involves considering diverse settings, varying potentials for harm, and different acceptable thresholds for performance and certainty in healthcare. In addition, a critical inquiry is necessary to determine the extent to which the current experimental use of LLMs is necessary and justified.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 損失誘起量子非相互性

Loss-induced quantum nonreciprocity ( http://arxiv.org/abs/2403.14476v1 )

ライセンス: Link先を確認
Baijun Li, Yunlan Zuo, Le-Man Kuang, Hui Jing, Chaohong Lee, (参考訳) 損失や外部ノイズに対するロバスト性に起因するため、非相互フォトニックデバイスは量子情報処理への応用に大きな可能性を秘めている。 近年の進歩により、線形系における非相互光伝送は損失の戦略的導入によって達成できることが示されている。 しかし、重要な疑問は未解決のままであり、損失は非相互量子相関を生成するための資源として利用することができるか? ここでは、工学的損失による直感的な姿勢をとり、非相互光子遮断と呼ばれる新しい形の非相互量子相関を生成する。 2つの非線形キャビティと1つの線形キャビティからなる散逸3キャビティシステムについて検討した。 損失と非線形性の相互作用は、破壊的な量子干渉によって促進される、堅牢な非相互性単光子と2光子遮断をもたらす。 さらに、2つの非線形キャビティ間の相対位相を操作することにより、この非相互光子遮断のチューニング性を示す。 注目すべきは、これは非相互性の方向の反転を可能にすることである。 我々の研究は、損失工学的量子非相互性の概念に新たな光を放つだけでなく、量子非相互光デバイスの設計のためのユニークな経路を開く。

Attribute to their robustness against loss and external noise, nonreciprocal photonic devices hold great promise for applications in quantum information processing. Recent advancements have demonstrated that nonreciprocal optical transmission in linear systems can be achieved through the strategic introduction of loss. However, a crucial question remains unanswered: can loss be harnessed as a resource for generating nonreciprocal quantum correlations? Here, we take a counterintuitive stance by engineering loss to generate a novel form of nonreciprocal quantum correlations, termed nonreciprocal photon blockade. We examine a dissipative three-cavity system comprising two nonlinear cavities and a linear cavity. The interplay of loss and nonlinearity leads to a robust nonreciprocal single- and two-photon blockade, facilitated by destructive quantum interference. Furthermore, we demonstrate the tunability of this nonreciprocal photon blockade by manipulating the relative phase between the two nonlinear cavities. Remarkably, this allows for the reversal of the direction of nonreciprocity. Our study not only sheds new light on the concept of loss-engineered quantum nonreciprocity but also opens up a unique pathway for the design of quantum nonreciprocal photonic devices.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 運用者信用評価研究におけるLightGBMアルゴリズムの利用

Utilizing the LightGBM Algorithm for Operator User Credit Assessment Research ( http://arxiv.org/abs/2403.14483v1 )

ライセンス: Link先を確認
Shaojie Li, Xinqi Dong, Danqing Ma, Bo Dang, Hengyi Zang, Yulu Gong, (参考訳) モバイル・インターネットのユーザ・クレジット・アセスメントは、通信事業者が意思決定や対策の定式化を行う上で重要な手段であり、通信事業者が期待される利益を得るための保証でもある。 しかし、信用評価手法は銀行や信用のような金融業界によって長い間独占されてきた。 プラットフォームネットワーク技術とネットワークリソースのサポーターおよびプロバイダとして、通信オペレータは通信ネットワークのビルダーおよびメンテナでもある。 インターネットデータは、ユーザの信用評価戦略を改善する。 本稿では,通信事業者が提供した膨大なデータを用いて,フュージョンLightGBMアルゴリズムに基づくユーザクレジット評価モデルの研究を行う。 まず、演算子が提供するユーザ評価に関する膨大なデータについて、データ前処理と特徴工学手法により重要な特徴を抽出し、統計的に重要な多次元特徴セットを構築する。次に、線形回帰、決定木、LightGBM、その他の機械学習アルゴリズムは、最適な基本モデルを見つけるために複数の基本モデルを構築し、最後に、平均、投票、ブレンディング、スタック、その他の統合アルゴリズムを統合して、複数の融合モデルを洗練し、最終的に演算子ユーザ評価に最も適した融合モデルを確立する。

Mobile Internet user credit assessment is an important way for communication operators to establish decisions and formulate measures, and it is also a guarantee for operators to obtain expected benefits. However, credit evaluation methods have long been monopolized by financial industries such as banks and credit. As supporters and providers of platform network technology and network resources, communication operators are also builders and maintainers of communication networks. Internet data improves the user's credit evaluation strategy. This paper uses the massive data provided by communication operators to carry out research on the operator's user credit evaluation model based on the fusion LightGBM algorithm. First, for the massive data related to user evaluation provided by operators, key features are extracted by data preprocessing and feature engineering methods, and a multi-dimensional feature set with statistical significance is constructed; then, linear regression, decision tree, LightGBM, and other machine learning algorithms build multiple basic models to find the best basic model; finally, integrates Averaging, Voting, Blending, Stacking and other integrated algorithms to refine multiple fusion models, and finally establish the most suitable fusion model for operator user evaluation.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# HyperGALE: 学習可能なハイパーエッジを用いたHypergraph Gated AttentionによるASD分類

HyperGALE: ASD Classification via Hypergraph Gated Attention with Learnable Hyperedges ( http://arxiv.org/abs/2403.14484v1 )

ライセンス: Link先を確認
Mehul Arora, Chirag Shantilal Jain, Lalith Bharadwaj Baru, Kamalaker Dadi, Bapi Raju Surampudi, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、様々な社会的認知課題と反復的な行動パターンを特徴とする神経発達状態である。 ASDのための信頼性の高い脳画像ベースのバイオマーカーの同定は、スペクトルの多様な症状が原因で、永続的な課題となっている。 この分野の既存のベースラインはこの方向に大きく前進してきたが、性能と解釈性の両方の改善の余地は残っている。 本稿では,学習したハイパーエッジを組み込んだハイパーグラフ上に構築した「emph{HyperGALE}」を提案する。 このアプローチは、複雑な脳グラフデータを解釈するモデルの能力を大幅に改善し、ASDバイオマーカーのキャラクタリゼーションに関する深い洞察を提供する。 ABIDE IIデータセットに基づいて評価すると、 \emph{HyperGALE} は解釈可能性を改善するだけでなく、従来のベースラインと基礎ハイパーグラフモデルの両方と比較して、重要なパフォーマンス指標の統計的に重要な拡張を示す。 ASD研究の進展は、神経発達研究における高度なグラフベースの技術の可能性を強調している。 ソースコードと実装手順はGitHubで公開されている。

Autism Spectrum Disorder (ASD) is a neurodevelopmental condition characterized by varied social cognitive challenges and repetitive behavioral patterns. Identifying reliable brain imaging-based biomarkers for ASD has been a persistent challenge due to the spectrum's diverse symptomatology. Existing baselines in the field have made significant strides in this direction, yet there remains room for improvement in both performance and interpretability. We propose \emph{HyperGALE}, which builds upon the hypergraph by incorporating learned hyperedges and gated attention mechanisms. This approach has led to substantial improvements in the model's ability to interpret complex brain graph data, offering deeper insights into ASD biomarker characterization. Evaluated on the extensive ABIDE II dataset, \emph{HyperGALE} not only improves interpretability but also demonstrates statistically significant enhancements in key performance metrics compared to both previous baselines and the foundational hypergraph model. The advancement \emph{HyperGALE} brings to ASD research highlights the potential of sophisticated graph-based techniques in neurodevelopmental studies. The source code and implementation instructions are available at GitHub:https://github.com/mehular0ra/HyperGALE.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# DesignEdit: 統一された正確な画像編集のための多層遅延分解と融合

DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing ( http://arxiv.org/abs/2403.14487v1 )

ライセンス: Link先を確認
Yueru Jia, Yuhui Yuan, Aosong Cheng, Chuke Wang, Ji Li, Huizhu Jia, Shanghang Zhang, (参考訳) 近年,テキスト・画像生成モデルの顕著な成功を考えると,画像編集の精度向上が注目されている。 様々な空間認識画像編集能力を一つのフレームワークに統合するために、設計領域のレイヤの概念を採用し、様々な操作で柔軟にオブジェクトを操作する。 鍵となる洞察は、空間認識画像編集タスクを2つのサブタスク、多層潜時分解と多層潜時融合の組合せに変換することである。 まず、ソース画像の潜伏表現を複数の層に分割し、複数のオブジェクト層と、信頼性の高いインペイントを必要とする1つの不完全な背景層を含む。 余分なチューニングを避けるため、自己保持機構の内面塗布能力をさらに探求する。 本研究では,マスク外領域への影響を緩和しつつ,周囲のコンテキスト情報をマスク領域に伝播させるキー・メイキング・セルフアテンション・スキームを提案する。 第2に,多層ラテント表現をキャンバスラテントに貼り付ける命令誘導ラテント融合を提案する。 また, 塗装品質を高めるため, 潜伏空間にアーチファクト抑制手法を導入する。 このような多層表現のモジュラー性により,画像編集の精度が向上し,自己ガイドやDiffEditorなど最新の空間編集手法を一貫して超越していることが実証された。 最後に,本手法は,6つ以上の編集タスクにおいて,様々な正確な画像編集タスクをサポートする統一的なフレームワークであることを示す。

Recently, how to achieve precise image editing has attracted increasing attention, especially given the remarkable success of text-to-image generation models. To unify various spatial-aware image editing abilities into one framework, we adopt the concept of layers from the design domain to manipulate objects flexibly with various operations. The key insight is to transform the spatial-aware image editing task into a combination of two sub-tasks: multi-layered latent decomposition and multi-layered latent fusion. First, we segment the latent representations of the source images into multiple layers, which include several object layers and one incomplete background layer that necessitates reliable inpainting. To avoid extra tuning, we further explore the inner inpainting ability within the self-attention mechanism. We introduce a key-masking self-attention scheme that can propagate the surrounding context information into the masked region while mitigating its impact on the regions outside the mask. Second, we propose an instruction-guided latent fusion that pastes the multi-layered latent representations onto a canvas latent. We also introduce an artifact suppression scheme in the latent space to enhance the inpainting quality. Due to the inherent modular advantages of such multi-layered representations, we can achieve accurate image editing, and we demonstrate that our approach consistently surpasses the latest spatial editing methods, including Self-Guidance and DiffEditor. Last, we show that our approach is a unified framework that supports various accurate image editing tasks on more than six different editing tasks.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# ロボット操作作業における安全・ロバストな次善行動選択のための物理に基づく因果推論

Physics-Based Causal Reasoning for Safe & Robust Next-Best Action Selection in Robot Manipulation Tasks ( http://arxiv.org/abs/2403.14488v1 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Michael Groom, Jonathan Routley, Robert Osazuwa Ness, Lars Kunze, (参考訳) 安全で効率的なオブジェクト操作は、多くの現実世界のロボットアプリケーションにとって重要な実現手段である。 しかし、ロボットの操作は様々なセンサーやアクチュエータの不確実性に対して堅牢でなければならないため、これは難しい。 本稿では,ブロック積み重ね作業における候補動作を部分的に観察可能な環境で確率論的に推論する物理インフォームド・因果推論に基づくロボットのためのフレームワークを提案する。 我々は,剛体系力学の物理シミュレーションと因果ベイズネットワーク(CBN)の定式化を統合し,ロボット決定過程の因果生成確率モデルを定義する。 シミュレーションに基づくモンテカルロ実験を用いて,(1)高い精度でブロックタワーの安定性を予測し(88.6%),(2)統合ロボットシステムによるタスク成功率94.2%を達成し,ブロック積み上げタスクに対する近似的次善動作を選択する。 また,実世界のロボットシステムに対する我々のフレームワークの適合性を,認識と操作のサブシステム統合による国内支援ロボットによるタスク実行の成功例によって実証する。 したがって、ロボットの意思決定プロセスに物理に基づく因果推論を組み込むことで、ロボットタスクの実行をより安全で、より信頼性が高く、さまざまな不確実性に対してより堅牢にすることができる。

Safe and efficient object manipulation is a key enabler of many real-world robot applications. However, this is challenging because robot operation must be robust to a range of sensor and actuator uncertainties. In this paper, we present a physics-informed causal-inference-based framework for a robot to probabilistically reason about candidate actions in a block stacking task in a partially observable setting. We integrate a physics-based simulation of the rigid-body system dynamics with a causal Bayesian network (CBN) formulation to define a causal generative probabilistic model of the robot decision-making process. Using simulation-based Monte Carlo experiments, we demonstrate our framework's ability to successfully: (1) predict block tower stability with high accuracy (Pred Acc: 88.6%); and, (2) select an approximate next-best action for the block stacking task, for execution by an integrated robot system, achieving 94.2% task success rate. We also demonstrate our framework's suitability for real-world robot systems by demonstrating successful task executions with a domestic support robot, with perception and manipulation sub-system integration. Hence, we show that by embedding physics-based causal reasoning into robots' decision-making processes, we can make robot task execution safer, more reliable, and more robust to various types of uncertainty.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# WSI の逆ローバストグラフに基づく学習

Adversary-Robust Graph-Based Learning of WSIs ( http://arxiv.org/abs/2403.14489v1 )

ライセンス: Link先を確認
Saba Heidari Gheshlaghi, Milan Aryal, Nasim Yahyasoltani, Masoud Ganji, (参考訳) 敵対的攻撃に対するディープラーニングモデルの堅牢性を高めることは、特に金融上の大きな関心がそのような攻撃のリスクを高める医療のような重要な領域において重要である。 全スライド画像(WSI)は、ガラススライドに装着された高解像度でデジタル化された組織サンプルで、高度な撮像装置を用いてスキャンされる。 WSIのディジタル分析は、そのギガピクセルサイズとマルチレゾリューションストレージフォーマットのために、ユニークな課題を提示している。 本研究は,Gleason グレーティング分類システムの対人攻撃に対する堅牢性の向上を目標とし,画像レベルとグラフレベルの両方における課題に対処する。 提案アルゴリズムでは,WSI のグラフ表現から特徴を抽出するために GNN を利用した,斬新で革新的なグラフベースモデルを開発した。 WSIに対する敵攻撃の影響を管理するために、デノナイジングモジュールとプール層が組み込まれています。 このプロセスは、処理されたデータに基づいて前立腺がんの様々なグレードを分類するトランスフォーマーモジュールで終了する。 提案手法の有効性を評価するために,2つのシナリオを用いて比較分析を行った。 最初は、攻撃を受けていないWSIを使って、デノイザなしでモデルをトレーニングし、テストしました。 次に、画像レベルまたはグラフレベルにさまざまなアタックを導入し、提案したネットワークを通じて処理した。 モデルの性能は, 精度とカッパスコアで評価した。 その結果, 診断精度は有意に向上し, 医用画像の文脈における対向的課題への対処において, 提案手法の頑健さと効率性を強調した。

Enhancing the robustness of deep learning models against adversarial attacks is crucial, especially in critical domains like healthcare where significant financial interests heighten the risk of such attacks. Whole slide images (WSIs) are high-resolution, digitized versions of tissue samples mounted on glass slides, scanned using sophisticated imaging equipment. The digital analysis of WSIs presents unique challenges due to their gigapixel size and multi-resolution storage format. In this work, we aim at improving the robustness of cancer Gleason grading classification systems against adversarial attacks, addressing challenges at both the image and graph levels. As regards the proposed algorithm, we develop a novel and innovative graph-based model which utilizes GNN to extract features from the graph representation of WSIs. A denoising module, along with a pooling layer is incorporated to manage the impact of adversarial attacks on the WSIs. The process concludes with a transformer module that classifies various grades of prostate cancer based on the processed data. To assess the effectiveness of the proposed method, we conducted a comparative analysis using two scenarios. Initially, we trained and tested the model without the denoiser using WSIs that had not been exposed to any attack. We then introduced a range of attacks at either the image or graph level and processed them through the proposed network. The performance of the model was evaluated in terms of accuracy and kappa scores. The results from this comparison showed a significant improvement in cancer diagnosis accuracy, highlighting the robustness and efficiency of the proposed method in handling adversarial challenges in the context of medical imaging.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# クロスタスク知識蒸留のためのプロジェクト学習

Learning to Project for Cross-Task Knowledge Distillation ( http://arxiv.org/abs/2403.14494v1 )

ライセンス: Link先を確認
Dylan Auty, Roy Miles, Benedikt Kolbeinsson, Krystian Mikolajczyk, (参考訳) 伝統的な知識蒸留(KD)は、ターゲットタスクで訓練された熟練した教師に依存しており、必ずしも利用できない。 この設定では、クロスタスク蒸留が使用でき、異なるタスクでトレーニングされた教師モデルを使用することができる。 しかし、このクロスタスク設定に適用した場合、多くのKD法は効果がないことを証明している。 この制限に対処するため、逆射影の使用という単純な修正を提案する。 本稿では,標準プロジェクタのドロップイン置換が,生徒のパフォーマンスを低下させる可能性のあるタスク固有の特徴を無視して学習することで有効であることを示す。 この単純な修正は、教師と生徒のタスクが全く異なるクロスタスク設定に多くのKDメソッドを拡張するのに十分である。 これにより、従来のプロジェクションと比較して、最大1.9%のクロスタスク設定の改善を、追加コストなしで得ることができる。 本手法は, 学習知識の不足にもかかわらず, 奥行き推定, 画像翻訳, セマンティックセグメンテーションといった様々なタスクにおいて, ランダムに開始した教師であっても, 7%までの大幅な性能向上が得られる。 この結果について概念的・分析的な知見を得るため,逆投影法を用いることで,蒸留損失を知識伝達とスペクトル正規化成分に分解できることが示唆された。 この分析により、教師なしの蒸留を可能にし、追加のトレーニングコストなしでImageNetで最大8.57%の性能向上を可能にする、新たな正規化損失を提案することができる。

Traditional knowledge distillation (KD) relies on a proficient teacher trained on the target task, which is not always available. In this setting, cross-task distillation can be used, enabling the use of any teacher model trained on a different task. However, many KD methods prove ineffective when applied to this cross-task setting. To address this limitation, we propose a simple modification: the use of an inverted projection. We show that this drop-in replacement for a standard projector is effective by learning to disregard any task-specific features which might degrade the student's performance. We find that this simple modification is sufficient for extending many KD methods to the cross-task setting, where the teacher and student tasks can be very different. In doing so, we obtain up to a 1.9% improvement in the cross-task setting compared to the traditional projection, at no additional cost. Our method can obtain significant performance improvements (up to 7%) when using even a randomly-initialised teacher on various tasks such as depth estimation, image translation, and semantic segmentation, despite the lack of any learned knowledge to transfer. To provide conceptual and analytical insights into this result, we show that using an inverted projection allows the distillation loss to be decomposed into a knowledge transfer and a spectral regularisation component. Through this analysis we are additionally able to propose a novel regularisation loss that allows teacher-free distillation, enabling performance improvements of up to 8.57% on ImageNet with no additional training costs.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 人間中心の説明可能なAIインターフェースがどのように設計され、評価されるか:システマティック調査

How Human-Centered Explainable AI Interface Are Designed and Evaluated: A Systematic Survey ( http://arxiv.org/abs/2403.14496v1 )

ライセンス: Link先を確認
Thu Nguyen, Alessandro Canossa, Jichen Zhu, (参考訳) 技術的なブレークスルーにもかかわらず、eXplainable Artificial Intelligence (XAI)の研究は、ユーザが必要とする効果的な説明を生産することに成功した。 XAIシステムのユーザビリティ、実用的な解釈可能性、実ユーザに対する有効性を改善するため、EIs( {\em Explainable Interfaces)の出現する領域は、XAIのユーザインターフェースとユーザエクスペリエンス設計の側面に焦点を当てている。 本稿では,人間とXAIの相互作用の現在の動向と,EI設計・開発に向けた将来的な方向性を明らかにするために,53の出版物を体系的に調査する。 これは、EI研究の最初の体系的な調査である。

Despite its technological breakthroughs, eXplainable Artificial Intelligence (XAI) research has limited success in producing the {\em effective explanations} needed by users. In order to improve XAI systems' usability, practical interpretability, and efficacy for real users, the emerging area of {\em Explainable Interfaces} (EIs) focuses on the user interface and user experience design aspects of XAI. This paper presents a systematic survey of 53 publications to identify current trends in human-XAI interaction and promising directions for EI design and development. This is among the first systematic survey of EI research.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# MULDE:ビデオ異常検出のためのスコアマッチングによるマルチスケールログ密度推定

MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection ( http://arxiv.org/abs/2403.14497v1 )

ライセンス: Link先を確認
Jakub Micorek, Horst Possegger, Dominik Narnhofer, Horst Bischof, Mateusz Kozinski, (参考訳) 本稿では,ビデオから抽出した特徴ベクトルを固定分布のランダム変数の実現として扱い,この分布をニューラルネットワークでモデル化する。 これにより、テストビデオの可能性を推定し、その推定値をしきい値にすることで、ビデオ異常を検出することができる。 そこで我々は,学習データにノイズを注入し,その分布をモデル化する手法であるデノナイジングスコアマッチング(denoising score matching)の修正を用いて,ビデオ異常検出装置を訓練する。 ハイパーパラメータ選択をなくすため,様々なノイズレベルにまたがるノイズの映像特徴の分布をモデル化し,異なるノイズレベルにモデルを整合させるレギュレータを導入する。 テスト時には、複数のノイズスケールにおける異常表示とガウス混合モデルを組み合わせる。 ビデオ異常検出装置の動作は、単に特徴を抽出し、浅いニューラルネットワークとガウス混合モデルを通して前方に伝播する必要があるため、最小限の遅延を誘導する。 一般的な5つのビデオ異常検出ベンチマークの実験では、オブジェクト中心とフレーム中心のセットアップの両方において、最先端のパフォーマンスを示す。

We propose a novel approach to video anomaly detection: we treat feature vectors extracted from videos as realizations of a random variable with a fixed distribution and model this distribution with a neural network. This lets us estimate the likelihood of test videos and detect video anomalies by thresholding the likelihood estimates. We train our video anomaly detector using a modification of denoising score matching, a method that injects training data with noise to facilitate modeling its distribution. To eliminate hyperparameter selection, we model the distribution of noisy video features across a range of noise levels and introduce a regularizer that tends to align the models for different levels of noise. At test time, we combine anomaly indications at multiple noise scales with a Gaussian mixture model. Running our video anomaly detector induces minimal delays as inference requires merely extracting the features and forward-propagating them through a shallow neural network and a Gaussian mixture model. Our experiments on five popular video anomaly detection benchmarks demonstrate state-of-the-art performance, both in the object-centric and in the frame-centric setup.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# 3次元健常脳組織塗布における拡散モデルの検討

Denoising Diffusion Models for 3D Healthy Brain Tissue Inpainting ( http://arxiv.org/abs/2403.14499v1 )

ライセンス: Link先を確認
Alicia Durrer, Julia Wolleb, Florentin Bieder, Paul Friedrich, Lester Melie-Garcia, Mario Ocampo-Pineda, Cosmin I. Bercea, Ibrahim E. Hamamci, Benedikt Wiestler, Marie Piraud, Özgür Yaldizli, Cristina Granziera, Bjoern H. Menze, Philippe C. Cattin, Florian Kofler, (参考訳) 脳の構造的整合性に影響を与える疾患のモニタリングには、容積変化の評価のために、MRI画像の自動解析が必要である。 しかし、多くの評価ツールは健康な組織を解析するために最適化されている。 病理組織を含むスキャンの評価を可能にするためには,病理領域の健全な組織を復元する必要がある。 本研究では,健常3次元脳組織の一貫した塗布のための拡散モデルについて検討し,拡張する。 画像空間で作業する最先端の2D, 擬似3D, 3D法, および3D潜伏および3Dウェーブレット拡散モデルを修正し, 正常な脳組織を合成するよう訓練する。 評価の結果,擬似3次元モデルでは,構造相似指数,ピーク信号-雑音比,平均二乗誤差が最良であることがわかった。 臨床関連性を強調するために、このモデルを合成MS病変を含むデータに基づいて微調整し、下流脳組織分節タスクで評価し、確立されたFMRIBソフトウェアライブラリー(FSL)の病変充満法より優れる。

Monitoring diseases that affect the brain's structural integrity requires automated analysis of magnetic resonance (MR) images, e.g., for the evaluation of volumetric changes. However, many of the evaluation tools are optimized for analyzing healthy tissue. To enable the evaluation of scans containing pathological tissue, it is therefore required to restore healthy tissue in the pathological areas. In this work, we explore and extend denoising diffusion models for consistent inpainting of healthy 3D brain tissue. We modify state-of-the-art 2D, pseudo-3D, and 3D methods working in the image space, as well as 3D latent and 3D wavelet diffusion models, and train them to synthesize healthy brain tissue. Our evaluation shows that the pseudo-3D model performs best regarding the structural-similarity index, peak signal-to-noise ratio, and mean squared error. To emphasize the clinical relevance, we fine-tune this model on data containing synthetic MS lesions and evaluate it on a downstream brain tissue segmentation task, whereby it outperforms the established FMRIB Software Library (FSL) lesion-filling method.
翻訳日:2024-03-22 13:39:41 公開日:2024-03-21
# ソフトラーニング確率回路

Soft Learning Probabilistic Circuits ( http://arxiv.org/abs/2403.14504v1 )

ライセンス: Link先を確認
Soroush Ghandi, Benjamin Quost, Cassio de Campos, (参考訳) 確率回路(PC: Probabilistic Circuits)は、様々な正確な推論を可能にする、顕著なトラクタブル確率モデルである。 本稿では,PCを学習するための主要なアルゴリズムであるLearnSPNについて述べる。 本研究では,LearnSPNは軽度仮定下での強欲的可能性の最大化であることを示す。 PC内の推論はクエリの処理に回路構造全体を使用することができるが、LearnSPNはそれらを学習するためにハードメソッドを適用し、各和ノードでハードクラスタリングプロセスのように1つのデータポイントと1つの子供/エッジのみを伝搬する。 我々はソフトクラスタリングプロセスを用いてPCを誘導するSoftLearnという新しい学習手順を提案する。 我々は,PCにおけるこの学習-推論互換性の効果について検討する。 我々の実験は、SoftLearnがLearnSPNよりも多くの状況で優れており、より良い確率と間違いなくより良いサンプルが得られることを示している。 また、ソフト/ハードラーニングとモデルクエリの違いを強調するために、同等のトラクタブルモデルも分析します。

Probabilistic Circuits (PCs) are prominent tractable probabilistic models, allowing for a range of exact inferences. This paper focuses on the main algorithm for training PCs, LearnSPN, a gold standard due to its efficiency, performance, and ease of use, in particular for tabular data. We show that LearnSPN is a greedy likelihood maximizer under mild assumptions. While inferences in PCs may use the entire circuit structure for processing queries, LearnSPN applies a hard method for learning them, propagating at each sum node a data point through one and only one of the children/edges as in a hard clustering process. We propose a new learning procedure named SoftLearn, that induces a PC using a soft clustering process. We investigate the effect of this learning-inference compatibility in PCs. Our experiments show that SoftLearn outperforms LearnSPN in many situations, yielding better likelihoods and arguably better samples. We also analyze comparable tractable models to highlight the differences between soft/hard learning and model querying.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# フェルミオン系の効率的な量子冷却アルゴリズム

Efficient Quantum Cooling Algorithm for Fermionic Systems ( http://arxiv.org/abs/2403.14506v1 )

ライセンス: Link先を確認
Lucas Marti, Refik Mansuroglu, Michael J. Hartmann, (参考訳) フェルミオンハミルトニアンの基底状態調製のための冷却アルゴリズムを提案する。 提案アルゴリズムは, 既知基底状態に定期的にリセットされるアシラリー冷蔵庫に結合したハミルトニアンシミュレーションを利用する。 我々は、自由理論のはしご作用素から派生した適切な相互作用ハミルトニアンを導出し、システムと冷蔵庫の間の共鳴ギャップを創出する。 さらに, 冷蔵庫のエネルギー測定を用いて, システムの関連エネルギーを求めるための分光走査法を提案する。 これらの知見により,初期状態が多項式サイズの低エネルギーセクターで作成される限り,その実行時間はシステムサイズにおける多項式である,という効率のよいフェルミオン系の基底状態冷却アルゴリズムを設計する。 我々は, 基底状態を容易に準備できるパラメータ構造から, 高速で準断熱的なスイープにより, 後者を実現する。 このアルゴリズムを一般化して熱状態を作成し,Fermi-Hubbardモデルで得られた知見を実証する。

We present a cooling algorithm for ground state preparation of fermionic Hamiltonians. Our algorithm makes use of the Hamiltonian simulation of the considered system coupled to an ancillary fridge, which is regularly reset to its known ground state. We derive suitable interaction Hamiltonians that originate from ladder operators of the free theory and initiate resonant gaps between system and fridge. We further propose a spectroscopic scan to find the relevant eigenenergies of the system using energy measurements on the fridge. With these insights, we design a ground state cooling algorithm for fermionic systems that is efficient, i.e. its runtime is polynomial in the system size, as long as the initial state is prepared in a low energy sector of polynomial size. We achieve the latter via a fast, quasi-adiabatic sweep from a parameter regime whose ground state can be easily prepared. We generalize the algorithm to prepare thermal states and demonstrate our findings on the Fermi-Hubbard model.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# Smoothed Log Barrier関数を用いた制約付き強化学習

Constrained Reinforcement Learning with Smoothed Log Barrier Function ( http://arxiv.org/abs/2403.14508v1 )

ライセンス: Link先を確認
Baohe Zhang, Yuan Zhang, Lilli Frison, Thomas Brox, Joschka Bödecker, (参考訳) 強化学習(Reinforcement Learning, RL)は多くの制御タスクに広く適用されており、報酬関数が適切に定義された多くの領域における従来の制御手法と比較して、性能が大幅に向上している。 しかし、現実の多くの問題に対して、報酬と制約の点から最適化問題を定式化する方が便利であることが多い。 このような制約された問題を報酬整形によって最適化することは、いくつかの相互作用項を持つ報酬関数の面倒な手動チューニングを必要とするため困難である。 制約を含む最近の定式化は、主に事前訓練フェーズを必要としており、データ収集や準最適ポリシーが容易に利用できると仮定するためには、人間の専門知識を必要とすることが多い。 CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL手法を提案する。 政策学習に適応的なペナルティを実装し、ログバリア関数法の適用を複雑にすることが知られている数値問題を緩和する。 その結果, CSAC-LBでは, 難易度が異なる制約付き制御タスクの最先端性能を実現し, 実四足歩行ロボットプラットフォーム上での移動作業における手法の評価を行うことができた。

Reinforcement Learning (RL) has been widely applied to many control tasks and substantially improved the performances compared to conventional control methods in many domains where the reward function is well defined. However, for many real-world problems, it is often more convenient to formulate optimization problems in terms of rewards and constraints simultaneously. Optimizing such constrained problems via reward shaping can be difficult as it requires tedious manual tuning of reward functions with several interacting terms. Recent formulations which include constraints mostly require a pre-training phase, which often needs human expertise to collect data or assumes having a sub-optimal policy readily available. We propose a new constrained RL method called CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function), which achieves competitive performance without any pre-training by applying a linear smoothed log barrier function to an additional safety critic. It implements an adaptive penalty for policy learning and alleviates the numerical issues that are known to complicate the application of the log barrier function method. As a result, we show that with CSAC-LB, we achieve state-of-the-art performance on several constrained control tasks with different levels of difficulty and evaluate our methods in a locomotion task on a real quadruped robot platform.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 空中カメラネットワーク下での人物識別のためのビュー分離変換器

View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network ( http://arxiv.org/abs/2403.14513v1 )

ライセンス: Link先を確認
Quan Zhang, Lei Wang, Vishal M. Patel, Xiaohua Xie, Jianhuang Lai, (参考訳) 既存の人物再識別手法は、地上マッチングのような均一なカメラ間での外観に基づくアイデンティティーアソシエーションにおいて顕著な進歩を遂げている。 しかし、より現実的なシナリオとして、異機種カメラにおける地上人物再識別(AGPReID)は最小限の注目を集めている。 AGPReIDの最も重要な課題として、劇的視点差による識別的アイデンティティ表現の破壊を緩和するために、ビュー分離変換器(VDT)をシンプルで効果的なフレームワークとして提案する。 2つの主要なコンポーネントは、ビュー関連とビュー非関連の特徴、すなわち階層的な部分的分離と直交的損失を分離するためにVDTで設計され、前者はVDT内でこれらの2つの特徴を分離し、後者はこれら2つの特徴を独立に制約する。 さらに,5/8の空中/地上カメラ,5,000のアイデンティティ,108,563のイメージからなる大規模AGPReIDデータセットCARGOをコントリビュートした。 2つのデータセットの実験では、VDTはAGPReIDの実用的で効果的な解であり、CARGOでは最大5.0%/2.7%、AG-ReIDでは3.7%/5.2%、計算複雑性は同じ程度である。 私たちのプロジェクトはhttps://github.com/LinlyAC/VDT-AGPReIDで利用可能です。

Existing person re-identification methods have achieved remarkable advances in appearance-based identity association across homogeneous cameras, such as ground-ground matching. However, as a more practical scenario, aerial-ground person re-identification (AGPReID) among heterogeneous cameras has received minimal attention. To alleviate the disruption of discriminative identity representation by dramatic view discrepancy as the most significant challenge in AGPReID, the view-decoupled transformer (VDT) is proposed as a simple yet effective framework. Two major components are designed in VDT to decouple view-related and view-unrelated features, namely hierarchical subtractive separation and orthogonal loss, where the former separates these two features inside the VDT, and the latter constrains these two to be independent. In addition, we contribute a large-scale AGPReID dataset called CARGO, consisting of five/eight aerial/ground cameras, 5,000 identities, and 108,563 images. Experiments on two datasets show that VDT is a feasible and effective solution for AGPReID, surpassing the previous method on mAP/Rank1 by up to 5.0%/2.7% on CARGO and 3.7%/5.2% on AG-ReID, keeping the same magnitude of computational complexity. Our project is available at https://github.com/LinlyAC/VDT-AGPReID
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 低次モデリングのための強制システムにおける機械学習不変葉序法

Machine-learning invariant foliations in forced systems for reduced order modelling ( http://arxiv.org/abs/2403.14514v1 )

ライセンス: Link先を確認
Robert Szalai, (参考訳) Invariant foliation を用いたデータから強制システムのリダクションオーダーモデル (ROM) を同定する。 強制は外部、パラメトリック、周期的または準周期的である。 プロセスには4つのステップがあります。 1. 近似不変トーラスとトーラスに関する線形力学を同定すること。 2. トーラスに関するグローバルに定義された不変葉を識別すること。 3. 大域的葉成を補完する不変多様体に関する局所的葉成を同定する 4. トラスを通る葉として不変多様体を抽出し、その結果を解釈する。 ステップ 2 と 3 を組み合わせることで、不変トーラスの位置を追跡し、不変方程式を適切にスケールすることができる。 我々は、不変多様体と葉のいくつかの基本的な制限をデータに適合させるときに強調する。

We identify reduced order models (ROM) of forced systems from data using invariant foliations. The forcing can be external, parametric, periodic or quasi-periodic. The process has four steps: 1. identify an approximate invariant torus and the linear dynamics about the torus; 2. identify a globally defined invariant foliation about the torus; 3. identify a local foliation about an invariant manifold that complements the global foliation 4. extract the invariant manifold as the leaf going through the torus and interpret the result. We combine steps 2 and 3, so that we can track the location of the invariant torus and scale the invariance equations appropriately. We highlight some fundamental limitations of invariant manifolds and foliations when fitting them to data, that require further mathematics to resolve.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# ブラジル原住民言語のための言語学習ゲームの構築 : 研究を事例として

Building a Language-Learning Game for Brazilian Indigenous Languages: A Case of Study ( http://arxiv.org/abs/2403.14515v1 )

ライセンス: Link先を確認
Gustavo Polleti, (参考訳) 本稿では,ブラジル原住民言語のための言語学習ゲームの構築とその課題について論じる。 ゲーミフィケーションの側面を持つツールの設計を提案する。 次に、依存ツリーバンクから言語演習や質問を自動的に生成するプロセスと、トゥピアン言語のための語彙データベースについて述べる。 倫理的・実践的な実装に重点を置いたプロトタイプの限界について論じる。 最後に,新たなデータ収集プロセスは現地のコミュニティと連携して確立し,教育目的を指向するべきであると結論づける。

In this paper we discuss a first attempt to build a language learning game for brazilian indigenous languages and the challenges around it. We present a design for the tool with gamification aspects. Then we describe a process to automatically generate language exercises and questions from a dependency treebank and a lexical database for Tupian languages. We discuss the limitations of our prototype highlighting ethical and practical implementation concerns. Finally, we conclude that new data gathering processes should be established in partnership with indigenous communities and oriented for educational purposes.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# Cobra: 効率的な推論のためのマルチモーダル大言語モデルへのMambaの拡張

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference ( http://arxiv.org/abs/2403.14520v1 )

ライセンス: Link先を確認
Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang, (参考訳) 近年,多モーダル大規模言語モデル (MLLM) の様々な分野への応用が目覚ましい成功を収めている。 しかし、多くの下流タスクの基礎モデルとして、現在のMLLMは2次計算の複雑さの少ないよく知られたトランスフォーマーネットワークで構成されている。 このような基本モデルの効率を改善するために,線形計算複雑性MLLMであるCobraを提案する。 特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。 さらに,効率的なマルチモーダルマンバを作成するための様々なモーダル融合スキームを探索し,検討する。 大規模実験により,(1)コブラの線形逐次モデリングにより,現在の計算効率の高い状態解析手法である \textit{e g }, LLaVA-Phi, TinyLLaVA, MobileVLM v2 との競争性能が極めて向上し,高速であることが示された。 2) 視覚錯覚や空間的関係判断を克服する上で, クローズドセットの課題予測ベンチマークの結果は良好であった。 (3) 特に、Cobraはパラメータの約43%でLLaVAに匹敵するパフォーマンスを実現している。 我々は,Cobraのすべてのコードをオープンソースにし,提案手法がMLLMにおける複雑性問題の今後の研究を促進することを期待する。 プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。

In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, \textit{e.g.}, LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# マイクロダイアモンドおよびナノダイアモンド中の窒素空孔中心を用いた高偏極化による高感度磁気共鳴への応用

$^{13}$C Hyperpolarization with Nitrogen-Vacancy Centers in Micro- and Nanodiamonds for Sensitive Magnetic Resonance Applications ( http://arxiv.org/abs/2403.14521v1 )

ライセンス: Link先を確認
Rémi Blinder, Yuliya Mindarava, Martin Korzeczek, Alastair Marshall, Felix Glöckler, Steffen Nothelfer, Alwin Kienle, Christian Laube, Wolfgang Knolle, Christian Jentgens, Martin B. Plenio, Fedor Jelezko, (参考訳) 核双極化は、核磁気共鳴(NMR)におけるシグナルを桁違いに増強する既知の方法である。 本研究は、光励起窒素空洞中心(NV)を用いて、ダイヤモンド微粒子とナノ粒子の超分極を$^{13}$Cで処理し、室温で$^{13}$Cのスピンを分極する。 表面処理を改良した$^{13}$C緩和(T_1$)時間とNVを併用し、マイクロフォトニック構造に基づくNV照明技術を適用することにより、小粒子径の連続を緩和する。 電子常磁性共鳴によりNVスピン状態の光誘起再分布をモニタリングし、これらの欠陥中心の約4\%に対応する狭いスペクトル領域において、NVスピン状態の強い分極増強を観測した。 PulsePol'配列の調整と遅いサンプルローテーションを組み合わせることで、NV-$^{13}$C偏光伝達率をさらに向上する。 過分極$^{13}$C NMR信号は、2$\mu$mと100nmの中央値の粒子で観測され、それぞれ1500と940の熱信号(0.29Tの磁場)に増強される。 室温過分極の実証実験は, ナノ粒子を用いた高感度磁気共鳴材料の開発を期待するものである。

Nuclear hyperpolarization is a known method to enhance the signal in nuclear magnetic resonance (NMR) by orders of magnitude. The present work addresses the $^{13}$C hyperpolarization in diamond micro- and nanoparticles, using the optically-pumped nitrogen-vacancy center (NV) to polarize $^{13}$C spins at room temperature. Consequences of the small particle size are mitigated by using a combination of surface treatment improving the $^{13}$C relaxation ($T_1$) time, as well as that of NV, and applying a technique for NV illumination based on a microphotonic structure. Monitoring the light-induced redistribution of the NV spin state populations with electron paramagnetic resonance, a strong polarization enhancement for the NV spin state is observed in a narrow spectral region corresponding to about 4\% of these defect centers. By combining adjustments to the `PulsePol' sequence and slow sample rotation, the NV-$^{13}$C polarization transfer rate is improved further. The hyperpolarized $^{13}$C NMR signal is observed in particles of 2 $\mu$m and 100 nm median sizes, with enhancements over the thermal signal (at 0.29 T magnetic field), of 1500 and 940, respectively. The present demonstration of room-temperature hyperpolarization anticipates the development of agents based on nanoparticles for sensitive magnetic resonance applications.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 超音波の目に見えない針検出:レバレッジ機構による振動

Invisible Needle Detection in Ultrasound: Leveraging Mechanism-Induced Vibration ( http://arxiv.org/abs/2403.14523v1 )

ライセンス: Link先を確認
Chenyang Li, Dianye Huang, Angelos Karlas, Nassir Navab, Zhongliang Jiang, (参考訳) 超音波ガイド下手術を含む臨床応用では、針の視認性は、急激な挿入とスペックルノイズや解剖学的閉塞などの強い障害が原因で深刻な障害となる可能性がある。 この課題に対処するために,超音波画像における針検出の堅牢性と精度を高めるための学習ベースフレームワークであるVibNetを提案する。 Eulerian Video Magnification法にインスパイアされた我々は,針の低振幅周期運動を誘導するために外部ステップモータを利用する。 これらの微妙な振動は、針の周りの動きパターンを検出するための頑丈な周波数特性を発生させる可能性がある。 これらの振動を利用する針を堅牢かつ正確に検出するために、VibNetは学習ベースのショート時間フーリエ変換モジュールとハフ変換モジュールを統合し、時空間における運動特徴抽出、周波数特徴集約、ハフ空間における針検出を含む連続的なサブゴールを達成する。 異なる生体外ブタおよびウシの組織試料から得られた結果に基づいて,本アルゴリズムは効率的な計算と一般化能力を有する優れた検出性能を示す。

In clinical applications that involve ultrasound-guided intervention, the visibility of the needle can be severely impeded due to steep insertion and strong distractors such as speckle noise and anatomical occlusion. To address this challenge, we propose VibNet, a learning-based framework tailored to enhance the robustness and accuracy of needle detection in ultrasound images, even when the target becomes invisible to the naked eye. Inspired by Eulerian Video Magnification techniques, we utilize an external step motor to induce low-amplitude periodic motion on the needle. These subtle vibrations offer the potential to generate robust frequency features for detecting the motion patterns around the needle. To robustly and precisely detect the needle leveraging these vibrations, VibNet integrates learning-based Short-Time-Fourier-Transform and Hough-Transform modules to achieve successive sub-goals, including motion feature extraction in the spatiotemporal space, frequency feature aggregation, and needle detection in the Hough space. Based on the results obtained on distinct ex vivo porcine and bovine tissue samples, the proposed algorithm exhibits superior detection performance with efficient computation and generalization capability.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# クリック to Grasp:ビジュアルディフュージョン記述子によるゼロショット精密操作

Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors ( http://arxiv.org/abs/2403.14526v1 )

ライセンス: Link先を確認
Nikolaos Tsagkas, Jack Rome, Subramanian Ramamoorthy, Oisin Mac Aodha, Chris Xiaoxuan Lu, (参考訳) シーンやオブジェクトにまたがって一般化可能な精密な操作は、ロボティクスにおける永続的な課題である。 このタスクの現在のアプローチは、視覚的および/または幾何学的部分の曖昧さがはっきりしたオブジェクトを扱うための、かなりの数のトレーニングインスタンスを持つことに大きく依存している。 本研究は,Web で学習したテキストから画像への拡散に基づく生成モデルを用いて,ゼロショット設定における精密な操作のためのきめ細かい部分記述子の基盤について検討する。 我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。 我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。 我々は、本質的なオブジェクトの幾何学と特徴を活用するため、手動による把握のデモンストレーションは必要としない。 実世界のテーブルトップシナリオにおける実践実験は、我々のアプローチの有効性を検証し、セマンティック・アウェア・ロボティクスの操作を前進させる可能性を示した。 Web ページ: https://tsagkas.github.io/click2grasp

Precise manipulation that is generalizable across scenes and objects remains a persistent challenge in robotics. Current approaches for this task heavily depend on having a significant number of training instances to handle objects with pronounced visual and/or geometric part ambiguities. Our work explores the grounding of fine-grained part descriptors for precise manipulation in a zero-shot setting by utilizing web-trained text-to-image diffusion-based generative models. We tackle the problem by framing it as a dense semantic part correspondence task. Our model returns a gripper pose for manipulating a specific part, using as reference a user-defined click from a source image of a visually different instance of the same object. We require no manual grasping demonstrations as we leverage the intrinsic object geometry and features. Practical experiments in a real-world tabletop scenario validate the efficacy of our approach, demonstrating its potential for advancing semantic-aware robotics manipulation. Web page: https://tsagkas.github.io/click2grasp
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# HAC:3次元ガウス切削圧縮のためのハッシュグリッド支援コンテキスト

HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression ( http://arxiv.org/abs/2403.14530v1 )

ライセンス: Link先を確認
Yihang Chen, Qianyi Wu, Jianfei Cai, Mehrtash Harandi, Weiyao Lin, (参考訳) 3D Gaussian Splatting (3DGS)は、新しいビュー合成のための有望なフレームワークとして登場し、高速レンダリング速度と高忠実さを誇っている。 しかし、ガウスとその関連属性は効果的な圧縮技術を必要とする。 それでも、ガウシアン(あるいは論文のアンカー)の点雲のスパースで非組織的な性質は、圧縮の課題を提示している。 そこで我々は,非組織型アンカーと構造化ハッシュグリッドの関係を利用して,それらの相互情報をコンテキストモデリングに活用し,高度にコンパクトな3DGS表現のためのHash-grid Assisted Context(HAC)フレームワークを提案する。 提案手法では, 連続的な空間的整合性を確立するための2値ハッシュグリッドを導入し, 慎重に設計した文脈モデルを用いて, アンカーの空間的関係を明らかにする。 エントロピー符号化を容易にするために,我々はガウス分布を用いて各量子化属性の確率を正確に推定する。 さらに,無効なガウスとアンカーを除去するために,適応的なマスキング戦略を取り入れた。 重要なことは、我々の研究は3DGS表現の文脈ベースの圧縮を探求する先駆者であり、その結果、バニラ3DGSと比較して75ドル以上のコスト削減が達成され、同時に忠実度が向上し、SOTA3DGS圧縮アプローチであるScaffold-GSよりも11ドル以上のコスト削減が達成された。 私たちのコードはこちらで入手可能です。

3D Gaussian Splatting (3DGS) has emerged as a promising framework for novel view synthesis, boasting rapid rendering speed with high fidelity. However, the substantial Gaussians and their associated attributes necessitate effective compression techniques. Nevertheless, the sparse and unorganized nature of the point cloud of Gaussians (or anchors in our paper) presents challenges for compression. To address this, we make use of the relations between the unorganized anchors and the structured hash grid, leveraging their mutual information for context modeling, and propose a Hash-grid Assisted Context (HAC) framework for highly compact 3DGS representation. Our approach introduces a binary hash grid to establish continuous spatial consistencies, allowing us to unveil the inherent spatial relations of anchors through a carefully designed context model. To facilitate entropy coding, we utilize Gaussian distributions to accurately estimate the probability of each quantized attribute, where an adaptive quantization module is proposed to enable high-precision quantization of these attributes for improved fidelity restoration. Additionally, we incorporate an adaptive masking strategy to eliminate invalid Gaussians and anchors. Importantly, our work is the pioneer to explore context-based compression for 3DGS representation, resulting in a remarkable size reduction of over $75\times$ compared to vanilla 3DGS, while simultaneously improving fidelity, and achieving over $11\times$ size reduction over SOTA 3DGS compression approach Scaffold-GS. Our code is available here: https://github.com/YihangChen-ee/HAC
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 開量子系における異常とその混合状態量子相への影響

Anomaly in open quantum systems and its implications on mixed-state quantum phases ( http://arxiv.org/abs/2403.14533v1 )

ライセンス: Link先を確認
Zijian Wang, Linhao Li, (参考訳) 本稿では,オープン量子システムにおける't Hooft異常を特徴付ける体系的手法を開発する。 環境への非自明な結合のため、そのような系の対称性は強い型または弱い型として表される。 それらの対称性変換をスーパー演算子を通して表現することにより、それらを統一されたフレームワークに組み込み、それらの異常を計算する。 全対称性群が$K\times G$で、$K$が強対称性で$G$が弱対称性の場合、ボゾン系の異常は$H^{d+2}(K\times G,U(1))/H^{d+2}(G,U(1))$で$d$空間次元で分類される。 オープン量子系における異常のパワーを説明するために、一般に、弱い対称性が課せられる限り、異常が非自明な混合状態量子相につながることが証明される。 閉系における非自明な低エネルギー物理を保証する「アノマリーマッチング」条件に類似して、異常は開量子系におけるリンドブラディアンの非自明な時間的ダイナミクス、特に定常状態のリンドブラディアンの定常状態も保証する。特に、定常状態がバルク内の非自明な相関関数を示さないが、異常によって強制される境界上の自然対称性の破壊順序を示す$(1+1)$-Dにおいて、新しいエキゾチック位相を同定する。我々は混合状態異常とそのような非自明な境界相関関係の一般関係について論じる。 1+1)$-D と$(2+1)$-D Lindbladians は、定常状態がバルクに混合状態対称性を保護した位相順序を持ち、対応するエッジ理論は非自明な異常によって特徴づけられる。

In this paper, we develop a systematic way to characterize the 't Hooft anomaly in open quantum systems. Owing to nontrivial couplings to the environment, symmetries in such systems manifest as either strong or weak type. By representing their symmetry transformation through superoperators, we incorporate them in a unified framework and calculate their anomalies. In the case where the full symmetry group is $K\times G$, with $K$ the strong symmetry and $G$ the weak symmetry, we find that anomalies of bosonic systems are classified by $H^{d+2}(K\times G,U(1))/H^{d+2}(G,U(1))$ in $d$ spatial dimensions. To illustrate the power of anomalies in open quantum systems, we generally prove that anomaly must lead to nontrivial mixed-state quantum phases as long as the weak symmetry is imposed. Analogous to the ``anomaly matching" condition ensuring nontrivial low-energy physics in closed systems, anomaly also guarantees nontrivial long-time dynamics, specifically steady states of Lindbladians, in open quantum systems. Notably, we identify a new exotic phase in $(1+1)$-D where the steady state shows no nontrivial correlation function in the bulk, but displays spontaneous symmetry breaking order on the boundary, which is enforced by anomalies. We discuss the general relations between mixed-state anomalies and such unconventional boundary correlation. Finally, we explore the generalization of the ``anomaly inflow" mechanism in open quantum systems. We construct $(1+1)$-D and $(2+1)$-D Lindbladians whose steady states have mixed-state symmetry-protected-topological order in the bulk, with corresponding edge theories characterized by nontrivial anomalies.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# アンダーソースデータセットにおけるクロスデータセット分離手話認識のための転送学習

Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets ( http://arxiv.org/abs/2403.14534v1 )

ライセンス: Link先を確認
Ahmet Alp Kindiroglu, Ozgur Kara, Ogulcan Ozdemir, Lale Akarun, (参考訳) 署名言語認識(SLR)は、大規模な注釈付き手話データセットでトレーニングされたディープニューラルネットワークのおかげで、最近、パフォーマンスのブレークスルーを達成した。 多くの異なる手話言語の中で、これらの注釈付きデータセットは、一部の人しか利用できない。 手話ビデオのグロスレベルラベルの取得は困難であるため、既存の注釈付き情報源から知識を伝達することで学習は、低リソース手話における認識に有用である。 この研究は、既存の2つのトルコのSLRデータセットから利用可能なクロスデータセット転送学習ベンチマークを提供する。 我々は、時間グラフ畳み込みに基づく手話認識手法を用いて、5つの教師付きトランスファー学習手法を評価し、クローズドセットおよび部分セットのクロスデータセット・トランスファー学習の実験を行う。 特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。

Sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these annotated datasets are only available for a select few. Since acquiring gloss-level labels on sign language videos is difficult, learning by transferring knowledge from existing annotated sources is useful for recognition in under-resourced sign languages. This study provides a publicly available cross-dataset transfer learning benchmark from two existing public Turkish SLR datasets. We use a temporal graph convolution-based sign language recognition approach to evaluate five supervised transfer learning approaches and experiment with closed-set and partial-set cross-dataset transfer learning. Experiments demonstrate that improvement over finetuning based transfer learning is possible with specialized supervised transfer learning methods.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 格子量子色力学の量子シミュレーションのためのQu8its

Qu8its for Quantum Simulations of Lattice Quantum Chromodynamics ( http://arxiv.org/abs/2403.14537v1 )

ライセンス: Link先を確認
Marc Illa, Caroline E. P. Robin, Martin J. Savage, (参考訳) 1+1D SU(3)格子量子色力学の力学の量子シミュレーションにおける$d=8$ qudits, qu8itsの有用性を探求する。 並列ゲートの応用の最近の進歩は、2クォーディット演算と比較して単一クォーディット演算の適用時間が短くなり、量子シミュレーションの忠実度や量子ビットではなくクォーディットを用いた回路深度において大きな利点が期待できる。 qu8itsを用いた時間進化に必要な2量子エンタングリングゲートの数は、qubitsよりも5倍以下であることが判明した。 この研究で示された発展により、新しい量子ハードウェアを用いて改良された量子シミュレーションが実行できるようになることを期待する。

We explore the utility of $d=8$ qudits, qu8its, for quantum simulations of the dynamics of 1+1D SU(3) lattice quantum chromodynamics, including a mapping for arbitrary numbers of flavors and lattice size and a re-organization of the Hamiltonian for efficient time-evolution. Recent advances in parallel gate applications, along with the shorter application times of single-qudit operations compared with two-qudit operations, lead to significant projected advantages in quantum simulation fidelities and circuit depths using qu8its rather than qubits. The number of two-qudit entangling gates required for time evolution using qu8its is found to be more than a factor of five fewer than for qubits. We anticipate that the developments presented in this work will enable improved quantum simulations to be performed using emerging quantum hardware.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# 野生における3次元形状再構成のための物体中心領域ランダム化

Object-Centric Domain Randomization for 3D Shape Reconstruction in the Wild ( http://arxiv.org/abs/2403.14539v1 )

ライセンス: Link先を確認
Junhyeong Cho, Kim Youwang, Hunmin Yang, Tae-Hyun Oh, (参考訳) ワンビュー3次元形状復元における最大の課題の1つは,実環境からの<3次元形状,2次元画像>ペアデータの不足である。 ドメインランダム化による顕著な成果にインスパイアされたObjectDRは、オブジェクトの外観や背景の視覚的変化をランダムにシミュレーションすることで、そのようなペア化されたデータを合成する。 データ合成フレームワークは、条件生成モデル(例えば、ControlNet)を利用して、2.5Dスケッチのような空間条件に応じた画像を生成し、オブジェクトコレクション(例えば、Objaverse-XL)から3次元形状のレンダリングプロセスによって取得できる。 空間的条件に埋め込まれた物体シルエットを保存しながら様々なバリエーションをシミュレートするために,初期オブジェクトガイダンスを利用する非絡み合いフレームワークも導入する。 広い範囲のデータを合成した後、モデルに事前トレーニングを行い、様々な領域で一貫性のある領域不変の幾何を捉えることを学習する。 実世界のベンチマークで3次元形状復元モデルを大幅に改善し,その妥当性を検証した。 スケールアップ評価では、高品質なコンピュータグラフィックスレンダリングの事前学習と比較して、事前学習が23.6%優れた結果を得た。

One of the biggest challenges in single-view 3D shape reconstruction in the wild is the scarcity of <3D shape, 2D image>-paired data from real-world environments. Inspired by remarkable achievements via domain randomization, we propose ObjectDR which synthesizes such paired data via a random simulation of visual variations in object appearances and backgrounds. Our data synthesis framework exploits a conditional generative model (e.g., ControlNet) to generate images conforming to spatial conditions such as 2.5D sketches, which are obtainable through a rendering process of 3D shapes from object collections (e.g., Objaverse-XL). To simulate diverse variations while preserving object silhouettes embedded in spatial conditions, we also introduce a disentangled framework which leverages an initial object guidance. After synthesizing a wide range of data, we pre-train a model on them so that it learns to capture a domain-invariant geometry prior which is consistent across various domains. We validate its effectiveness by substantially improving 3D shape reconstruction models on a real-world benchmark. In a scale-up evaluation, our pre-training achieves 23.6% superior results compared with the pre-training on high-quality computer graphics renderings.
翻訳日:2024-03-22 13:29:56 公開日:2024-03-21
# EDT:エントロピーに基づく動的温度サンプリングによる大規模言語モデル生成の改善

EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling ( http://arxiv.org/abs/2403.14541v1 )

ライセンス: Link先を確認
Shimao Zhang, Yu Bao, Shujian Huang, (参考訳) 近年,Large Language Models (LLMs) は下流言語タスクにおいて,優れた性能を発揮している。 温度サンプリングは、LLMの生成プロセスにおいて一般的に用いられる復号法である。 しかし、ほとんどのケースでは温度パラメータが固定されているため、生成品質と多様性のバランスをとるのに最適ではないかもしれない。 本稿では,効率的なエントロピーに基づく動的温度サンプリング法を提案し,温度パラメータを動的に選択することで,生成品質と多様性の両面でよりバランスのとれた性能を実現する。 さらに,4つの世代ベンチマークのモデル性能と包括的解析について述べる。 我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。

Recently, Large Language Models (LLMs) have demonstrated outstanding performance across a wide range of downstream language tasks. Temperature sampling is a commonly used decoding strategy for LLMs' generation process. However, a fixed temperature parameter is used in most cases, which may not always be an optimal choice for balancing generation quality and diversity. In this paper, we propose an effective Entropy-based Dynamic Temperature (EDT) Sampling method, to achieve a more balanced performance in terms of both generation quality and diversity by dynamically selecting the temperature parameter. Additionally, we also show model performance and comprehensive analyses for 4 different generation benchmarks. Our experiments show that EDT significantly outperforms the existing strategies across different tasks.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# リモートセンシング画像におけるチャネルデータ拡張の物理的情報整合性の推定

Estimating Physical Information Consistency of Channel Data Augmentation for Remote Sensing Images ( http://arxiv.org/abs/2403.14547v1 )

ライセンス: Link先を確認
Tom Burgert, Begüm Demir, (参考訳) 深層学習(DL)手法へのデータ拡張の適用は、教師付き、半教師付き、自己教師付き画像分類において、最先端の結果を達成する上で重要な役割を担っている。 特に、チャネル変換(例えば、太陽電池、グレースケール、明るさ調整)は、リモートセンシング(RS)画像分類タスクのためのデータ拡張パイプラインに統合される。 しかし、RS画像への適切な適用については矛盾する信念が存在する。 批判の共通点は、チャネル拡張技術の応用が物理的に矛盾するスペクトルデータ(ピクセルシグネチャ)につながる可能性があることである。 公開討論の場では,チャネル拡張手法がRS画像の物理的情報に影響を及ぼすかどうかを推定する手法を提案する。 提案手法は, 取得条件や植生の現象的状態などの要因によって自然に生じるずれを考慮に入れた時系列内の画素シグネチャのアライメントを測定するスコアを推定する。 物理一貫性を評価するために,オリジナルおよび拡張ピクセルシグネチャに関連するスコアを比較した。 マルチラベル画像分類タスクの実験結果から,元の画素署名のずれが期待されるスコアを超えるチャネル拡張は,拡張なしで訓練されたベースラインモデルの性能を向上できないことが示された。

The application of data augmentation for deep learning (DL) methods plays an important role in achieving state-of-the-art results in supervised, semi-supervised, and self-supervised image classification. In particular, channel transformations (e.g., solarize, grayscale, brightness adjustments) are integrated into data augmentation pipelines for remote sensing (RS) image classification tasks. However, contradicting beliefs exist about their proper applications to RS images. A common point of critique is that the application of channel augmentation techniques may lead to physically inconsistent spectral data (i.e., pixel signatures). To shed light on the open debate, we propose an approach to estimate whether a channel augmentation technique affects the physical information of RS images. To this end, the proposed approach estimates a score that measures the alignment of a pixel signature within a time series that can be naturally subject to deviations caused by factors such as acquisition conditions or phenological states of vegetation. We compare the scores associated with original and augmented pixel signatures to evaluate the physical consistency. Experimental results on a multi-label image classification task show that channel augmentations yielding a score that exceeds the expected deviation of original pixel signatures can not improve the performance of a baseline model trained without augmentation.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# DINO-Tracker:「DINO-Tracker」(動画)

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video ( http://arxiv.org/abs/2403.14548v1 )

ライセンス: Link先を確認
Narek Tumanyan, Assaf Singer, Shai Bagon, Tali Dekel, (参考訳) DINO-Tracker - ビデオにおける長時間の高密度トラッキングのための新しいフレームワーク。 我々のアプローチの柱は、DINO-ViTモデルによって学習された強力な局所的セマンティック機能と、単一のビデオ上でのテスト時間トレーニングを組み合わせることである。 具体的には、テストビデオの動作観察に適合するDINOの機能を同時に採用し、改良された機能を直接活用するトラッカーをトレーニングする。 フレームワーク全体は、自己管理された損失と、DINOのセマンティクスから利益を維持するための正規化の組み合わせを使って、エンドツーエンドでトレーニングされています。 広範評価により,本手法は既知のベンチマークで最先端の結果が得られることが示された。 DINOトラッカーは自己管理手法よりも優れており、最先端のトラッカーと競合する一方で、長期の閉塞下での追跡に苦慮するケースでは優れる。

We present DINO-Tracker -- a new framework for long-term dense tracking in video. The pillar of our approach is combining test-time training on a single video, with the powerful localized semantic features learned by a pre-trained DINO-ViT model. Specifically, our framework simultaneously adopts DINO's features to fit to the motion observations of the test video, while training a tracker that directly leverages the refined features. The entire framework is trained end-to-end using a combination of self-supervised losses, and regularization that allows us to retain and benefit from DINO's semantic prior. Extensive evaluation demonstrates that our method achieves state-of-the-art results on known benchmarks. DINO-tracker significantly outperforms self-supervised methods and is competitive with state-of-the-art supervised trackers, while outperforming them in challenging cases of tracking under long-term occlusions.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# コミュニケーションロボットとの人間-XAIインタラクションにおける動的説明強調

Dynamic Explanation Emphasis in Human-XAI Interaction with Communication Robot ( http://arxiv.org/abs/2403.14550v1 )

ライセンス: Link先を確認
Yosuke Fukuchi, Seiji Yamada, (参考訳) コミュニケーションロボットは、テキストやグラフィカルな説明以上のインターフェースとして、人間とXAIの効果的な相互作用に寄与する可能性がある。 彼らの強みの1つは、説明に詳細なニュアンスを加えるために物理的な表現と声の表現を使うことができることである。 しかし,ロボットがこのような表現をどう適用できるか,特に動的相互作用において,タスクやユーザに応じて適応的に表現を活用できる戦略を開発するかは明らかになっていない。 そこで本研究では,XAI生成した説明を物理表現で強調する場所を決定するためのコミュニケーションロボットDynEmphを提案する。 特定のポイントをユーザに強調する効果を予測し、予測されたユーザ決定とAIが提案する決定との違いを最小化することを目指している。 DynEmphは、データ駆動方式で強調すべき場所を決定するための戦略を特徴としており、手動で戦略を設計する必要がなくなる。 さらに,ユーザの選択戦略がユーザの判断にどう影響するかを検討する実験を行った。 結果から,AI提案のパフォーマンスが高いという条件下では,ナイーブ戦略(AIの最も可能性の高いクラスの説明を強調すること)が必ずしも有効ではないことが示唆された。

Communication robots have the potential to contribute to effective human-XAI interaction as an interface that goes beyond textual or graphical explanations. One of their strengths is that they can use physical and vocal expressions to add detailed nuances to explanations. However, it is not clear how a robot can apply such expressions, or in particular, how we can develop a strategy to adaptively use such expressions depending on the task and user in dynamic interactions. To address this question, this paper proposes DynEmph, a method for a communication robot to decide where to emphasize XAI-generated explanations with physical expressions. It predicts the effect of emphasizing certain points on a user and aims to minimize the expected difference between predicted user decisions and AI-suggested ones. DynEmph features a strategy for deciding where to emphasize in a data-driven manner, relieving engineers from the need to manually design a strategy. We further conducted experiments to investigate how emphasis selection strategies affect the performance of user decisions. The results suggest that, while a naive strategy (emphasizing explanations for an AI's most probable class) does not necessarily work better, DynEmph effectively guides users to better decisions under the condition that the performance of the AI suggestion is high.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# Lexicon-Level Contrastive Visual-Groundingが言語モデリングを改善した

Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling ( http://arxiv.org/abs/2403.14551v1 )

ライセンス: Link先を確認
Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas, (参考訳) 今日の最も正確な言語モデルは、人間の言語学習者が受けるものよりも、桁違いに多くの言語データに基づいて訓練されています。 LMの表現と予測をより正確(そして人間らしく)し、より生態学的に妥当な監督ができるだろうか? 本稿では,視覚的監督を利用してテキスト表現を改善する言語学習手法であるLexiContrastive Grounding (LCG)について述べる。 LexiContrastive Groundingは、次のトークン予測戦略と対照的な視覚的接地目標を組み合わせることで、語彙情報をエンコードする初期層表現に焦点を当てる。 複数の単語学習と文理解ベンチマークを通じて、LexiContrastive Groundingは学習効率において標準言語のみのモデルを上回るだけでなく、CLIP、GIT、Flamingo、Vokenizationといった視覚および言語学習手順も改善している。 さらに、LexiContrastive Groundingは、複数の言語モデリングタスクにおいて、パープレキシティを約5%改善する。 この研究は、視覚的基盤を言語モデルに組み込むことの可能性を強調し、人間の言語習得のマルチモーダルな性質とより密接に一致させる。

Today's most accurate language models are trained on orders of magnitude more language data than human language learners receive - but with no supervision from other sensory modalities that play a crucial role in human learning. Can we make LMs' representations and predictions more accurate (and more human-like) with more ecologically plausible supervision? This paper describes LexiContrastive Grounding (LCG), a grounded language learning procedure that leverages visual supervision to improve textual representations. LexiContrastive Grounding combines a next token prediction strategy with a contrastive visual grounding objective, focusing on early-layer representations that encode lexical information. Across multiple word-learning and sentence-understanding benchmarks, LexiContrastive Grounding not only outperforms standard language-only models in learning efficiency, but also improves upon vision-and-language learning procedures including CLIP, GIT, Flamingo, and Vokenization. Moreover, LexiContrastive Grounding improves perplexity by around 5% on multiple language modeling tasks. This work underscores the potential of incorporating visual grounding into language models, aligning more closely with the multimodal nature of human language acquisition.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# Token Transformation Matters: Token Transformation Matters: toward the Faithful Post-Hoc Explanation for Vision Transformer (特集:情報ネットワーク)

Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer ( http://arxiv.org/abs/2403.14552v1 )

ライセンス: Link先を確認
Junyi Wu, Bin Duan, Weitai Kang, Hao Tang, Yan Yan, (参考訳) トランスフォーマーは様々なコンピュータビジョンアプリケーションで急速に人気を博しているが、その内部メカニズムに関するポストホックな説明はほとんど未解明のままである。 視覚変換器は、画像領域を変換トークンとして表現し、注意重みを通して統合することにより、視覚情報を抽出する。 しかし、既存のポストホックな説明法は単にこれらの注意重みを単に考慮し、変換されたトークンから重要な情報を無視するだけであり、モデルの予測の背後にある理論的根拠を正確に説明できない。 トークン変換の影響を解釈に組み込むために,トークン変換効果の測定を利用した新しいポストホックな説明法であるTokenTMを提案する。 具体的には,トークン長の変化と,その方向と前後の相関を計測することにより,トークン変換効果の定量化を行う。 さらに,全層にわたる注目重みとトークン変換効果を統合化するための初期化ルールと集約ルールを開発し,モデル全体の全体的なトークンコントリビューションをキャプチャする。 セグメンテーションおよび摂動試験による実験結果から,提案したTokenTMは最新技術であるVision Transformer法と比較して優れていることが示された。

While Transformers have rapidly gained popularity in various computer vision applications, post-hoc explanations of their internal mechanisms remain largely unexplored. Vision Transformers extract visual information by representing image regions as transformed tokens and integrating them via attention weights. However, existing post-hoc explanation methods merely consider these attention weights, neglecting crucial information from the transformed tokens, which fails to accurately illustrate the rationales behind the models' predictions. To incorporate the influence of token transformation into interpretation, we propose TokenTM, a novel post-hoc explanation method that utilizes our introduced measurement of token transformation effects. Specifically, we quantify token transformation effects by measuring changes in token lengths and correlations in their directions pre- and post-transformation. Moreover, we develop initialization and aggregation rules to integrate both attention weights and token transformation effects across all layers, capturing holistic token contributions throughout the model. Experimental results on segmentation and perturbation tests demonstrate the superiority of our proposed TokenTM compared to state-of-the-art Vision Transformer explanation methods.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# Gaussian Frosting: リアルタイムレンダリングによる編集可能な複雑放射場

Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering ( http://arxiv.org/abs/2403.14554v1 )

ライセンス: Link先を確認
Antoine Guédon, Vincent Lepetit, (参考訳) リアルタイムに複雑な3Dエフェクトの高品質なレンダリングと編集を行うメッシュベースの新しい表現であるGaussian Frostingを提案する。 我々のアプローチは、画像から放射場を近似するために3次元ガウスの集合を最適化する最近の3次元ガウス散乱フレームワークに基づいている。 そこで我々は,まず最適化中にガウス人からベースメッシュを抽出し,メッシュの周囲に異なる厚さのガウス人の適応層を構築して精製し,表面近傍の毛髪や草などの細部や体積効果をより正確に捉えることを提案する。 私たちはこの層をガウシアン・フロスティングと呼びます。 ファジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィジィ また,メッシュの変形,再スケーリング,編集,アニメーションを行う際に,ガウスのパラメータ化を導入して,凍結層内に留まるようにし,パラメータを自動的に調整する。 我々の表現は、ガウススプラッティングによる効率的なレンダリングと、ベースメッシュの変更による編集とアニメーションを可能にする。 本手法が様々な合成シーン, 実シーンにおいて有効であることを示し, 既存の表面ベース手法よりも優れていることを示す。 追加のコントリビューションとして、コードとWebベースのビューアをリリースします。 私たちのプロジェクトページは以下のとおりです。

We propose Gaussian Frosting, a novel mesh-based representation for high-quality rendering and editing of complex 3D effects in real-time. Our approach builds on the recent 3D Gaussian Splatting framework, which optimizes a set of 3D Gaussians to approximate a radiance field from images. We propose first extracting a base mesh from Gaussians during optimization, then building and refining an adaptive layer of Gaussians with a variable thickness around the mesh to better capture the fine details and volumetric effects near the surface, such as hair or grass. We call this layer Gaussian Frosting, as it resembles a coating of frosting on a cake. The fuzzier the material, the thicker the frosting. We also introduce a parameterization of the Gaussians to enforce them to stay inside the frosting layer and automatically adjust their parameters when deforming, rescaling, editing or animating the mesh. Our representation allows for efficient rendering using Gaussian splatting, as well as editing and animation by modifying the base mesh. We demonstrate the effectiveness of our method on various synthetic and real scenes, and show that it outperforms existing surface-based approaches. We will release our code and a web-based viewer as additional contributions. Our project page is the following: https://anttwo.github.io/frosting/
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# 6DoFオブジェクト位置推定のための可視性を考慮したキーポイント位置推定

Visibility-Aware Keypoint Localization for 6DoF Object Pose Estimation ( http://arxiv.org/abs/2403.14559v1 )

ライセンス: Link先を確認
Ruyi Lian, Haibin Ling, (参考訳) 2次元画像における事前定義された3Dキーポイントの局所化は、6DoFオブジェクトのポーズ推定のための3D-2D対応を確立する効果的な方法である。 しかし、目に見えないキーポイントの信頼性の低いローカライゼーション結果は、対応の質を低下させる。 本稿では、重要なキーポイントを可視性の観点からローカライズすることでこの問題に対処する。 キーポイント可視性情報は、現在データセット収集プロセスに欠けているため、非対称オブジェクトと対称オブジェクトの両方のキーポイントに対して、利用可能なオブジェクトレベルのアノテーションからバイナリ可視性ラベルを生成する効率的な方法を提案する。 さらに、PageRankアルゴリズムに基づくバイナリラベルから、実際の可視性を考慮した重要度を導出する。 可視性認識の重要性の柔軟性を生かしたVAPO (Visibility-Aware POse estimator) を構築し,その可視性認識の重要度を最先端のポーズ推定アルゴリズムと統合し,付加的な位置符号化を行う。 Linemod、Linemod-Occlusion、YCB-Vなど、一般的なポーズ推定ベンチマークで大規模な実験が行われた。 その結果、VAPOはキーポイント対応と最終的なポーズの両方を改善し、最先端のパフォーマンスを確実に達成することがわかった。

Localizing predefined 3D keypoints in a 2D image is an effective way to establish 3D-2D correspondences for 6DoF object pose estimation. However, unreliable localization results of invisible keypoints degrade the quality of correspondences. In this paper, we address this issue by localizing the important keypoints in terms of visibility. Since keypoint visibility information is currently missing in dataset collection process, we propose an efficient way to generate binary visibility labels from available object-level annotations, for keypoints of both asymmetric objects and symmetric objects. We further derive real-valued visibility-aware importance from binary labels based on PageRank algorithm. Taking advantage of the flexibility of our visibility-aware importance, we construct VAPO (Visibility-Aware POse estimator) by integrating the visibility-aware importance with a state-of-the-art pose estimation algorithm, along with additional positional encoding. Extensive experiments are conducted on popular pose estimation benchmarks including Linemod, Linemod-Occlusion, and YCB-V. The results show that, VAPO improves both the keypoint correspondences and final estimated poses, and clearly achieves state-of-the-art performances.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# 意味的復号化の時代

The Era of Semantic Decoding ( http://arxiv.org/abs/2403.14562v1 )

ライセンス: Link先を確認
Maxime Peyrard, Martin Josifoski, Robert West, (参考訳) 最近の研究は、LLMの固有の制限に対処するために、LLM間のコラボレーション、人間の入力、様々なツールを編成するというアイデアにおいて、大きな可能性を証明した。 セマンティック・デコーディング(セマンティック・デコーディング)と呼ばれる新しい視点を提案する。 具体的には,LLMを意味的トークン(既知の思考)と呼ばれる意味のある情報を操作するためのセマンティックプロセッサとして概念化する。 LLMは、検索エンジンやコードエグゼキュータといった人間やツールを含む、他のセマンティックプロセッサの大きなプールである。 集合的に、セマンティックプロセッサは、高度なユーティリティ出力を段階的に構築するために、セマンティックトークンの動的交換を行う。 セマンティック・プロセッサ間の協調的な相互作用を,セマンティック・デコーディング・アルゴリズムとして,セマンティック・スペースの最適化と探索を行う。 この概念は、構文的復号法においてよく研究されている問題と直接的に類似しており、構文的トークンの高ユーティリティシーケンスを抽出するために、自己回帰言語モデルを最大限に活用するアルゴリズムを構築する。 セマンティックレベルに注目し、構文の詳細を無視することで、AIシステムのエンジニアリングに関する新たな視点を得ることができ、より複雑なシステムや能力を持つシステムを想像することができます。 本稿では,構文的トークンから意味的トークンへの遷移と,構文的デコーディングと意味的デコーディングの類似を形式化する。 次に,セマンティックデコーディングアルゴリズムを用いてセマンティックトークンの空間内での最適化の可能性を検討する。 この新たな視点から得られた研究の機会と疑問のリストで締めくくります。 セマンティックデコーディングの観点は、意味のある概念の空間で直接検索と最適化のための強力な抽象化を提供し、セマンティックトークンは新しいタイプの計算の基本単位である。

Recent work demonstrated great promise in the idea of orchestrating collaborations between LLMs, human input, and various tools to address the inherent limitations of LLMs. We propose a novel perspective called semantic decoding, which frames these collaborative processes as optimization procedures in semantic space. Specifically, we conceptualize LLMs as semantic processors that manipulate meaningful pieces of information that we call semantic tokens (known thoughts). LLMs are among a large pool of other semantic processors, including humans and tools, such as search engines or code executors. Collectively, semantic processors engage in dynamic exchanges of semantic tokens to progressively construct high-utility outputs. We refer to these orchestrated interactions among semantic processors, optimizing and searching in semantic space, as semantic decoding algorithms. This concept draws a direct parallel to the well-studied problem of syntactic decoding, which involves crafting algorithms to best exploit auto-regressive language models for extracting high-utility sequences of syntactic tokens. By focusing on the semantic level and disregarding syntactic details, we gain a fresh perspective on the engineering of AI systems, enabling us to imagine systems with much greater complexity and capabilities. In this position paper, we formalize the transition from syntactic to semantic tokens as well as the analogy between syntactic and semantic decoding. Subsequently, we explore the possibilities of optimizing within the space of semantic tokens via semantic decoding algorithms. We conclude with a list of research opportunities and questions arising from this fresh perspective. The semantic decoding perspective offers a powerful abstraction for search and optimization directly in the space of meaningful concepts, with semantic tokens as the fundamental units of a new type of computation.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# 理科における学生の定型的評価応答評価のためのLLMを用いたチェーン・オブ・サート・プロンプティング手法

A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students' Formative Assessment Responses in Science ( http://arxiv.org/abs/2403.14565v1 )

ライセンス: Link先を確認
Clayton Cohn, Nicole Hutchins, Tuan Le, Gautam Biswas, (参考訳) 本稿は,K-12科学における大規模言語モデル(LLM)を用いた短期回答評価について述べる。 既存の手法では、より構造化された数学とコンピュータ科学の評価を採点できるが、スコアの説明は提供されないことが多い。 本研究は,中学の地球科学における自動評価にGPT-4を応用することに焦点を当てた。 提案手法は,提案手法を用いて,形式的評価応答に対する有意義な説明と評価を行う。 提案手法のプロスとコンスのシステマティック解析は,オープンエンドな科学評価のための自動グレーディングを向上するために,人間-イン-ザ-ループ技術の可能性に光を当てる。

This paper explores the use of large language models (LLMs) to score and explain short-answer assessments in K-12 science. While existing methods can score more structured math and computer science assessments, they often do not provide explanations for the scores. Our study focuses on employing GPT-4 for automated assessment in middle school Earth Science, combining few-shot and active learning with chain-of-thought reasoning. Using a human-in-the-loop approach, we successfully score and provide meaningful explanations for formative assessment responses. A systematic analysis of our method's pros and cons sheds light on the potential for human-in-the-loop techniques to enhance automated grading for open-ended science assessments.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# モデル改善のための概念ベースアプローチに関する調査研究

A survey on Concept-based Approaches For Model Improvement ( http://arxiv.org/abs/2403.14566v1 )

ライセンス: Link先を確認
Avani Gupta, P J Narayanan, (参考訳) 最近の研究の焦点は、様々なタスクにおけるDeep Neural Networks(DNN)のパフォーマンスを単に増加させることから、人間に解釈しやすいDNNへと移行した。 eXplainable Artificial Intelligence(XAI)の分野は、サリエンシベースのアプローチやコンセプトベースのアプローチなど、さまざまなテクニックを観測してきた。 概念に基づくアプローチは、コンセプトと呼ばれる単純な人間の理解可能な用語でモデルの判断を説明する。 概念は人間の解釈可能なデータの単位であり、人間の思考基盤である。 概念的な説明は、刺激的な相関、固有のバイアス、または賢いハンの検出を可能にする。 概念に基づく説明の出現に伴い、様々な概念表現法と自動概念発見アルゴリズムが存在する。 最近の手法では、ポストホックモデルのアンタングルメント評価に概念を用いるものもあれば、アンテホックトレーニングに使用するものもある。 コンセプトベースのアプローチは新しいもので、多くの表現が登場する。 様々な概念表現の体系的なレビューと分類と,その発見アルゴリズムをDNNで,特に視覚において提供する。 また,概念に基づくモデル改善手法を調査した最初の論文である,概念に基づくモデル改善文献について詳述する。

The focus of recent research has shifted from merely increasing the Deep Neural Networks (DNNs) performance in various tasks to DNNs, which are more interpretable to humans. The field of eXplainable Artificial Intelligence (XAI) has observed various techniques, including saliency-based and concept-based approaches. Concept-based approaches explain the model's decisions in simple human understandable terms called Concepts. Concepts are human interpretable units of data and are the thinking ground of humans. Explanations in terms of concepts enable detecting spurious correlations, inherent biases, or clever-hans. With the advent of concept-based explanations, there have been various concept representation methods and automatic concept discovery algorithms. Some recent methods use concepts for post-hoc model disentanglement evaluation, while others use them for ante-hoc training. The concept-based approaches are new, with many representations coming up, and there is very limited work on Concept-based Model improvement. We provide a systematic review and taxonomy of various concept representations and their discovery algorithms in DNNs, specifically in vision. We also provide details on concept-based model improvement literature, which is the first to survey concept-based model improvement methods.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# B-LoRAを用いたインプシットスタイル・コンテンツ分離

Implicit Style-Content Separation using B-LoRA ( http://arxiv.org/abs/2403.14572v1 )

ライセンス: Link先を確認
Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or, (参考訳) イメージスタイリングは、画像の視覚的な外観とテクスチャ(スタイル)を操作しつつ、その基盤となるオブジェクト、構造、概念(コンテンツ)を保存することを含む。 スタイルと内容の分離は、画像のスタイルをその内容から独立して操作するために不可欠であり、調和し、視覚的に喜ぶ結果を保証する。 この分離を実現するには、画像の視覚的特徴と意味的特徴の両方を深く理解する必要がある。 本稿では,LoRA(Low-Rank Adaptation)を利用して,画像のスタイルとコンテンツコンポーネントを暗黙的に分離し,画像スタイリング作業を容易にする手法であるB-LoRAを紹介する。 SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、B-LoRAと呼ばれる2つのブロックのLoRA重みを共同で学習することで、各B-LoRAを個別に訓練することでは達成できないスタイル-コンテンツ分離を実現する。 トレーニングを2ブロックに集約し、スタイルとコンテンツを分離することで、スタイル操作を大幅に改善し、モデル微調整に関連する過度な問題を克服できます。 トレーニングが完了すると、2つのB-LoRAは独立したコンポーネントとして使用でき、画像スタイルの転送、テキストベースの画像スタイリング、一貫したスタイル生成、スタイル内容の混合など、様々な画像スタイリングタスクが可能である。

Image stylization involves manipulating the visual appearance and texture (style) of an image while preserving its underlying objects, structures, and concepts (content). The separation of style and content is essential for manipulating the image's style independently from its content, ensuring a harmonious and visually pleasing result. Achieving this separation requires a deep understanding of both the visual and semantic characteristics of images, often necessitating the training of specialized models or employing heavy optimization. In this paper, we introduce B-LoRA, a method that leverages LoRA (Low-Rank Adaptation) to implicitly separate the style and content components of a single image, facilitating various image stylization tasks. By analyzing the architecture of SDXL combined with LoRA, we find that jointly learning the LoRA weights of two specific blocks (referred to as B-LoRAs) achieves style-content separation that cannot be achieved by training each B-LoRA independently. Consolidating the training into only two blocks and separating style and content allows for significantly improving style manipulation and overcoming overfitting issues often associated with model fine-tuning. Once trained, the two B-LoRAs can be used as independent components to allow various image stylization tasks, including image style transfer, text-based image stylization, consistent style generation, and style-content mixing.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# 先天的心臓手術後の予後評価における移動学習の因果的アプローチ

A Transfer Learning Causal Approach to Evaluate Racial/Ethnic and Geographic Variation in Outcomes Following Congenital Heart Surgery ( http://arxiv.org/abs/2403.14573v1 )

ライセンス: Link先を確認
Larry Han, Yi Zhang, Meena Nathan, John E. Mayer, Jr., Sara K. Pasquali, Katya Zelevinsky, Rui Duan, Sharon-Lise T. Normand, (参考訳) 先天性心不全(CHD)は米国で最も多い出生障害であり、手術成績は全国的に大きく異なる。 CHD治療の成績は特定の患者群で異なり、非ヒスパニック系黒人とヒスパニック系人口は死亡率と死亡率が高い。 人種/民族のサブグループにおける結果の有効な比較は、ケースミックスと小さなサブグループサイズに大きな違いがあるため困難である。 本稿では,結果評価のための因果推論フレームワークを提案し,トランスファーラーニングの進歩を活用して,ターゲットとソースの双方からのデータを組み込むことにより,リスク要因の異なる要因と集団間の結果差を考慮して因果効果を推定する。 胸部外科医の先天性心臓手術データベース(STS-CHSD)を用いて,2016-2022年にノーウッド手術を施行した患者の全国的コホートに焦点を当て,人種・民族性による外科的死亡率と死亡率の評価を行った。 人種的および民族的な結果の違いは、潜在的に矛盾する要因をコントロールした後に生じる。 地理は非ヒスパニック系コーカサス人の結果に因果的影響はないが、非ヒスパニック系黒人の患者は、30日間の死亡率は5.9%(標準誤差2.2%)から21.6%(4.4%)と見積もられている。

Congenital heart defects (CHD) are the most prevalent birth defects in the United States and surgical outcomes vary considerably across the country. The outcomes of treatment for CHD differ for specific patient subgroups, with non-Hispanic Black and Hispanic populations experiencing higher rates of mortality and morbidity. A valid comparison of outcomes within racial/ethnic subgroups is difficult given large differences in case-mix and small subgroup sizes. We propose a causal inference framework for outcome assessment and leverage advances in transfer learning to incorporate data from both target and source populations to help estimate causal effects while accounting for different sources of risk factor and outcome differences across populations. Using the Society of Thoracic Surgeons' Congenital Heart Surgery Database (STS-CHSD), we focus on a national cohort of patients undergoing the Norwood operation from 2016-2022 to assess operative mortality and morbidity outcomes across U.S. geographic regions by race/ethnicity. We find racial and ethnic outcome differences after controlling for potential confounding factors. While geography does not have a causal effect on outcomes for non-Hispanic Caucasian patients, non-Hispanic Black patients experience wide variability in outcomes with estimated 30-day mortality ranging from 5.9% (standard error 2.2%) to 21.6% (4.4%) across U.S. regions.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# ハイブリッドSi-BTOプラットフォームにおける光子対の生成

Generating Photon Pairs in a Hybrid Si-BTO Platform ( http://arxiv.org/abs/2403.14575v1 )

ライセンス: Link先を確認
Daniel Marchant, Imad Faruque, Jorge Barreto, (参考訳) ここでは,リング共振器と導波路構造からの光子対生成について述べる。 単一光子と同時発生率の解析により、Spontaneous Four-Wave Mixingは、類似特性を持つSOIデバイスから期待されるものと同等であり、それぞれ、リング共振器と導波路の構造に対して、$\gamma_{eff}$ (14.7$\pm$ 1.3) および (2.0 $\pm$0.3) MHz/mW$^{2}$ を求める。

Here we show photon pair generation from ring resonator and waveguide structures in a hybrid silicon-BTO on insulator platform with a pulsed pump. Our analysis of single photon and coincidence generation rates show that Spontaneous Four-Wave Mixing is comparable to that expected from SOI devices of similar characteristics and find a $\gamma_{eff}$ of (14.7 $\pm$ 1.3) and (2.0 $\pm$ 0.3) MHz/mW$^{2}$ for ring resonator and waveguide structures respectively.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# RAmBLA : バイオメディカル領域におけるLCMの信頼性評価フレームワーク

RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain ( http://arxiv.org/abs/2403.14578v1 )

ライセンス: Link先を確認
William James Bolton, Rafael Poyiadzi, Edward R. Morrell, Gabriela van Bergen Gonzalez Bueno, Lea Goetz, (参考訳) 大規模言語モデル(LLM)は、バイオメディシンのような潜在的に高い社会的影響を持つ領域でアプリケーションをサポートする傾向にあるが、現実的なユースケースにおける信頼性は低い。 本研究では,バイオメディカルLLMアシスタントのための信頼性評価フレームワーク(RAmBLA)を紹介し,バイオメディカルドメインにおける信頼性の高いアシスタントとして,4つの最先端のLLMが機能するかどうかを評価する。 本症例では, 迅速な堅牢性, 高いリコール, 幻覚の欠如を要件として検討した。 実世界のユーザインタラクションを模倣したLLMフリーフォーム応答を必要とするショートフォームタスクとタスクを設計する。 我々は,LLMの評価器を用いて,基底真理応答と意味的類似性を用いてLLMの性能を評価する。

Large Language Models (LLMs) increasingly support applications in a wide range of domains, some with potential high societal impact such as biomedicine, yet their reliability in realistic use cases is under-researched. In this work we introduce the Reliability AssesMent for Biomedical LLM Assistants (RAmBLA) framework and evaluate whether four state-of-the-art foundation LLMs can serve as reliable assistants in the biomedical domain. We identify prompt robustness, high recall, and a lack of hallucinations as necessary criteria for this use case. We design shortform tasks and tasks requiring LLM freeform responses mimicking real-world user interactions. We evaluate LLM performance using semantic similarity with a ground truth response, through an evaluator LLM.
翻訳日:2024-03-22 13:20:11 公開日:2024-03-21
# グローバル、ロバスト、および同等のデジタル炭素資産

Global, robust and comparable digital carbon assets ( http://arxiv.org/abs/2403.14581v1 )

ライセンス: Link先を確認
Sadiq Jaffer, Michael Dales, Patrick Ferris, Thomas Swinfield, Derek Sorensen, Robin Message, Anil Madhavapeddy, Srinivasan Keshav, (参考訳) 自発的な炭素市場で購入された炭素クレジットは、国際飛行や本質的な旅行などの避けられない排出を、熱帯の森林破壊からの排出を避けるなど、同等の気候上の利益によって相殺することができる。 しかし、これらの相反する主張の信頼性に関する多くの懸念が提起されている。 さらに、信用市場は手動であり、従って非効率で、計算不可能であり、従って不正である。 これらの課題に対処するために, リモートセンシングデータ, 現代のエコノメトリ技術, およびオンチェーン認証とトレーディングを組み合わせて, カーボンオフセット要求を透過的に検証できる新しいデジタルカーボン資産(PACTステーブルコイン)を創出する効率的なディジタル方法論を提案する。 PACT安定コイルは、CO2排出量の定量化だけでなく、生物多様性や管轄的属性などの共益に基づいて、類似のクレジットをプール内での楽しさを通じて流動性を高めることができるカーボンオフセットプロジェクトの気候効果を推定するための再現可能な計算パイプラインからの出力として生産される。 我々は,環境への影響を最小限に抑えつつ,低コストな取引を容易にするように設計されたTezosブロックチェーン上で,PACT炭素安定層を実装し,評価する。 私たちの実装には、発行、所有権、クレジットの廃止を追跡するレジストリの契約と、オンチェーンおよびオフチェーントランザクションをブリッジするカストディアン契約が含まれています。 我々の研究は、高完全性な炭素クレジット取引のための透明でスケーラブルで効率的なフレームワークを提供することで、自発的な炭素市場へのスケールと信頼をもたらします。

Carbon credits purchased in the voluntary carbon market allow unavoidable emissions, such as from international flights for essential travel, to be offset by an equivalent climate benefit, such as avoiding emissions from tropical deforestation. However, many concerns regarding the credibility of these offsetting claims have been raised. Moreover, the credit market is manual, therefore inefficient and unscalable, and non-fungible, therefore illiquid. To address these issues, we propose an efficient digital methodology that combines remote sensing data, modern econometric techniques, and on-chain certification and trading to create a new digital carbon asset (the PACT stablecoin) against which carbon offsetting claims can be transparently verified. PACT stablecoins are produced as outputs from a reproducible computational pipeline for estimating the climate benefits of carbon offset projects that not only quantifies the CO2 emissions involved, but also allows for similar credits to be pooled based on their co-benefits such as biodiversity and jurisdictional attributes, increasing liquidity through fungibility within pools. We implement and evaluate the PACT carbon stablecoin on the Tezos blockchain, which is designed to facilitate low-cost transactions while minimizing environmental impact. Our implementation includes a contract for a registry for tracking issuance, ownership, and retirement of credits, and a custodian contract to bridge on-chain and off-chain transactions. Our work brings scale and trust to the voluntary carbon market by providing a transparent, scalable, and efficient framework for high integrity carbon credit transactions.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 医療者の多項目質問分類のための大規模言語モデル

Large Language Models for Multi-Choice Question Classification of Medical Subjects ( http://arxiv.org/abs/2403.14582v1 )

ライセンス: Link先を確認
Víctor Ponce-López, (参考訳) 本研究の目的は,多票質問データに基づいて学習した大規模言語モデルを用いて,医療関係者の差別化を図ることである。 これは、自動質問応答の重要かつ困難なタスクである。 この目的を達成するために、我々は、推論された医療対象に対する質問の多クラス分類のためのディープニューラルネットワークを訓練する。 MedMCQAデータセットでは,Multi-Question (MQ) Sequence-BERT法を用いて,開発およびテストセットにおいて,それぞれ0.68と0.60の精度で,最先端の結果よりも優れていた。 この意味では、医療分野におけるマルチクラス化タスクにおいて、AIとLLMの能力を示す。

The aim of this paper is to evaluate whether large language models trained on multi-choice question data can be used to discriminate between medical subjects. This is an important and challenging task for automatic question answering. To achieve this goal, we train deep neural networks for multi-class classification of questions into the inferred medical subjects. Using our Multi-Question (MQ) Sequence-BERT method, we outperform the state-of-the-art results on the MedMCQA dataset with an accuracy of 0.68 and 0.60 on their development and test sets, respectively. In this sense, we show the capability of AI and LLMs in particular for multi-classification tasks in the Healthcare domain.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 分散マルチエージェントナビゲーションのための環境と政策の共最適化

Co-Optimization of Environment and Policies for Decentralized Multi-Agent Navigation ( http://arxiv.org/abs/2403.14583v1 )

ライセンス: Link先を確認
Zhan Gao, Guang Yang, Amanda Prorok, (参考訳) 本研究は,マルチエージェントシステムとその周辺環境を,一方の行動が他方に影響を与える共進化システムとみなす。 目標は、エージェントアクションと環境設定の両方を決定変数として、これら2つのコンポーネントを協調的に最適化して、いくつかの関心度を改善することです。 この目的のために,混在環境における分散マルチエージェントナビゲーションの問題点を考察する。 マルチエージェントナビゲーションと環境最適化の2つのサブオブジェクトを導入することで、$\textit{agent-environment co-optimization}を問題にし、$\textit{coordinated algorithm}を作成できる。 エージェント,環境,性能の関係を明示的にモデル化することの難しさから,協調フレームワーク内のモデルフリー学習機構を定式化するためにポリシー勾配を利用する。 正規収束解析により, 座標アルゴリズムは, 関連する時間変化非凸最適化問題の局所的最小軌道を追従することを示した。 大規模数値計算の結果は, 理論的知見を裏付け, ベースライン上での共最適化の利点を示す。 興味深いことに、最適化された環境構成は、動作中のエージェントを分解する鍵となる構造的ガイダンスを提供することができる。

This work views the multi-agent system and its surrounding environment as a co-evolving system, where the behavior of one affects the other. The goal is to take both agent actions and environment configurations as decision variables, and optimize these two components in a coordinated manner to improve some measure of interest. Towards this end, we consider the problem of decentralized multi-agent navigation in cluttered environments. By introducing two sub-objectives of multi-agent navigation and environment optimization, we propose an $\textit{agent-environment co-optimization}$ problem and develop a $\textit{coordinated algorithm}$ that alternates between these sub-objectives to search for an optimal synthesis of agent actions and obstacle configurations in the environment; ultimately, improving the navigation performance. Due to the challenge of explicitly modeling the relation between agents, environment and performance, we leverage policy gradient to formulate a model-free learning mechanism within the coordinated framework. A formal convergence analysis shows that our coordinated algorithm tracks the local minimum trajectory of an associated time-varying non-convex optimization problem. Extensive numerical results corroborate theoretical findings and show the benefits of co-optimization over baselines. Interestingly, the results also indicate that optimized environment configurations are able to offer structural guidance that is key to de-conflicting agents in motion.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 線形時系列予測モデルの解析

An Analysis of Linear Time Series Forecasting Models ( http://arxiv.org/abs/2403.14587v1 )

ライセンス: Link先を確認
William Toner, Luke Darlow, (参考訳) その単純さにもかかわらず、線形モデルはより深く、より高価なモデルに注意を払っていても、時系列の予測においてうまく機能する。 線形モデルに対する様々なバリエーションが提案されており、モデル一般化を改善するある種の特徴正規化を含むことが多い。 本稿では,これらの線形モデルアーキテクチャを用いて表現可能な関数の集合を解析する。 このようにして、時系列予測のためのいくつかの一般的な線形モデルの変種は、標準の非制約線形回帰と同等であり、機能的に区別できないことを示す。 線形変種ごとにモデルクラスを特徴付ける。 本研究では,各モデルが適当な拡張特徴集合に対して制約のない線形回帰として再解釈できることを示し,従って平均二乗損失関数を用いる場合の閉形式解を認める。 検査対象のモデルがほぼ同じ解を学習していることを示す実験的な証拠を提示し, 最終的に, より単純なクローズドフォームソリューションが, テスト設定の72%にまたがる優れた予測器であることを実証した。

Despite their simplicity, linear models perform well at time series forecasting, even when pitted against deeper and more expensive models. A number of variations to the linear model have been proposed, often including some form of feature normalisation that improves model generalisation. In this paper we analyse the sets of functions expressible using these linear model architectures. In so doing we show that several popular variants of linear models for time series forecasting are equivalent and functionally indistinguishable from standard, unconstrained linear regression. We characterise the model classes for each linear variant. We demonstrate that each model can be reinterpreted as unconstrained linear regression over a suitably augmented feature set, and therefore admit closed-form solutions when using a mean-squared loss function. We provide experimental evidence that the models under inspection learn nearly identical solutions, and finally demonstrate that the simpler closed form solutions are superior forecasters across 72% of test settings.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# ActRe: 対照的な自己学習のためのエージェントトラジェクトリの自律アノテーション

ReAct Meets ActRe: Autonomous Annotations of Agent Trajectories for Contrastive Self-Training ( http://arxiv.org/abs/2403.14589v1 )

ライセンス: Link先を確認
Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 言語エージェントは、基礎モデルによる推論により、自律的な意思決定能力を示した。 近年,多段階推論と行動軌跡をトレーニングデータとして,言語エージェントのパフォーマンス向上のための訓練が試みられている。 しかし、このような軌道の収集には、人工アノテーションや様々なプロンプトフレームワークの実装など、かなりの人的努力が必要である。 本稿では,A$^3$Tを提案する。A$^3$Tは,エージェントトラジェクトリの自律アノテーションをReActスタイルで実現するフレームワークである。 中心的な役割は、任意のアクションの理由を説明するActReプロンプトエージェントである。 外部アクションをランダムにサンプリングする場合、ReActスタイルのエージェントはActReエージェントにアクションを問い合わせ、そのテキストの合理性を得る。 新規な軌道は、ActReからサンプル化された作用への後続の推論を前もって合成される。 このようにして、ReActスタイルのエージェントは、失敗したタスクに対して複数のトラジェクトリを実行し、失敗したトラジェクトリを補完して、対照的な自己学習を行う。 二項化報酬を持つポリシー勾配法によって実現され、蓄積された軌道による対照的な自己学習は、言語エージェントによる複数ラウンドの自己改善のための閉ループを促進する。 我々はオープンソースのMistral-7B-Instruct-v0.2を用いたQLoRA微調整実験を行った。 AlfWorldでは、A$^3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。 WebShopでは、A$^3$Tエージェントの1ショットのパフォーマンスは人間の平均と一致し、4ラウンドの反復的な改善は、人間の専門家に近づくパフォーマンスに繋がる。 A$^3$Tエージェントは、GPT-4、高度なエージェントフレームワーク、完全に微調整されたLLMなど、既存の技術よりも大幅に優れていた。

Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotations or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 次世代AIコーディングアシスタントの構想:洞察と提案

Envisioning the Next-Generation AI Coding Assistants: Insights & Proposals ( http://arxiv.org/abs/2403.14592v1 )

ライセンス: Link先を確認
Khanh Nghiem, Anh Minh Nguyen, Nghi D. Q. Bui, (参考訳) AI for Software Engineering(AI4SE)のリサーチプロダクトハイブリッドグループとして、私たちは、IDE内AIコーディングアシスタントの開発経験から4つの重要なポイントを提示します。 AIコーディングアシスタントは、使用に対する明確な期待を設定し、高度なIDE機能と既存の拡張を統合し、拡張可能なバックエンドデザインを使用し、ダウンストリーム分析に責任を負うアプリデータを収集する必要がある。 我々は、次世代AIコーディングアシスタントのビジョンを実現するために、学術と産業が取り組むべきオープンな質問と課題を提案する。

As a research-product hybrid group in AI for Software Engineering (AI4SE), we present four key takeaways from our experience developing in-IDE AI coding assistants. AI coding assistants should set clear expectations for usage, integrate with advanced IDE capabilities and existing extensions, use extendable backend designs, and collect app data responsibly for downstream analyses. We propose open questions and challenges that academia and industry should address to realize the vision of next-generation AI coding assistants.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 逆逆強化学習の再考:政策模倣と移動可能なリワード回復の角度から

Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery ( http://arxiv.org/abs/2403.14593v1 )

ライセンス: Link先を確認
Yangchun Zhang, Yirui Zhou, (参考訳) 逆逆強化学習(AIRL)は模倣学習における基礎的なアプローチである。 本稿では、AIRLの2つの異なる角度、すなわちポリシー模倣と転送可能な報酬回復について再考する。 まず,SACの非政治的定式化と識別可能なマルコフ決定プロセス (MDP) モデルにより,政策最適化プロセス中に,SACをソフトアクタクリティカル (SAC) に置き換えてサンプル効率を向上させることから始める。 実際には、政策の模倣が大幅に改善されているが、トランスファー可能な報酬回復に誤って欠点をもたらす。 この問題を学習するために、SACアルゴリズム自体がAIRLトレーニングプロセス中に報酬関数を包括的に切り離すことが可能ではないことを述べ、良好な転送効果を得るためにハイブリッドフレームワークであるPPO-AIRL + SACを提案する。 さらに、代数理論の観点から、不整合報酬を抽出する環境の能力を解析する。

Adversarial inverse reinforcement learning (AIRL) stands as a cornerstone approach in imitation learning. This paper rethinks the two different angles of AIRL: policy imitation and transferable reward recovery. We begin with substituting the built-in algorithm in AIRL with soft actor-critic (SAC) during the policy optimization process to enhance sample efficiency, thanks to the off-policy formulation of SAC and identifiable Markov decision process (MDP) models with respect to AIRL. It indeed exhibits a significant improvement in policy imitation but accidentally brings drawbacks to transferable reward recovery. To learn this issue, we illustrate that the SAC algorithm itself is not feasible to disentangle the reward function comprehensively during the AIRL training process, and propose a hybrid framework, PPO-AIRL + SAC, for satisfactory transfer effect. Additionally, we analyze the capability of environments to extract disentangled rewards from an algebraic theory perspective.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# VXP:Voxel-Cross-Pixelの大規模画像-LiDAR位置認識

VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition ( http://arxiv.org/abs/2403.14594v1 )

ライセンス: Link先を確認
Yun-Jin Li, Mariia Gladkova, Yan Xia, Rui Wang, Daniel Cremers, (参考訳) 近年のグローバルプレース認識における課題は,画像ベースおよびLiDARに基づくモダリティにおいて,市販のグローバルディスクリプタが一般的に設計される検索問題として扱われている。 しかし、異なる領域(2D画像と3Dポイントクラウド)から一貫した堅牢なグローバル記述子を抽出することは困難であるため、正確な画像-LiDARグローバル位置認識を行うのは容易ではない。 この問題に対処するために,Voxel-Cross-Pixel (VXP) アプローチを提案する。 具体的には、VXPは、まずローカルな特徴対応を明示的に活用し、グローバルな記述子の類似性を強制する2段階の方法で訓練される。 3つのベンチマーク(Oxford RobotCar, ViViD++, KITTI)において、我々の手法が最先端のクロスモーダル検索をはるかに上回ることを示した。

Recent works on the global place recognition treat the task as a retrieval problem, where an off-the-shelf global descriptor is commonly designed in image-based and LiDAR-based modalities. However, it is non-trivial to perform accurate image-LiDAR global place recognition since extracting consistent and robust global descriptors from different domains (2D images and 3D point clouds) is challenging. To address this issue, we propose a novel Voxel-Cross-Pixel (VXP) approach, which establishes voxel and pixel correspondences in a self-supervised manner and brings them into a shared feature space. Specifically, VXP is trained in a two-stage manner that first explicitly exploits local feature correspondences and enforces similarity of global descriptors. Extensive experiments on the three benchmarks (Oxford RobotCar, ViViD++ and KITTI) demonstrate our method surpasses the state-of-the-art cross-modal retrieval by a large margin.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 強化された人間-ロボット協調のための拡張現実性:人間-ロボット間アプローチ

Extended Reality for Enhanced Human-Robot Collaboration: a Human-in-the-Loop Approach ( http://arxiv.org/abs/2403.14597v1 )

ライセンス: Link先を確認
Yehor Karpichev, Todd Charter, Homayoun Najjaran, (参考訳) 自動化の台頭は、製造プロセスにおいてより高い効率を達成する機会を提供してきたが、市場のニーズに迅速に対応し、カスタマイズの需要を満たすのに必要な柔軟性を損なうことがしばしばある。 人間とロボットのコラボレーションは、機械の強さと精度と人間の創造性と知覚的理解を組み合わせることで、これらの課題に取り組みます。 本稿では,人間とロボット間の直感的なコミュニケーションとプログラミングを容易にするために,人間とループの原理を取り入れ,拡張現実性(XR)を活用する自律型機械学習ベースのマニピュレータの実装フレームワークを概念化し,提案する。 さらに、この概念はロボット学習プロセスに直接人間の関与を予測し、より高い適応性とタスクの一般化をもたらす。 本稿は,提案するフレームワークを実現する上で重要な技術を強調し,デジタルエコシステム全体を発展させることの重要性を強調した。 さらに,人間とロボットのコラボレーションにおけるXRの既存の実装手法を概観し,多様な視点と方法論を示す。 課題と今後の展望を議論し、より自然な人間とロボットの相互作用と産業の景観の統合のために、XRの大きな障害と潜在的研究の道のりを掘り下げる。

The rise of automation has provided an opportunity to achieve higher efficiency in manufacturing processes, yet it often compromises the flexibility required to promptly respond to evolving market needs and meet the demand for customization. Human-robot collaboration attempts to tackle these challenges by combining the strength and precision of machines with human ingenuity and perceptual understanding. In this paper, we conceptualize and propose an implementation framework for an autonomous, machine learning-based manipulator that incorporates human-in-the-loop principles and leverages Extended Reality (XR) to facilitate intuitive communication and programming between humans and robots. Furthermore, the conceptual framework foresees human involvement directly in the robot learning process, resulting in higher adaptability and task generalization. The paper highlights key technologies enabling the proposed framework, emphasizing the importance of developing the digital ecosystem as a whole. Additionally, we review the existent implementation approaches of XR in human-robot collaboration, showcasing diverse perspectives and methodologies. The challenges and future outlooks are discussed, delving into the major obstacles and potential research avenues of XR for more natural human-robot interaction and integration in the industrial landscape.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# PSALM: 大規模マルチモーダルモデルによる画素分割

PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model ( http://arxiv.org/abs/2403.14598v1 )

ライセンス: Link先を確認
Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai, (参考訳) PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。 テキスト出力に制限されるLMMの制限を克服するため、PSALMはマスクデコーダとよく設計された入力スキーマを組み込んで、様々なセグメンテーションタスクを処理する。 このスキーマには、画像、タスク命令、条件付きプロンプト、マスクトークンが含まれており、モデルのセグメンテーションマスクを効果的に生成し分類することができる。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。 PSALMは、RefCOCO/RefCOCO+/RefCOCOg、COCO-Interactiveといったいくつかのベンチマークにおいて優れた結果を出し、また、オープンボキャブラリセグメンテーション、一般化された参照式セグメンテーション、ビデオオブジェクトセグメンテーションなど、目に見えないタスクでゼロショット機能を示す。 広範な実験を通じて、PSALMは、自然言語処理で見られるようなLMMの堅牢な視覚的理解能力を活用して、画像セグメンテーションの領域を変換する可能性を示した。 コードとモデルはhttps://github.com/zamling/PSALM.comで入手できる。

PSALM is a powerful extension of the Large Multi-modal Model (LMM) to address the segmentation task challenges. To overcome the limitation of the LMM being limited to textual output, PSALM incorporates a mask decoder and a well-designed input schema to handle a variety of segmentation tasks. This schema includes images, task instructions, conditional prompts, and mask tokens, which enable the model to generate and classify segmentation masks effectively. The flexible design of PSALM supports joint training across multiple datasets and tasks, leading to improved performance and task generalization. PSALM achieves superior results on several benchmarks, such as RefCOCO/RefCOCO+/RefCOCOg, COCO Panoptic Segmentation, and COCO-Interactive, and further exhibits zero-shot capabilities on unseen tasks, such as open-vocabulary segmentation, generalized referring expression segmentation and video object segmentation, making a significant step towards a GPT moment in computer vision. Through extensive experiments, PSALM demonstrates its potential to transform the domain of image segmentation, leveraging the robust visual understanding capabilities of LMMs as seen in natural language processing. Code and models are available at https://github.com/zamling/PSALM.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# Renoise:イテレーティブなノイズ付けによるリアルイメージのインバージョン

ReNoise: Real Image Inversion Through Iterative Noising ( http://arxiv.org/abs/2403.14602v1 )

ライセンス: Link先を確認
Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, Daniel Cohen-Or, (参考訳) テキスト誘導拡散モデルの最近の進歩は、強力な画像操作能力を解放している。 しかし、これらの手法を実画像に適用するには、事前訓練された拡散モデルの領域への画像の反転が必要である。 忠実な逆転を実現することは依然として課題であり、特に最近のモデルでは、少数のデノゲーションステップで画像を生成するように訓練されている。 本研究では,操作数の増加を伴わずに再現精度を向上し,高品質な操作比を持つインバージョン手法を提案する。 本手法は,拡散サンプリング過程を逆転させることで,各逆サンプリング工程において反復型雑音発生機構を用いる。 このメカニズムは、事前訓練された拡散モデルを繰り返し適用し、これらの予測を平均化することにより、前方拡散軌道に沿った予測点の近似を洗練する。 我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。 総合的な評価と比較を通じて、精度と速度の両面でその有効性を示す。 さらに,本手法は,実画像上でのテキスト駆動画像編集を実証することにより,編集性を維持していることを確認した。

Recent advancements in text-guided diffusion models have unlocked powerful image manipulation capabilities. However, applying these methods to real images necessitates the inversion of the images into the domain of the pretrained diffusion model. Achieving faithful inversion remains a challenge, particularly for more recent models trained to generate images with a small number of denoising steps. In this work, we introduce an inversion method with a high quality-to-operation ratio, enhancing reconstruction accuracy without increasing the number of operations. Building on reversing the diffusion sampling process, our method employs an iterative renoising mechanism at each inversion sampling step. This mechanism refines the approximation of a predicted point along the forward diffusion trajectory, by iteratively applying the pretrained diffusion model, and averaging these predictions. We evaluate the performance of our ReNoise technique using various sampling algorithms and models, including recent accelerated diffusion models. Through comprehensive evaluations and comparisons, we show its effectiveness in terms of both accuracy and speed. Furthermore, we confirm that our method preserves editability by demonstrating text-driven image editing on real images.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# DreamReward: 人選好によるテキストから3D生成

DreamReward: Text-to-3D Generation with Human Preference ( http://arxiv.org/abs/2403.14613v1 )

ライセンス: Link先を確認
Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu, (参考訳) テキストプロンプトによる3Dコンテンツ作成は、最近目覚ましい成功を収めた。 しかし、現在のテキストから3Dの手法は、人間の好みとうまく一致しない3D結果を生成することが多い。 本稿では,人間の嗜好フィードバックからテキスト・ツー・3Dモデルを学習し,改良するための包括的フレームワークDreamRewardを提案する。 まず、評価とランキングを含む体系的なアノテーションパイプラインに基づいて、25kのエキスパート比較を収集する。 そして、人間の嗜好を効果的にエンコードするために、最初の汎用テキストから3Dの人間選好報酬モデルであるReward3Dを構築する。 3D報酬モデルを構築し、最終的に理論解析を行い、再定義スコアを用いた多視点拡散モデルの最適化を行う直接チューニングアルゴリズムであるReward3D Feedback Learning(DreamFL)を提示する。 我々のDreamRewardは、理論的な証明と広範囲な実験比較によって、人間の意図と迅速に一致して、高い忠実度と3D一貫性のある結果を生み出すことに成功した。 本研究は,テキスト・ツー・3Dモデルを改善するために,人間のフィードバックから学習する大きな可能性を実証するものである。

3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# Videoshop:ノイズ抽出拡散インバージョンによる局所的なセマンティックビデオ編集

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion ( http://arxiv.org/abs/2403.14617v1 )

ライセンス: Link先を確認
Xiang Fan, Anand Bhattad, Ranjay Krishna, (参考訳) 本稿では,局所的なセマンティック編集のためのトレーニング不要なビデオ編集アルゴリズムであるVideoshopを紹介する。 Videoshopを使えば、Photoshopやジェネレーティブ・インペイントなどの編集ソフトを使って最初のフレームを修正できる。 不正確なテキスト命令でしか編集できない既存の方法とは違って、Videoshopでは、ユーザーはオブジェクトの追加や削除、オブジェクトの意味的な変更、ストック写真をビデオに挿入したり、場所や外観を細かく制御したりできる。 ノイズ外挿で潜伏者を反転させることで、画像ベースの映像編集によりこれを実現し、編集画像に条件付き映像を生成する。 Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。

We introduce Videoshop, a training-free video editing algorithm for localized semantic edits. Videoshop allows users to use any editing software, including Photoshop and generative inpainting, to modify the first frame; it automatically propagates those changes, with semantic, spatial, and temporally consistent motion, to the remaining frames. Unlike existing methods that enable edits only through imprecise textual instructions, Videoshop allows users to add or remove objects, semantically change objects, insert stock photos into videos, etc. with fine-grained control over locations and appearance. We achieve this through image-based video editing by inverting latents with noise extrapolation, from which we generate videos conditioned on the edited image. Videoshop produces higher quality edits against 6 baselines on 2 editing benchmarks using 10 evaluation metrics.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# 簡易拡散シュレーディンガー橋

Simplified Diffusion Schrödinger Bridge ( http://arxiv.org/abs/2403.14623v1 )

ライセンス: Link先を確認
Zhicong Tang, Tiankai Hang, Shuyang Gu, Dong Chen, Baining Guo, (参考訳) 本稿では、複雑なデータ生成におけるDSBの限界に対処し、より高速な収束と性能向上を実現するため、Score-based Generative Models (SGMs)との一体化を容易にするDiffusion Schr\"odinger Bridge (DSB) の新たな理論的単純化を提案する。 DSB の初期ソリューションとして SGM を採用することで,本手法は両フレームワークの長所を生かし,より効率的なトレーニングプロセスの確保と SGM の性能向上を実現している。 また、理論的近似にも拘わらず、ネットワークの適合性を実質的に改善するパラメータ化手法を提案する。 本研究は,DSBの簡易化の有効性を実験的に検証し,その大幅な改善を実証した。 この研究の貢献が、先進的な生成モデリングの道を開くと信じている。 コードはhttps://github.com/tzco/Simplified-Diffusion-Schrodinger-Bridgeで公開されている。

This paper introduces a novel theoretical simplification of the Diffusion Schr\"odinger Bridge (DSB) that facilitates its unification with Score-based Generative Models (SGMs), addressing the limitations of DSB in complex data generation and enabling faster convergence and enhanced performance. By employing SGMs as an initial solution for DSB, our approach capitalizes on the strengths of both frameworks, ensuring a more efficient training process and improving the performance of SGM. We also propose a reparameterization technique that, despite theoretical approximations, practically improves the network's fitting capabilities. Our extensive experimental evaluations confirm the effectiveness of the simplified DSB, demonstrating its significant improvements. We believe the contributions of this work pave the way for advanced generative modeling. The code is available at https://github.com/tzco/Simplified-Diffusion-Schrodinger-Bridge.
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# MathVerse: あなたのマルチモーダルLCMは、視覚数学の問題でダイアグラムを本当に見ますか?

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? ( http://arxiv.org/abs/2403.14624v1 )

ライセンス: Link先を確認
Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li, (参考訳) MLLM(Multi-modal Large Language Models)の顕著な進歩は、視覚的文脈における優れた性能のため、例外なく注目されている。 しかし、視覚数学の問題解決におけるそれらの能力は、まだ十分に評価され理解されていない。 本稿では,入力図を真に解釈することなく,MLLMによる解答の導出を支援するため,テキスト質問に過剰な視覚的コンテンツを組み込むための現在のベンチマークについて検討する。 この目的のために,MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。 我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。 それぞれの問題は、人間のアノテータによって6つの異なるバージョンに変換され、それぞれが多モードで様々な情報コンテンツを提供し、合計で15Kのテストサンプルに寄与する。 このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。 さらに,出力応答のきめ細かい評価のためのChain-of-Thought (CoT) 評価戦略を提案する。 我々はTrue や False を経時的に判断する代わりに GPT-4(V) を用いて重要な推論ステップを適応的に抽出し,各ステップを詳細な誤差解析によりスコアし,MLLM による中間的 CoT 推論品質を明らかにする。 MathVerseベンチマークがMLLMの今後の開発をガイドするためのユニークな洞察を提供することを期待している。 プロジェクトページ: https://mathverse-cuhk.github.io

The remarkable progress of Multi-modal Large Language Models (MLLMs) has garnered unparalleled attention, due to their superior performance in visual contexts. However, their capabilities in visual math problem-solving remain insufficiently evaluated and understood. We investigate current benchmarks to incorporate excessive visual content within textual questions, which potentially assist MLLMs in deducing answers without truly interpreting the input diagrams. To this end, we introduce MathVerse, an all-around visual math benchmark designed for an equitable and in-depth evaluation of MLLMs. We meticulously collect 2,612 high-quality, multi-subject math problems with diagrams from publicly available sources. Each problem is then transformed by human annotators into six distinct versions, each offering varying degrees of information content in multi-modality, contributing to 15K test samples in total. This approach allows MathVerse to comprehensively assess whether and how much MLLMs can truly understand the visual diagrams for mathematical reasoning. In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a fine-grained assessment of the output answers. Rather than naively judging True or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and then score each step with detailed error analysis, which can reveal the intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark may provide unique insights to guide the future development of MLLMs. Project page: https://mathverse-cuhk.github.io
翻訳日:2024-03-22 13:10:20 公開日:2024-03-21
# MyVLM: ユーザ特化クエリのためのVLMのパーソナライズ

MyVLM: Personalizing VLMs for User-Specific Queries ( http://arxiv.org/abs/2403.14599v1 )

ライセンス: Link先を確認
Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or, (参考訳) 近年の大規模視覚言語モデル(VLM)は、視覚コンテンツに対するテキスト記述の理解と生成において顕著な能力を示している。 しかし、これらのモデルにはユーザー固有の概念の理解が欠けている。 本研究では,VLMのパーソナライズに向けて第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。 例えば、これらのモデルが、イメージの中であなたを認識し、自分がやっていることを伝え、自分の個人的な経験や関係を反映するようにモデルを調整できるかどうかを探索する。 様々なユーザ固有の概念を効果的に認識するために、モデルのトグルとして機能する外部概念ヘッドを付加し、VLMが所定の画像中の特定のターゲット概念の存在を識別できるようにする。 この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。 この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。 本手法をBLIP-2とLLaVAに応用して画像キャプションのパーソナライズを行い,さらにパーソナライズされた視覚的質問応答への適用性を示す。 実験では,無関係な入力に対するモデル動作を保ちながら,学習概念の未知の画像に一般化できることを実証した。

Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 微分プログラミングの要素

The Elements of Differentiable Programming ( http://arxiv.org/abs/2403.14606v1 )

ライセンス: Link先を確認
Mathieu Blondel, Vincent Roulet, (参考訳) 人工知能は最近、大きなモデル、膨大なデータセット、ハードウェアの高速化、そして最後に、差別化可能なプログラミングの変革的なパワーによって、目覚ましい進歩を経験した。 この新しいプログラミングパラダイムは、複雑なコンピュータプログラム(制御フローやデータ構造を含む)のエンドツーエンドの微分を可能にし、プログラムパラメータの勾配に基づく最適化を可能にする。 新たなパラダイムとして、微分可能プログラミングは、自動微分、グラフィカルモデル、最適化、統計など、コンピュータ科学と応用数学のいくつかの分野に基盤を置いている。 本書は、微分可能プログラミングに有用な基本概念を包括的にレビューする。 最適化の観点と確率の観点という2つの主要な視点を採用し、両者の間に明らかな類似点がある。 微分可能プログラミングは単にプログラムの差別化ではなく、プログラムの差別化を意図した思慮深い設計である。 プログラムを識別可能にすることで、プログラムの実行上の確率分布を本質的に導入し、プログラム出力に関連する不確実性を定量化する手段を提供する。

Artificial intelligence has recently experienced remarkable advances, fueled by large models, vast datasets, accelerated hardware, and, last but not least, the transformative power of differentiable programming. This new programming paradigm enables end-to-end differentiation of complex computer programs (including those with control flows and data structures), making gradient-based optimization of program parameters possible. As an emerging paradigm, differentiable programming builds upon several areas of computer science and applied mathematics, including automatic differentiation, graphical models, optimization and statistics. This book presents a comprehensive review of the fundamental concepts useful for differentiable programming. We adopt two main perspectives, that of optimization and that of probability, with clear analogies between the two. Differentiable programming is not merely the differentiation of programs, but also the thoughtful design of programs intended for differentiation. By making programs differentiable, we inherently introduce probability distributions over their execution, providing a means to quantify the uncertainty associated with program outputs.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 定深さ雑音IQP回路の多項式時間古典シミュレーション

Polynomial-Time Classical Simulation of Noisy IQP Circuits with Constant Depth ( http://arxiv.org/abs/2403.14607v1 )

ライセンス: Link先を確認
Joel Rajakumar, James D. Watson, Yi-Kai Liu, (参考訳) 瞬時量子多項式(IQP)計算と呼ばれる通勤ゲートのみからなる量子計算の出力分布からサンプリングすることは、古典的コンピュータでは難解であると考えられており、量子デバイスの性能をテストするための主要な候補となっている。 ここでは, 臨界$O(1)$閾値よりも深さが大きい任意のIQP回路において, 従来の計算機で効率よく出力分布をサンプリングできることを実証する。 量子超越性タスクの他のシミュレーションアルゴリズムとは異なり、回路のアーキテクチャ、反集中特性、および回路深さが$\Omega(\log(n))$であるような仮定は必要としない。 我々は、IQP回路が対角ゲートの深い部分を持つという事実を利用して、ノイズが予測可能となり、回路内の絡み合いの大規模な分解を誘発する。 この結果から,IQP回路に基づく量子超越性実験は従来考えられていたよりも古典的シミュレーションの影響を受けやすい可能性が示唆された。

Sampling from the output distributions of quantum computations comprising only commuting gates, known as instantaneous quantum polynomial (IQP) computations, is believed to be intractable for classical computers, and hence this task has become a leading candidate for testing the capabilities of quantum devices. Here we demonstrate that for an arbitrary IQP circuit undergoing dephasing or depolarizing noise, whose depth is greater than a critical $O(1)$ threshold, the output distribution can be efficiently sampled by a classical computer. Unlike other simulation algorithms for quantum supremacy tasks, we do not require assumptions on the circuit's architecture, on anti-concentration properties, nor do we require $\Omega(\log(n))$ circuit depth. We take advantage of the fact that IQP circuits have deep sections of diagonal gates, which allows the noise to build up predictably and induce a large-scale breakdown of entanglement within the circuit. Our results suggest that quantum supremacy experiments based on IQP circuits may be more susceptible to classical simulation than previously thought.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v1 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff, Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを調整して特定のタスクに適応させ、導入された追加のパラメータの数や計算リソースを最小化するプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、サポートするシステムプラットフォーム設計において大きな課題を生じさせるため、大きな言語モデルと高いパラメータ数を扱う場合、このアプローチは特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点に加えて,様々な実世界のシステム設計を概観し,異なるPEFTアルゴリズムによる実装コストについて検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adapt the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large models to adapt it to a specific task while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to the algorithmic perspective, we overview various real-world system designs to investigate the implementation costs associated with different PEFT algorithms. This survey serves as an indispensable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed insights into recent advancements and practical applications.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# T-Rex2:テキスト・ビジュアル・プロンプト・シナジーによるジェネリック・オブジェクト検出を目指して

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy ( http://arxiv.org/abs/2403.14610v1 )

ライセンス: Link先を確認
Qing Jiang, Feng Li, Zhaoyang Zeng, Tianhe Ren, Shilong Liu, Lei Zhang, (参考訳) 我々は、オープンセットオブジェクト検出のための非常に実用的なモデルであるT-Rex2を提案する。 テキストプロンプトに依存する従来のオープンセットオブジェクト検出手法は、一般的なオブジェクトの抽象的な概念を効果的にカプセル化するが、データ不足と記述的制限のため、希少または複雑なオブジェクト表現に苦労する。 逆に、ビジュアルプロンプトは、具体的な視覚的な例を通して、新しいオブジェクトを描くのに優れているが、テキストプロンプトと同様に、抽象的なオブジェクトの概念を伝えることには不足している。 テキストと視覚的プロンプトの相補的な長所と短所を認識し, 対照的な学習を通して, 一つのモデル内で両方のプロンプトを相乗化するT-Rex2を導入する。 T-Rex2はテキストプロンプト、視覚的プロンプト、両方の組み合わせを含む様々な形式の入力を受け付けるため、2つのプロンプトモダリティを切り替えることで異なるシナリオを処理できる。 総合的な実験により、T-Rex2は様々なシナリオで顕著なゼロショット物体検出能力を示すことが示された。 テキストのプロンプトと視覚的なプロンプトが相乗効果の恩恵を受けることを示す。これは、大規模で複雑な現実世界のシナリオをカバーし、ジェネリックオブジェクト検出への道を開くのに不可欠である。 Model APIは現在、 \url{https://github.com/IDEA-Research/T-Rex}で利用可能である。

We present T-Rex2, a highly practical model for open-set object detection. Previous open-set object detection methods relying on text prompts effectively encapsulate the abstract concept of common objects, but struggle with rare or complex object representation due to data scarcity and descriptive limitations. Conversely, visual prompts excel in depicting novel objects through concrete visual examples, but fall short in conveying the abstract concept of objects as effectively as text prompts. Recognizing the complementary strengths and weaknesses of both text and visual prompts, we introduce T-Rex2 that synergizes both prompts within a single model through contrastive learning. T-Rex2 accepts inputs in diverse formats, including text prompts, visual prompts, and the combination of both, so that it can handle different scenarios by switching between the two prompt modalities. Comprehensive experiments demonstrate that T-Rex2 exhibits remarkable zero-shot object detection capabilities across a wide spectrum of scenarios. We show that text prompts and visual prompts can benefit from each other within the synergy, which is essential to cover massive and complicated real-world scenarios and pave the way towards generic object detection. Model API is now available at \url{https://github.com/IDEA-Research/T-Rex}.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 時間と空間の相互関係の探索

Explorative Inbetweening of Time and Space ( http://arxiv.org/abs/2403.14611v1 )

ライセンス: Link先を確認
Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang, (参考訳) 任意のカメラと被写体の動きを、所定の開始フレームと終了フレームのみに基づいて合成するために、映像生成を制御するための一般化タスクとして有界生成を導入する。 我々の目的は、オリジナルモデルの訓練や微調整を伴わずに、画像から映像へのモデル固有の一般化能力をフル活用することである。 これは、タイム・リバーサル・フュージョン(Time Reversal Fusion)と呼ばれる新しいサンプリング戦略によって実現される。 融合された経路は、2つのフレームを円滑に接続し、忠実な被写体運動、新しい静的シーンのビュー、そして2つのバウンディングフレームが同一であるときにシームレスなビデオループを生成する。 画像ペアの多様な評価データセットをキュレートし、既存の手法と比較する。 その結果,Time Reversal Fusionはすべてのサブタスクの関連作業よりも優れており,複雑な動きを発生させる能力と,境界フレームでガイドされる3D一貫性のビューが示されることがわかった。 プロジェクトページはhttps://time-reversal.github.ioにある。

We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# AdaIR: 周波数マイニングと変調による適応的なオールインワン画像復元

AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation ( http://arxiv.org/abs/2403.14614v1 )

ライセンス: Link先を確認
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan, (参考訳) 画像取得プロセスでは、ノイズ、ヘイズ、雨などの様々な形態の劣化が頻繁に導入される。 これらの劣化は、通常、カメラの固有の制限や、好ましくない環境条件から生じる。 劣化した画像からクリーンな画像を復元するために, 特定の種類の劣化をターゲットとした多数の特殊復元法が開発されている。 近年,入力劣化型の事前情報を必要とせず,単一のモデル内で異なるタイプの劣化に対処することで,オールインワンアルゴリズムに大きな注目を集めている。 しかし、これらの手法は純粋に空間領域で動作し、異なる劣化タイプ固有の異なる周波数変化を探索しない。 このギャップに対処するために、周波数マイニングと変調に基づく適応的なオールインワン画像復元ネットワークを提案する。 本手法は, 異なる周波数サブバンド上の画像内容に異なる劣化タイプが与える影響について考察し, 修復作業ごとに異なる処理が必要であることを考察した。 具体的には、まず入力特徴から低周波および高周波情報を抽出し、劣化した画像の適応的に分解されたスペクトルを導出する。 抽出された特徴は、異なる周波数成分間の相互作用を容易にするために、双方向演算子によって変調される。 最後に、変調された特徴を元の入力にマージし、段階的にガイドされた復元を行う。 このアプローチにより、入力劣化に応じて情報周波数サブバンドをアクセントすることで適応的再構成を実現する。 広汎な実験により, 提案手法は, 復調, 脱臭, デラリニング, 動きの鈍化, 低照度画像強調など, 様々な画像復元作業において, 最先端の性能を達成できることが実証された。 私たちのコードはhttps://github.com/c-yn/AdaIR.comで公開されています。

In the image acquisition process, various forms of degradation, including noise, haze, and rain, are frequently introduced. These degradations typically arise from the inherent limitations of cameras or unfavorable ambient conditions. To recover clean images from degraded versions, numerous specialized restoration methods have been developed, each targeting a specific type of degradation. Recently, all-in-one algorithms have garnered significant attention by addressing different types of degradations within a single model without requiring prior information of the input degradation type. However, these methods purely operate in the spatial domain and do not delve into the distinct frequency variations inherent to different degradation types. To address this gap, we propose an adaptive all-in-one image restoration network based on frequency mining and modulation. Our approach is motivated by the observation that different degradation types impact the image content on different frequency subbands, thereby requiring different treatments for each restoration task. Specifically, we first mine low- and high-frequency information from the input features, guided by the adaptively decoupled spectra of the degraded image. The extracted features are then modulated by a bidirectional operator to facilitate interactions between different frequency components. Finally, the modulated features are merged into the original input for a progressively guided restoration. With this approach, the model achieves adaptive reconstruction by accentuating the informative frequency subbands according to different input degradations. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on different image restoration tasks, including denoising, dehazing, deraining, motion deblurring, and low-light image enhancement. Our code is available at https://github.com/c-yn/AdaIR.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 階層型テキスト・ビジョン・セルフ・ビジョン・アライメントによる組織学的表現学習の改善

Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning ( http://arxiv.org/abs/2403.14616v1 )

ライセンス: Link先を確認
Hasindri Watawana, Kanchana Ranasinghe, Tariq Mahmood, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 自己監督型表現学習は, 患者と患者の衝突・パッチの階層を活かし, より優れた表現を学習する多くのアプローチを用いて, 病理組織像解析に非常に有望である。 本稿では,そのような階層的視覚表現とドメイン固有自然言語情報の組み合わせが,医用画像タスクの豊かな表現学習にどのように役立つかを検討する。 病理画像に見る機能のための自動言語記述生成を基盤として,階層型言語型自己監督(HLSS)という,新しい言語型自己教師学習フレームワークを提案する。 比較対象と言語記述に基づくテキストアライメントを複数階層で検討し、視覚表現に言語モダリティ情報を注入する。 その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。 私たちのフレームワークは、言語に整合した表現空間において、より優れた解釈可能性を提供します。 コードはhttps://github.com/Hasindri/HLSSで入手できる。

Self-supervised representation learning has been highly promising for histopathology image analysis with numerous approaches leveraging their patient-slide-patch hierarchy to learn better representations. In this paper, we explore how the combination of domain specific natural language information with such hierarchical visual representations can benefit rich representation learning for medical image tasks. Building on automated language description generation for features visible in histopathology images, we present a novel language-tied self-supervised learning framework, Hierarchical Language-tied Self-Supervision (HLSS) for histopathology images. We explore contrastive objectives and granular language description based text alignment at multiple hierarchies to inject language modality information into the visual representations. Our resulting model achieves state-of-the-art performance on two medical imaging benchmarks, OpenSRH and TCGA datasets. Our framework also provides better interpretability with our language aligned representation space. Code is available at https://github.com/Hasindri/HLSS.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# ClusteringSDF: 3次元分解のための自己組織化ニューラルインシシデント表面

ClusteringSDF: Self-Organized Neural Implicit Surfaces for 3D Decomposition ( http://arxiv.org/abs/2403.14619v1 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham, Qianyi Wu, (参考訳) 3Dの分解/分離は、大規模な3Dアノテーション付きデータがすぐに利用できないため、依然として課題である。 現代のアプローチは一般的に2Dマシン生成セグメントを利用し、3D一貫性のためにそれらを統合している。 これらの手法の大部分はNeRFに基づいているが、独立なMLPに由来するインスタンス/セマンティック埋め込みの特徴が潜在的な弱点に直面しているため、分割ネットワークは放射率と密度を直接的に物体の幾何学的詳細を学ぶのを妨げている。 本稿では,ニューラルな暗示表面表現,特に信号距離関数(SDF)を用いて3次元のセグメンテーションと再構成を両立させる新しい手法であるClusteringSDFを提案し,そのセグメンテーションレンダリングをニューラルな暗示表面のボリュームレンダリングと直接統合する。 ObjectSDF++をベースとしたClusteringSDFは,個々のオブジェクト表面を再構築する能力を維持しつつ,監視のための基盤的トラストセグメントをもはや必要とせず,純粋に事前訓練されたモデルからのノイズや不整合性のあるラベルと併用する。ClusteringSDFのコアとして,2Dラベルを3Dに持ち上げるための高効率なクラスタリング機構を導入し,ScanNetとReplicaデータセットによる挑戦的なシーンにおける実験結果から,ClusteringSDFは,トレーニング時間を大幅に短縮した現状と比較して,競争的なパフォーマンスを実現することができることを示す。

3D decomposition/segmentation still remains a challenge as large-scale 3D annotated data is not readily available. Contemporary approaches typically leverage 2D machine-generated segments, integrating them for 3D consistency. While the majority of these methods are based on NeRFs, they face a potential weakness that the instance/semantic embedding features derive from independent MLPs, thus preventing the segmentation network from learning the geometric details of the objects directly through radiance and density. In this paper, we propose ClusteringSDF, a novel approach to achieve both segmentation and reconstruction in 3D via the neural implicit surface representation, specifically Signal Distance Function (SDF), where the segmentation rendering is directly integrated with the volume rendering of neural implicit surfaces. Although based on ObjectSDF++, ClusteringSDF no longer requires the ground-truth segments for supervision while maintaining the capability of reconstructing individual object surfaces, but purely with the noisy and inconsistent labels from pre-trained models.As the core of ClusteringSDF, we introduce a high-efficient clustering mechanism for lifting the 2D labels to 3D and the experimental results on the challenging scenes from ScanNet and Replica datasets show that ClusteringSDF can achieve competitive performance compared against the state-of-the-art with significantly reduced training time.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# GRM:高効率3次元再構成・生成のための大規模ガウス再構成モデル

GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation ( http://arxiv.org/abs/2403.14621v1 )

ライセンス: Link先を確認
Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, Gordon Wetzstein, (参考訳) 約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率よく組み込んだフィードフォワードトランスフォーマーベースのモデルであり、入力画素を画素整列ガウスに変換する。 トランスフォーマーアーキテクチャと3Dガウシアンの使用により、スケーラブルで効率的な再構築フレームワークがアンロックされる。 大規模な実験結果から,再建の質と効率の両面において,提案手法が代替手法よりも優れていることが示された。 また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。 プロジェクトのWebサイトは以下の通り。

We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 長いビデオ理解のための言語リポジトリ

Language Repository for Long Video Understanding ( http://arxiv.org/abs/2403.14622v1 )

ライセンス: Link先を確認
Kumara Kahatapitiya, Kanchana Ranasinghe, Jongwoo Park, Michael S. Ryoo, (参考訳) 言語はマルチモーダルLLMの台頭とともに、コンピュータビジョンにおいて顕著なモダリティとなった。 長い文脈長をサポートするにもかかわらず、長期情報を扱う効果は、入力長とともに徐々に減少していく。 これは特に長大なビデオ理解のような応用において重要なものとなる。 本稿では,LLMのためのLang Repository(LangRepo)を提案する。 本リポジトリは,マルチスケールビデオチャンクに基づいて反復的に更新される。 テキスト中の冗長性を抽出し,様々な時間スケールで情報を抽出する書き込み・読み出し操作を導入する。 提案手法は,EgoSchema, NExT-QA, IntentQA, NExT-GQAなどのゼロショット視覚的質問応答ベンチマークを用いて評価し, その規模での現状を示す。 私たちのコードはhttps://github.com/kkahatapitiya/LangRepo.comで公開されています。

Language has become a prominent modality in computer vision with the rise of multi-modal LLMs. Despite supporting long context-lengths, their effectiveness in handling long-term information gradually declines with input length. This becomes critical, especially in applications such as long-form video understanding. In this paper, we introduce a Language Repository (LangRepo) for LLMs, that maintains concise and structured information as an interpretable (i.e., all-textual) representation. Our repository is updated iteratively based on multi-scale video chunks. We introduce write and read operations that focus on pruning redundancies in text, and extracting information at various temporal scales. The proposed framework is evaluated on zero-shot visual question-answering benchmarks including EgoSchema, NExT-QA, IntentQA and NExT-GQA, showing state-of-the-art performance at its scale. Our code is available at https://github.com/kkahatapitiya/LangRepo.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# LiFT:高密度なViTディスクリプタのための、驚くほどシンプルな軽量機能変換

LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors ( http://arxiv.org/abs/2403.14625v1 )

ライセンス: Link先を確認
Saksham Suri, Matthew Walmer, Kamal Gupta, Abhinav Shrivastava, (参考訳) 本稿では、高密度下流タスクにおけるVT機能の性能を向上させるための簡易な自己教師手法を提案する。 我々の軽量特徴変換(LiFT)は、任意のトレーニング済みViTバックボーンの機能を強化するために適用可能な、単純でコンパクトな後処理ネットワークである。 LiFTは自己指導型で高速かつ容易に訓練でき、ViT機能の密度を最小限の余分な推論コストで向上させる。 さらに、COCO検出とセグメンテーションのためにLiFTとViTDetを統合することで、タスク固有の下流モジュールを使用するアプローチでLiFTを適用できることを実証する。 LiFTの単純さにもかかわらず、より複雑な双線型補間法を学習しているわけではないことが分かる。 代わりに、我々のLiFTトレーニングプロトコルは、高密度下流タスクにおいてViT機能に利益をもたらすいくつかの望ましい創発性をもたらす。 これには、機能に対する大きなスケールの不変性や、よりよいオブジェクト境界マップが含まれる。 いくつかのエポックでLiFTをトレーニングすることで、キーポイント対応、検出、セグメンテーション、オブジェクト発見タスクの性能が改善された。 全体として、LiFTはより高密度な特徴配列の利点を計算コストのごく一部で解放する簡単な方法を提供する。 詳細は、https://www.cs.umd.edu/~sakshams/LiFT/のプロジェクトページを参照してください。

We present a simple self-supervised method to enhance the performance of ViT features for dense downstream tasks. Our Lightweight Feature Transform (LiFT) is a straightforward and compact postprocessing network that can be applied to enhance the features of any pre-trained ViT backbone. LiFT is fast and easy to train with a self-supervised objective, and it boosts the density of ViT features for minimal extra inference cost. Furthermore, we demonstrate that LiFT can be applied with approaches that use additional task-specific downstream modules, as we integrate LiFT with ViTDet for COCO detection and segmentation. Despite the simplicity of LiFT, we find that it is not simply learning a more complex version of bilinear interpolation. Instead, our LiFT training protocol leads to several desirable emergent properties that benefit ViT features in dense downstream tasks. This includes greater scale invariance for features, and better object boundary maps. By simply training LiFT for a few epochs, we show improved performance on keypoint correspondence, detection, segmentation, and object discovery tasks. Overall, LiFT provides an easy way to unlock the benefits of denser feature arrays for a fraction of the computational cost. For more details, refer to our project page at https://www.cs.umd.edu/~sakshams/LiFT/.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# ODTFormer:変換器を用いたステレオカメラによる効率的な障害物検出・追跡

ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer ( http://arxiv.org/abs/2403.14626v1 )

ライセンス: Link先を確認
Tianye Ding, Hongyu Li, Huaizu Jiang, (参考訳) 障害物検出と追跡は、自律走行ロボットにとって重要な要素である。 本稿では,障害検出と追跡の両問題に対処するトランスフォーマーモデルであるODTFormerを提案する。 そこで本手法では, ボクセル占有格子の形で段階的に復号化される3次元コストボリュームを構築するために, 変形可能な注意力を利用する。 さらに,連続フレーム間のボクセルのマッチングにより,障害物の追跡を行う。 モデル全体をエンドツーエンドで最適化することができる。 DrivingStereo と KITTI ベンチマークの広範な実験を通じて,障害物検出タスクにおける最先端性能を実現する。 また、最先端の障害物追跡モデルに匹敵する精度を報告し、計算コストのごく一部しか必要とせず、典型的には10倍から20倍以下である。 コードとモデルの重み付けは公開されます。

Obstacle detection and tracking represent a critical component in robot autonomous navigation. In this paper, we propose ODTFormer, a Transformer-based model to address both obstacle detection and tracking problems. For the detection task, our approach leverages deformable attention to construct a 3D cost volume, which is decoded progressively in the form of voxel occupancy grids. We further track the obstacles by matching the voxels between consecutive frames. The entire model can be optimized in an end-to-end manner. Through extensive experiments on DrivingStereo and KITTI benchmarks, our model achieves state-of-the-art performance in the obstacle detection task. We also report comparable accuracy to state-of-the-art obstacle tracking models while requiring only a fraction of their computation cost, typically ten-fold to twenty-fold less. The code and model weights will be publicly released.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# MVSplat: まばらなマルチビュー画像から高効率な3Dガウス撮影

MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images ( http://arxiv.org/abs/2403.14627v1 )

ライセンス: Link先を確認
Yuedong Chen, Haofei Xu, Chuanxia Zheng, Bohan Zhuang, Marc Pollefeys, Andreas Geiger, Tat-Jen Cham, Jianfei Cai, (参考訳) スパース多視点画像から学習した効率的なフィードフォワード3次元ガウススプラッティングモデルであるMVSplatを提案する。 ガウス中心を正確にローカライズするために,3次元空間における平面スイーピングによるコスト容積表現を提案する。 我々はガウス原始体の不透明度、共分散、球面調和係数をガウス中心と共同で学習するが、これは測光監督にのみ依存する。 本研究では,学習用フィードフォワードガウススプラッティングモデルにおけるコスト容積表現の重要性を実験的に検証した。 大規模なRealEstate10KとACのベンチマークでは,高速なフィードフォワード推論速度(22fps)で最先端の性能を実現している。 最新の最先端のメソッドであるPixelSplatと比較して、我々のモデルは10\times $ lessパラメータを使用し、より高速な2\times$を推論します。

We propose MVSplat, an efficient feed-forward 3D Gaussian Splatting model learned from sparse multi-view images. To accurately localize the Gaussian centers, we propose to build a cost volume representation via plane sweeping in the 3D space, where the cross-view feature similarities stored in the cost volume can provide valuable geometry cues to the estimation of depth. We learn the Gaussian primitives' opacities, covariances, and spherical harmonics coefficients jointly with the Gaussian centers while only relying on photometric supervision. We demonstrate the importance of the cost volume representation in learning feed-forward Gaussian Splatting models via extensive experimental evaluations. On the large-scale RealEstate10K and ACID benchmarks, our model achieves state-of-the-art performance with the fastest feed-forward inference speed (22 fps). Compared to the latest state-of-the-art method pixelSplat, our model uses $10\times $ fewer parameters and infers more than $2\times$ faster while providing higher appearance and geometry quality as well as better cross-dataset generalization.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# ゼロショット多目的形状補完

Zero-Shot Multi-Object Shape Completion ( http://arxiv.org/abs/2403.14628v1 )

ライセンス: Link先を確認
Shun Iwase, Katherine Liu, Vitor Guizilini, Adrien Gaidon, Kris Kitani, Rares Ambrus, Sergey Zakharov, (参考訳) 1枚のRGB-D画像から複雑なシーンにおける複数の物体の完全な形状を復元する3次元形状補完法を提案する。 シングルオブジェクトの3D形状の完成が顕著に進んでいるにもかかわらず、高度に散らばった現実世界のマルチオブジェクトシーンにおける高品質な再構成は依然として課題である。 そこで本研究では,Octree U-Netと潜伏3D MAEを併用して,局所的および大域的幾何学的推論による高品質かつほぼリアルタイムなマルチオブジェクト形状補完を実現するアーキテクチャであるOctMAEを提案する。 潜伏空間においても,na\\ive 3D MAEは計算可能で,メモリ集約性が高いため,新しい隠蔽マスキング戦略を導入し,3次元回転埋め込みを導入し,実行時間と形状の整合性を大幅に向上させる。 多様な場面で広範囲のオブジェクトに一般化するために、我々は、物理に基づく位置決めを伴う多目的シーンでレンダリングされるObjaverseデータセットから12Kの3Dオブジェクトモデルの多種多様なセットを特徴とする大規模なフォトリアリスティックデータセットを作成する。 提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れ, 強力なゼロショット能力を示す。

We present a 3D shape completion method that recovers the complete geometry of multiple objects in complex scenes from a single RGB-D image. Despite notable advancements in single object 3D shape completion, high-quality reconstructions in highly cluttered real-world multi-object scenes remains a challenge. To address this issue, we propose OctMAE, an architecture that leverages an Octree U-Net and a latent 3D MAE to achieve high-quality and near real-time multi-object shape completion through both local and global geometric reasoning. Because a na\"ive 3D MAE can be computationally intractable and memory intensive even in the latent space, we introduce a novel occlusion masking strategy and adopt 3D rotary embeddings, which significantly improves the runtime and shape completion quality. To generalize to a wide range of objects in diverse scenes, we create a large-scale photorealistic dataset, featuring a diverse set of 12K 3D object models from the Objaverse dataset which are rendered in multi-object scenes with physics-based positioning. Our method outperforms the current state-of-the-art on both synthetic and real-world datasets and demonstrates a strong zero-shot capability.
翻訳日:2024-03-22 13:00:31 公開日:2024-03-21
# 学習画像圧縮のための周波数認識変換器

Frequency-Aware Transformer for Learned Image Compression ( http://arxiv.org/abs/2310.16387v3 )

ライセンス: Link先を確認
Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong, (参考訳) 近年,学習画像圧縮(lic)が画像記憶と伝送に有効なソリューションとして注目されている。 しかし、既存のlicメソッドは、異方性周波数成分の捕捉や方向の詳細の保存に制限があるため、遅延表現において冗長である。 これらの課題を克服するために,新しい周波数対応変換器 (FAT) ブロックを提案する。 FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。 さらに、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。 さらに、チャネル依存性を効果的に活用するトランスフォーマーベースのチャネルワイド自己回帰(T-CA)モデルを提案する。 実験により,本手法は既存の標準手法と比較して最先端の速度歪み性能を実現し,コダック,テックニック,CLICデータセット上でのBDレートの14.5%,15.1%,13.0%,最新の標準コーデックVTM-12.1よりも明らかに優れていた。

Learned image compression (LIC) has gained traction as an effective solution for image storage and transmission in recent years. However, existing LIC methods are redundant in latent representation due to limitations in capturing anisotropic frequency components and preserving directional details. To overcome these challenges, we propose a novel frequency-aware transformer (FAT) block that for the first time achieves multiscale directional ananlysis for LIC. The FAT block comprises frequency-decomposition window attention (FDWA) modules to capture multiscale and directional frequency components of natural images. Additionally, we introduce frequency-modulation feed-forward network (FMFFN) to adaptively modulate different frequency components, improving rate-distortion performance. Furthermore, we present a transformer-based channel-wise autoregressive (T-CA) model that effectively exploits channel dependencies. Experiments show that our method achieves state-of-the-art rate-distortion performance compared to existing LIC methods, and evidently outperforms latest standardized codec VTM-12.1 by 14.5%, 15.1%, 13.0% in BD-rate on the Kodak, Tecnick, and CLIC datasets.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# 大規模言語モデルを用いたゼロショット名前付きエンティティ認識の自己改善

Self-Improving for Zero-Shot Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2311.08921v3 )

ライセンス: Link先を確認
Tingyu Xie, Qi Li, Yan Zhang, Zuozhu Liu, Hongwei Wang, (参考訳) 名前付きエンティティ認識(NER)タスクへの強力な大規模言語モデル(LLM)の適用を探求する動きが,近年注目されている。 本研究は,ゼロショットNERとLLMの性能境界を,ラベルのないコーパスを用いてLLMの自己学習能力を刺激する学習自由な自己改善フレームワークを提案する。 まず,LLMを用いて自己整合性を用いてラベルなしコーパスの予測を行い,自己注釈付きデータセットを得る。 第2に、信頼できるアノテーションを選択して、信頼できる自己アノテーションデータセットを構築するための様々な戦略について検討する。 最後に、各テスト入力に対して、信頼性の高い自己アノテートデータセットからデモを取得し、コンテキスト内学習を通じて推論を行う。 4つのベンチマークの実験は、我々のフレームワークによって達成された大幅なパフォーマンス改善を示している。 包括的実験分析により,未ラベルコーパスの増大や自己改善の繰り返しはさらなる改善を保証しないが,信頼性の高いアノテーション選択のためのより高度な戦略により,性能が向上する可能性が示唆された。 コードとデータはhttps://github.com/Emma1066/Self-Improve-Zero-Shot-NERで公開されている。

Exploring the application of powerful large language models (LLMs) on the named entity recognition (NER) task has drawn much attention recently. This work pushes the performance boundary of zero-shot NER with LLMs by proposing a training-free self-improving framework, which utilizes an unlabeled corpus to stimulate the self-learning ability of LLMs. First, we use the LLM to make predictions on the unlabeled corpus using self-consistency and obtain a self-annotated dataset. Second, we explore various strategies to select reliable annotations to form a reliable self-annotated dataset. Finally, for each test input, we retrieve demonstrations from the reliable self-annotated dataset and perform inference via in-context learning. Experiments on four benchmarks show substantial performance improvements achieved by our framework. Through comprehensive experimental analysis, we find that increasing the size of unlabeled corpus or iterations of self-improving does not guarantee further improvement, but the performance might be boosted via more advanced strategies for reliable annotation selection. Code and data are publicly available at https://github.com/Emma1066/Self-Improve-Zero-Shot-NER
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# GSVA:マルチモーダル大言語モデルによる一般化セグメンテーション

GSVA: Generalized Segmentation via Multimodal Large Language Models ( http://arxiv.org/abs/2312.10103v3 )

ライセンス: Link先を確認
Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang, (参考訳) Generalized Referring Expression Segmentation (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。 GRESは、画像内のインスタンスの複雑な空間的関係をモデル化し、既存の参照を識別する際の課題を提起する。 MLLM(Multimodal Large Language Models)は、近年、複雑な視覚言語タスクにおいて大きな進歩を見せている。 LLM(Large Language Models)とビジョンモデル(Vision Models)を結びつけると、MLLMは視覚入力による文脈理解に長けている。 LISAは、代表として、セグメンテーションマスクデコーダ(例えばSAM)をプロンプトするために特別な[SEG]トークンを採用し、RESタスクでMLLMを有効にします。 しかし、GRESの既存のソリューションは、現在のセグメンテーションMLLMは、ユーザーが特定のプロンプトで複数の主題を参照したり、任意の画像ターゲットと矛盾する説明を提供するようなケースを正しく扱えないため、満足できないままである。 本稿では,このギャップに対処する汎用セグメンテーションビジョンアシスタント(GSVA)を提案する。 具体的には、GSVAは[SEG]トークンを再利用して、セグメンテーションモデルを複数のマスク参照を同時にサポートするように促し、革新的にnullターゲットを明示的に拒否する[REJ]トークンを生成することを学習する。 GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。 GSVAはまた、様々な古典的な参照セグメンテーションや理解タスクにおいて有効であることを示す。

Generalized Referring Expression Segmentation (GRES) extends the scope of classic RES to refer to multiple objects in one expression or identify the empty targets absent in the image. GRES poses challenges in modeling the complex spatial relationships of the instances in the image and identifying non-existing referents. Multimodal Large Language Models (MLLMs) have recently shown tremendous progress in these complicated vision-language tasks. Connecting Large Language Models (LLMs) and vision models, MLLMs are proficient in understanding contexts with visual inputs. Among them, LISA, as a representative, adopts a special [SEG] token to prompt a segmentation mask decoder, e.g., SAM, to enable MLLMs in the RES task. However, existing solutions to GRES remain unsatisfactory since current segmentation MLLMs cannot correctly handle the cases where users might reference multiple subjects in a singular prompt or provide descriptions incongruent with any image target. In this paper, we propose Generalized Segmentation Vision Assistant (GSVA) to address this gap. Specifically, GSVA reuses the [SEG] token to prompt the segmentation model towards supporting multiple mask references simultaneously and innovatively learns to generate a [REJ] token to reject the null targets explicitly. Experiments validate GSVA's efficacy in resolving the GRES issue, marking a notable enhancement and setting a new record on the GRES benchmark gRefCOCO dataset. GSVA also proves effective across various classic referring segmentation and comprehension tasks.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# 古典的ハードハミルトニアン類の基底状態解く多項式時間量子アルゴリズム

A polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians ( http://arxiv.org/abs/2401.13946v4 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) 本研究では,古典的ハードハミルトニアン群の基底状態を解く多項式時間量子アルゴリズムを提案する。 我々のアルゴリズムに現れた指数的スピードアップのメカニズムは、既存の全ての量子アルゴリズムとは異なる。 この考え方は、純状態を表すために密度行列を使用するために$f:\text{ }\rho\rightarrow |\rho\rangle$という写像を導入することである。 この写像は、$|\rho\rangle$の測定値から$|\rho\rangle$の情報を得る効率的な方法を与えることで意味を成す。 この写像の下で、リンドブラッドのマスター方程式(LME)は、自然な想像時間進化を含む非エルミート・ハミルトニアンを持つシュリンガー方程式(Schr\"odinger equation)となる。 したがって、 LME の定常状態は LME のリウヴィリア作用素の基底状態 $L^\dag L$ と $L$ に対応する。 LMEのランタイムは、$\mathcal{O}(log(\zeta^{-1}))$スケーリングを$\zeta$初期状態と基底状態の重複を$\mathcal{O}(poly(\zeta^{-1}))$スケーリングで示しています。 ハミルトンの$L^\dag L$は、LMEのシミュレーションが難しいと信じている場合、古典的なコンピュータでは難しいことが保証される。 さらに、既知の基底エネルギー$E_0$を持つ任意の局所ハミルトニアン$H$に対して、$H-E_0=L^\dag L$であるような$L$が存在するかどうかを判断し、解決するための多項式時間古典的な手続きを与える。 その後,アルゴリズムに現れる非線形力学を含む,アルゴリズムのいくつかの重要な側面を論じ,解析する。

In this work, we present a polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians. The mechanism of the exponential speedup that appeared in our algorithm is different from all existing quantum algorithms. The idea is to introduce a mapping $f:\text{ }\rho\rightarrow |\rho\rangle$ to use density matrices to represent pure states. We show that this mapping makes sense by giving an efficient method to obtain the information of $|\rho\rangle$ from measurements on $\rho$. Under this mapping, the Lindblad master equation (LME) becomes a Schr\"odinger equation with non-Hermitian Hamiltonian which contains natural imaginary time evolution. The steady state of the LME, therefore, corresponds to the ground state of $L^\dag L$ with $L$ the Liouvillian operator of the LME. We show the runtime of the LME has the $\mathcal{O}(log(\zeta^{-1}))$ scaling with $\zeta$ the overlap between the initial state and the ground state compared with the $\mathcal{O}(poly(\zeta^{-1}))$ scaling in other algorithms. The Hamiltonians $L^\dag L$ are guaranteed to be difficult for classical computers if we believe the simulation of LME is difficult. Further, for any given local Hamiltonian $H$ with known ground energy $E_0$, we give a polynomial-time classical procedure to judge and solve whether there exists $L$ such that $H-E_0=L^\dag L$. Later, We discuss and analyze several important aspects of the algorithm including the non-linear dynamics that appeared in the algorithm.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# 会話スタンス検出のための課題データセットと効果的なモデル

A Challenge Dataset and Effective Models for Conversational Stance Detection ( http://arxiv.org/abs/2403.11145v2 )

ライセンス: Link先を確認
Fuqiang Niu, Min Yang, Ang Li, Baoquan Zhang, Xiaojiang Peng, Bowen Zhang, (参考訳) 従来のスタンス検出研究は、通常、個々のインスタンス内のスタンスを評価することに集中しており、それによって、同一の特定のトピックに関する複数のパーティの議論を効果的にモデル化する制限が生じる。 この制約は主に、実際のソーシャルメディアコンテキストを忠実に再現するデータセットが不足していることによるものであり、会話のスタンス検出の研究の進歩を妨げる。 本稿では,会話姿勢検出のための複数の目標を含む,多ターン会話姿勢検出データセット(‘textbf{MT-CSD}’)を提案する。 この挑戦的なデータセットからスタンスを導出するため,会話データに固有の長距離および短距離の依存関係に対処するグローバルローカルアテンションネットワーク(\textbf{GLAN})を提案する。 特に、GLANによって実証された最先端のスタンス検出方法でさえ、50.47\%の精度しか示さず、会話のスタンス検出における永続的な課題を浮き彫りにしている。 さらに, MT-CSDデータセットは, 異なる対象から分類器を適応させる領域間位置検出の進歩を触媒する貴重な資源として機能する。 我々はMT-CSDがスタンス検出研究の現実的応用の進展に寄与すると信じている。 ソースコード、データ、モデルは、 \url{https://github.com/nfq729/MT-CSD}で利用可能です。

Previous stance detection studies typically concentrate on evaluating stances within individual instances, thereby exhibiting limitations in effectively modeling multi-party discussions concerning the same specific topic, as naturally transpire in authentic social media interactions. This constraint arises primarily due to the scarcity of datasets that authentically replicate real social media contexts, hindering the research progress of conversational stance detection. In this paper, we introduce a new multi-turn conversation stance detection dataset (called \textbf{MT-CSD}), which encompasses multiple targets for conversational stance detection. To derive stances from this challenging dataset, we propose a global-local attention network (\textbf{GLAN}) to address both long and short-range dependencies inherent in conversational data. Notably, even state-of-the-art stance detection methods, exemplified by GLAN, exhibit an accuracy of only 50.47\%, highlighting the persistent challenges in conversational stance detection. Furthermore, our MT-CSD dataset serves as a valuable resource to catalyze advancements in cross-domain stance detection, where a classifier is adapted from a different yet related target. We believe that MT-CSD will contribute to advancing real-world applications of stance detection research. Our source code, data, and models are available at \url{https://github.com/nfq729/MT-CSD}.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# ステレオマッチングのためのニューラルマルコフランダム場

Neural Markov Random Field for Stereo Matching ( http://arxiv.org/abs/2403.11193v2 )

ライセンス: Link先を確認
Tongfan Guan, Chen Wang, Yun-Hui Liu, (参考訳) ステレオマッチングは多くのコンピュータビジョンとロボティクスアプリケーションにとってコアタスクである。 従来のステレオ方式では優位であったが、手作りのマルコフランダムフィールド(MRF)モデルは、エンド・ツー・エンドのディープ・モデルに比べて十分なモデリング精度を欠いていた。 深層学習表現はMRFモデルの一意項を大幅に改善しているが、全体的な精度は手作りのペアワードとメッセージパッシングによって著しく制限されている。 これらの問題に対処するために、潜在的な機能とメッセージパッシングの両方をデータ駆動型ニューラルネットワークを用いて設計するニューラルネットワークモデルを提案する。 我々の完全データ駆動モデルは、収束問題を防止し、ステレオMDFのグラフ帰納バイアスを保持するために、変分推論理論の基礎の上に構築されている。 また,高解像度画像に対して精度よく推測可能かつスケール可能となるために,不均一な探索空間を適応的に創出する分散提案ネットワーク(DPN)を提案する。 提案手法は,KITTI 2012 と 2015 の両リーダーボードにおいて,100 ms 以上の速度で動作しながら,公表されたすべてのメソッドのそれぞれに $1^{st}$ をランク付けする。この手法は,従来のグローバルメソッド,例えば D1 メトリックを KITTI 2015 上で50% 以上下げるなど,はるかに優れたパフォーマンスを発揮する。 さらに,本手法は強いクロスドメイン一般化を示し,鋭いエッジを復元する。 https://github.com/aeolusguan/NMRF

Stereo matching is a core task for many computer vision and robotics applications. Despite their dominance in traditional stereo methods, the hand-crafted Markov Random Field (MRF) models lack sufficient modeling accuracy compared to end-to-end deep models. While deep learning representations have greatly improved the unary terms of the MRF models, the overall accuracy is still severely limited by the hand-crafted pairwise terms and message passing. To address these issues, we propose a neural MRF model, where both potential functions and message passing are designed using data-driven neural networks. Our fully data-driven model is built on the foundation of variational inference theory, to prevent convergence issues and retain stereo MRF's graph inductive bias. To make the inference tractable and scale well to high-resolution images, we also propose a Disparity Proposal Network (DPN) to adaptively prune the search space of disparity. The proposed approach ranks $1^{st}$ on both KITTI 2012 and 2015 leaderboards among all published methods while running faster than 100 ms. This approach significantly outperforms prior global methods, e.g., lowering D1 metric by more than 50% on KITTI 2015. In addition, our method exhibits strong cross-domain generalization and can recover sharp edges. The codes at https://github.com/aeolusguan/NMRF
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# V2X-DGW: 逆気象条件下でのマルチエージェント知覚のためのドメイン一般化

V2X-DGW: Domain Generalization for Multi-agent Perception under Adverse Weather Conditions ( http://arxiv.org/abs/2403.11371v3 )

ライセンス: Link先を確認
Baolu Li, Jinlong Li, Xinyu Liu, Runsheng Xu, Zhengzhong Tu, Jiacheng Guo, Xiaopeng Li, Hongkai Yu, (参考訳) 現在のLiDARベースのV2X(Vine-to-Everything)マルチエージェント認識システムは、3Dオブジェクト検出において大きな成功を収めている。 これらのモデルは、訓練済みのクリーンな天候下ではよく機能するが、現実のドメインギャップで目に見えない悪天候に苦しむ。 本稿では,悪天候下でのマルチエージェント認識システム上でのLiDARに基づく3次元物体検出のための領域一般化手法であるV2X-DGWを提案する。 クリーンな天候だけでなく、クリーンな天気データのみを学習することで、好適なマルチエージェントのパフォーマンスを確保することを目的としている。 この領域の研究を進めるために、我々は広く使われている2つのマルチエージェントデータセットに対する3つの悪天候条件の影響をシミュレートし、2つの新しいベンチマークデータセット、OPV2V-wとV2XSet-wを作成しました。 この目的のために,まずアダプティブ・ウェザー・アジュメンテーション(AWA)を導入し,未知の悪天候条件を模倣し,TWA(Trust-rea Weather-invariant Alignment)とACA(Agent-aware Contrastive Alignment)の2つのアライメントを提案する。 我々のV2X-DGWは、目に見えない悪天候を改善することができた。

Current LiDAR-based Vehicle-to-Everything (V2X) multi-agent perception systems have shown the significant success on 3D object detection. While these models perform well in the trained clean weather, they struggle in unseen adverse weather conditions with the real-world domain gap. In this paper, we propose a domain generalization approach, named V2X-DGW, for LiDAR-based 3D object detection on multi-agent perception system under adverse weather conditions. Not only in the clean weather does our research aim to ensure favorable multi-agent performance, but also in the unseen adverse weather conditions by learning only on the clean weather data. To advance research in this area, we have simulated the impact of three prevalent adverse weather conditions on two widely-used multi-agent datasets, resulting in the creation of two novel benchmark datasets: OPV2V-w and V2XSet-w. To this end, we first introduce the Adaptive Weather Augmentation (AWA) to mimic the unseen adverse weather conditions, and then propose two alignments for generalizable representation learning: Trust-region Weather-invariant Alignment (TWA) and Agent-aware Contrastive Alignment (ACA). Extensive experimental results demonstrate that our V2X-DGW achieved improvements in the unseen adverse weather conditions.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# 可視赤外人物再同定のための暗黙的識別的知識学習

Implicit Discriminative Knowledge Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2403.11708v2 )

ライセンス: Link先を確認
Kaijie Ren, Lei Zhang, (参考訳) Visible-Infrared Person Re-identification (VI-ReID) は、クラス内における大きな変化と、異なるカメラ間での横断的不一致のため、横断的歩行者検索の課題である。 既存の研究は主に、異なるモダリティのイメージを統一された空間に埋め込み、モダリティの共有された特徴をマイニングすることに焦点を当てている。 それらは共有された特徴の中でのみ独特な情報を求める一方で、モダリティ固有の特徴に暗黙的なアイデンティティに気付く有用な情報を無視する。 この問題に対処するために,モダリティ特定に含まれる暗黙的な識別情報を発見・活用するために,新しいIDKL(Implicit Discriminative Knowledge Learning)ネットワークを提案する。 まず、新しいデュアルストリームネットワークを用いて、モダリティ固有およびモダリティ共有の特徴を抽出する。 そして, モダリティ特有の特徴は, 同一性を考慮した識別的知識を維持しながら, モダリティスタイルの相違を低減するために浄化される。 その後、この種の暗黙の知識は、その特異性を高めるために、モダリティ共有の特徴に蒸留される。 最後に、改良されたモダリティ共有特徴に対するモダリティの差を最小限に抑えるためにアライメント損失を提案する。 複数の公開データセットに対する大規模な実験は、最先端の手法よりもIDKLネットワークの方が優れていることを示す。 コードはhttps://github.com/1KK077/IDKLで入手できる。

Visible-Infrared Person Re-identification (VI-ReID) is a challenging cross-modal pedestrian retrieval task, due to significant intra-class variations and cross-modal discrepancies among different cameras. Existing works mainly focus on embedding images of different modalities into a unified space to mine modality-shared features. They only seek distinctive information within these shared features, while ignoring the identity-aware useful information that is implicit in the modality-specific features. To address this issue, we propose a novel Implicit Discriminative Knowledge Learning (IDKL) network to uncover and leverage the implicit discriminative information contained within the modality-specific. First, we extract modality-specific and modality-shared features using a novel dual-stream network. Then, the modality-specific features undergo purification to reduce their modality style discrepancies while preserving identity-aware discriminative knowledge. Subsequently, this kind of implicit knowledge is distilled into the modality-shared feature to enhance its distinctiveness. Finally, an alignment loss is proposed to minimize modality discrepancy on enhanced modality-shared features. Extensive experiments on multiple public datasets demonstrate the superiority of IDKL network over the state-of-the-art methods. Code is available at https://github.com/1KK077/IDKL.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# RankPrompt: 言語モデルにおけるステップバイステップの比較

RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners ( http://arxiv.org/abs/2403.12373v2 )

ライセンス: Link先を確認
Chi Hu, Yuan Ge, Xiangnan Ma, Hang Cao, Qiang Li, Yonghua Yang, Tong Xiao, Jingbo Zhu, (参考訳) 大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。 しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。 これらのエラーを軽減する従来のアプローチには、タスク固有の検証や複数の推論パスの集約といった、人間やツールベースのフィードバックが含まれる。 しかし、これらの手法は人間の入力に大きく依存するか、一貫性のない反応に苦しむかのいずれかである。 この制限を克服するために、我々はLLMが余分なリソースを必要とせずに自律的に応答をランク付けする革新的なプロンプトであるRangePromptを提示する。 RankPromptは、ランキングの課題を、異なるレスポンス間の比較評価に単純化し、LLMの固有の能力を活用して、コンテキスト内で比較例を生成する。 11の算術的および常識的推論タスクを対象とした実験により,RangePromptはChatGPTとGPT-4の推論性能を大幅に向上し,最大13%の改善が得られた。 さらに、RopPromptは、AlpacaEvalデータセットにおける人間の判断の74%と一致する、オープンエンドタスクに対するLLMベースの自動評価において、例外的なパフォーマンスを示している。 また、応答順序や不整合の変化に対して堅牢であることも証明されている。 本研究は,言語モデルから直接,高品質なフィードバックを抽出する有効な手法として,RopPromptを支持した。

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Traditional approaches to mitigate these errors involve human or tool-based feedback, such as employing task-specific verifiers or aggregating multiple reasoning paths. These methods, however, either depend heavily on human input or struggle with inconsistent responses. To overcome these limitations, we present RankPrompt, an innovative prompting strategy that empowers LLMs to autonomously rank their responses without needing extra resources. RankPrompt simplifies the ranking challenge into comparative evaluations among different responses, leveraging LLMs' innate ability to generate comparative examples within context. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Furthermore, RankPrompt shows exceptional performance in LLM-based automatic evaluations for open-ended tasks, matching human judgments 74% of the time in the AlpacaEval dataset. It also proves to be robust against changes in response order and inconsistency. Overall, our findings endorse RankPrompt as an effective method for extracting high-quality feedback directly from language models.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# 音声によるアニマトロニクスロボット顔表情の駆動

Driving Animatronic Robot Facial Expression From Speech ( http://arxiv.org/abs/2403.12670v2 )

ライセンス: Link先を確認
Boren Li, Hang Li, Hangxin Liu, (参考訳) アニマトロニクスロボットは、ライフライクな表情を通して自然な人間とロボットの相互作用を可能にすることを目的としている。 しかし、顔のバイオメカニクスと応答性動作合成の複雑さのため、現実的な音声同期型ロボット表現の生成は困難である。 本稿では,音声からアニマトロニクスロボットの表情を駆動するスキン中心方式を提案する。 提案手法では、リニアブレンドスキンニング(LBS)を中心表現として、エンボディメント設計とモーション合成における密に統合されたイノベーションを導出する。 LBSはアクティベーショントポロジを通知し、人間の表情の再ターゲティングを可能にし、音声による顔の動き生成を可能にする。 提案手法は、アニマトロニックな顔の音声から、非常にリアルでリアルタイムな表情を生成することができ、自然な相互作用のために、人間の表情を再現するロボットの能力を著しく向上させることができる。

Animatronic robots aim to enable natural human-robot interaction through lifelike facial expressions. However, generating realistic, speech-synchronized robot expressions is challenging due to the complexities of facial biomechanics and responsive motion synthesis. This paper presents a principled, skinning-centric approach to drive animatronic robot facial expressions from speech. The proposed approach employs linear blend skinning (LBS) as the core representation to guide tightly integrated innovations in embodiment design and motion synthesis. LBS informs the actuation topology, enables human expression retargeting, and allows speech-driven facial motion generation. The proposed approach is capable of generating highly realistic, real-time facial expressions from speech on an animatronic face, significantly advancing robots' ability to replicate nuanced human expressions for natural interaction.
翻訳日:2024-03-22 12:50:46 公開日:2024-03-21
# FlowerFormer: Flow-aware Graph Transformerを用いたニューラルネットワークエンコーディング

FlowerFormer: Empowering Neural Architecture Encoding using a Flow-aware Graph Transformer ( http://arxiv.org/abs/2403.12821v2 )

ライセンス: Link先を確認
Dongyeong Hwang, Hyunju Kim, Sunwoo Kim, Kijung Shin, (参考訳) 特定のニューラルネットワークアーキテクチャの成功は、それが取り組むデータセットとタスクに密接に結びついている。 したがって、与えられたタスクやデータセットに対して、完全なトレーニングや評価なしに、ニューラルネットワークのパフォーマンスを迅速かつ正確に見積もることに、かなりの努力が払われている。 ニューラルネットワークの符号化は推定において重要な役割を担い、アーキテクチャをグラフとして扱うグラフベースの手法は顕著な性能を示している。 ニューラルネットワークの表現学習を強化するために,ニューラルネットワーク内の情報フローを組み込んだ強力なグラフトランスフォーマーであるFlowerFormerを紹介する。 FlowerFormerは2つの重要なコンポーネントで構成されています。 (a)フローにインスパイアされた双方向非同期メッセージパッシング (b)フローベースマスキングによる世界的注目。 我々の広範な実験は、既存のニューラルネットワークよりもFlowerFormerの方が優れており、その効果はコンピュータビジョンモデルを超えて、グラフニューラルネットワークや自動音声認識モデルを含む。 私たちのコードはhttp://github.com/y0ngjaenius/CVPR2024_FLOWERFormerで利用可能です。

The success of a specific neural network architecture is closely tied to the dataset and task it tackles; there is no one-size-fits-all solution. Thus, considerable efforts have been made to quickly and accurately estimate the performances of neural architectures, without full training or evaluation, for given tasks and datasets. Neural architecture encoding has played a crucial role in the estimation, and graphbased methods, which treat an architecture as a graph, have shown prominent performance. For enhanced representation learning of neural architectures, we introduce FlowerFormer, a powerful graph transformer that incorporates the information flows within a neural architecture. FlowerFormer consists of two key components: (a) bidirectional asynchronous message passing, inspired by the flows; (b) global attention built on flow-based masking. Our extensive experiments demonstrate the superiority of FlowerFormer over existing neural encoding methods, and its effectiveness extends beyond computer vision models to include graph neural networks and auto speech recognition models. Our code is available at http://github.com/y0ngjaenius/CVPR2024_FLOWERFormer.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# 3レベル原子系における2次元等方性負透過性

2D isotropic negative permeability in a Λ-type three-level atomic system ( http://arxiv.org/abs/2403.13011v2 )

ライセンス: Link先を確認
Shuang-Ying Zhang, Shun-Cai Zhao, Ai-Ling Gong, (参考訳) プローブ磁場と相互作用する$\Lambda$型3レベル原子系の2次元負透過性と2つの直交定常波場の重ね合わせを提案する。 理論解析と数値シミュレーションにより、x-y平面では2つの負の磁気応答の等質かつ調整可能なピーク極大が観測され、ピーク極大付近では負の透過性が等方性である。 2次元等方性負への新たな道

A approach for two-dimensional(2D) negative permeability in a $\Lambda$-type three-level atomic system interacting with a probe magnetic and the superposition of two orthogonal standing-wave fields is proposed. Through the theoretical analysis and numerical simulation, two equally and tunable peak maxima of negative magnetic responses are observed in the x-y plane, and around the peak maxima region the negative permeability is isotropic. A new avenue to 2D isotropic negative
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# 表現的ハームからサービス品質ハームへ:Llama 2の安全保護を事例として

From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards ( http://arxiv.org/abs/2403.13213v2 )

ライセンス: Link先を確認
Khaoula Chehbouni, Megha Roshan, Emmanuel Ma, Futian Andrew Wei, Afaf Taik, Jackie CK Cheung, Golnoosh Farnadi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域で広く採用されている。 しかし、これらの進歩は安全性のリスクを増し、既に過疎化されている人口に対する有害な影響を懸念している。 安全指向の微調整の監督や、人間のフィードバックからの安全な強化学習の活用など、安全性の保護を開発するための緩和努力が増加しているが、これらのモデルにおける安全性と微妙なバイアスに関する複数の懸念が残っている。 さらに、安全のために最適化されたモデルは、予防措置として特定の要求に対する応答を控える傾向など、過大な安全行動を示すことが多いことを以前の研究は示している。 このように、これらのモデルの有用性と安全性の明確なトレードオフが文献に記録されている。 本稿では,すでに緩和されているバイアスに対するモデル評価による安全対策の有効性について検討する。 Llama 2 の例を用いて、LLM の安全応答が有害な仮定をエンコードする方法を説明している。 そのために、無害なプロンプトの集合を作り、それをLlamaモデルの評価に用いる。 利用者に対するLSMs応答の新たな分類法により、一部の人口集団では、安全と健康のトレードオフがより顕著になり、人口過疎化によるサービス品質の害につながることが観察された。

Recent progress in large language models (LLMs) has led to their widespread adoption in various domains. However, these advancements have also introduced additional safety risks and raised concerns regarding their detrimental impact on already marginalized populations. Despite growing mitigation efforts to develop safety safeguards, such as supervised safety-oriented fine-tuning and leveraging safe reinforcement learning from human feedback, multiple concerns regarding the safety and ingrained biases in these models remain. Furthermore, previous work has demonstrated that models optimized for safety often display exaggerated safety behaviors, such as a tendency to refrain from responding to certain requests as a precautionary measure. As such, a clear trade-off between the helpfulness and safety of these models has been documented in the literature. In this paper, we further investigate the effectiveness of safety measures by evaluating models on already mitigated biases. Using the case of Llama 2 as an example, we illustrate how LLMs' safety responses can still encode harmful assumptions. To do so, we create a set of non-toxic prompts, which we then use to evaluate Llama models. Through our new taxonomy of LLMs responses to users, we observe that the safety/helpfulness trade-offs are more pronounced for certain demographic groups which can lead to quality-of-service harms for marginalized populations.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# ArceeのMergeKit: 大規模言語モデルをマージするためのツールキット

Arcee's MergeKit: A Toolkit for Merging Large Language Models ( http://arxiv.org/abs/2403.13257v2 )

ライセンス: Link先を確認
Charles Goddard, Shamane Siriwardhana, Malikeh Ehghaghi, Luke Meyers, Vlad Karpukhin, Brian Benedict, Mark McQuade, Jacob Solawetz, (参考訳) オープンソースの言語モデルランドスケープの急速な拡張は、これらのモデルチェックポイントの能力を、それらのパラメータを組み合わせることによってマージする機会を提供する。 特定のタスクのための訓練済みモデルを微調整するプロセスであるトランスファーラーニングの進歩は、通常個々のタスクに特化して互いの強みを活用できない、膨大なタスク固有のモデルの開発をもたらした。 モデルマージは、追加のトレーニングを必要とせずにマルチタスクモデルの作成を容易にし、モデルパフォーマンスと汎用性を向上させるための有望な道を提供する。 原モデルの本質的な能力を維持することによって、モデルマージは、破滅的な忘れ込みやマルチタスク学習の困難を含む、AIの複雑な課題に対処する。 この拡大する研究領域をサポートするために,モデルマージ戦略の適用を容易にするために設計された,包括的なオープンソースライブラリであるMergeKitを紹介した。 MergeKitは、任意のハードウェア上でモデルを効率的にマージするための拡張可能なフレームワークを提供する。 これまでのところ、何千ものモデルがオープンソースコミュニティにマージされており、Open LLM Leaderboardによって評価されているように、世界で最も強力なオープンソースのモデルチェックポイントが作成されている。 このライブラリはhttps://github.com/arcee-ai/MergeKitでアクセスできる。

The rapid expansion of the open-source language model landscape presents an opportunity to merge the competencies of these model checkpoints by combining their parameters. Advances in transfer learning, the process of fine-tuning pretrained models for specific tasks, has resulted in the development of vast amounts of task-specific models, typically specialized in individual tasks and unable to utilize each other's strengths. Model merging facilitates the creation of multitask models without the need for additional training, offering a promising avenue for enhancing model performance and versatility. By preserving the intrinsic capabilities of the original models, model merging addresses complex challenges in AI - including the difficulties of catastrophic forgetting and multitask learning. To support this expanding area of research, we introduce MergeKit, a comprehensive, open-source library designed to facilitate the application of model merging strategies. MergeKit offers an extensible framework to efficiently merge models on any hardware, providing utility to researchers and practitioners. To date, thousands of models have been merged by the open-source community, leading to the creation of some of the worlds most powerful open-source model checkpoints, as assessed by the Open LLM Leaderboard. The library is accessible at https://github.com/arcee-ai/MergeKit.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# LaserHuman:自由環境における言語誘導型シーン認識ヒューマンモーション生成

LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment ( http://arxiv.org/abs/2403.13307v2 )

ライセンス: Link先を確認
Peishan Cong, Ziyi Wang, Zhiyang Dou, Yiming Ren, Wei Yin, Kai Cheng, Yujing Sun, Xiaoxiao Long, Xinge Zhu, Yuexin Ma, (参考訳) 言語誘導型シーン認識ヒューマンモーション生成は,エンターテイメントやロボット工学において非常に重要である。 既存のデータセットの制限に対応するために、Scene-Text-to-Motion研究に革命をもたらすために設計された、先駆的なデータセットであるLaserHumanを紹介します。 LaserHumanは、本物の人間の動きを3D環境に含め、自由形式の自然言語記述、屋内と屋外のシナリオのブレンド、ダイナミックで絶え間なく変化するシーンを取り上げている。 キャプチャデータとリッチアノテーションの多種多様なモダリティは、条件付きモーション生成の研究に大きな機会をもたらし、また、現実のアプリケーションの開発を促進することができる。 さらに、意味的に一貫性があり、物理的に妥当な人間の動作を生成するために、既存のデータセット上での最先端性能を実現するために、単純だが効果的である多条件拡散モデルを提案する。

Language-guided scene-aware human motion generation has great significance for entertainment and robotics. In response to the limitations of existing datasets, we introduce LaserHuman, a pioneering dataset engineered to revolutionize Scene-Text-to-Motion research. LaserHuman stands out with its inclusion of genuine human motions within 3D environments, unbounded free-form natural language descriptions, a blend of indoor and outdoor scenarios, and dynamic, ever-changing scenes. Diverse modalities of capture data and rich annotations present great opportunities for the research of conditional motion generation, and can also facilitate the development of real-life applications. Moreover, to generate semantically consistent and physically plausible human motions, we propose a multi-conditional diffusion model, which is simple but effective, achieving state-of-the-art performance on existing datasets.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# AMP: 自律運転のための次のToken予測で再検討された自己回帰運動予測

AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving ( http://arxiv.org/abs/2403.13331v2 )

ライセンス: Link先を確認
Xiaosong Jia, Shaoshuai Shi, Zijun Chen, Li Jiang, Wenlong Liao, Tao He, Junchi Yan, (参考訳) 自律走行(AD)における重要な課題として、運動予測は、ナビゲーションのための周囲の物体の将来の状態を予測することを目的としている。 1つの自然な解法は、観測された時間ステップと予測された時間ステップ、すなわち自己回帰予測の両方で予測された各時間ステップが条件付けられたステップバイステップで他のエージェントの位置を推定することである。 パイオニアリングは、SocialLSTMやMFPのように、この直感に基づいてデコーダを設計する。 しかしながら、ほとんどの最先端の研究は、予測されたすべての時間ステップが観測された時間ステップ上で独立に条件付けられており、同時に全ての時間ステップの位置を生成するために単一の線形層を使用すると仮定している。 自動回帰ネットワークと比較して、MPPのトレーニングの単純さから、ほとんどの動き予測リーダーボードを支配している。 本稿では,動き予測にGPTスタイルの次のトークン予測を導入する。 このように、入力と出力は統一された空間で表現することができ、したがって自己回帰予測はより実現可能となる。 しかし、同種単位-ワードからなる言語データとは異なり、駆動シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。 そこで本稿では,情報集約と位置符号化スタイルの異なる隣り合わせの3つの分解型アテンションモジュールを用いて,空間相対性理論のための座標系間の変換を符号化し,時間相対性理論にRoPEを採用することを提案する。 提案手法は,上記の設計を取り入れることで,Waymo Open Motion および Waymo Interaction データセットの最先端性能を実現する。 特に、AMPは、提案した設計の有効性を示すMotionLMとStateTransformerの他の自動回帰動作予測手法よりも優れている。

As an essential task in autonomous driving (AD), motion prediction aims to predict the future states of surround objects for navigation. One natural solution is to estimate the position of other agents in a step-by-step manner where each predicted time-step is conditioned on both observed time-steps and previously predicted time-steps, i.e., autoregressive prediction. Pioneering works like SocialLSTM and MFP design their decoders based on this intuition. However, almost all state-of-the-art works assume that all predicted time-steps are independent conditioned on observed time-steps, where they use a single linear layer to generate positions of all time-steps simultaneously. They dominate most motion prediction leaderboards due to the simplicity of training MLPs compared to autoregressive networks. In this paper, we introduce the GPT style next token prediction into motion forecasting. In this way, the input and output could be represented in a unified space and thus the autoregressive prediction becomes more feasible. However, different from language data which is composed of homogeneous units -words, the elements in the driving scene could have complex spatial-temporal and semantic relations. To this end, we propose to adopt three factorized attention modules with different neighbors for information aggregation and different position encoding styles to capture their relations, e.g., encoding the transformation between coordinate systems for spatial relativity while adopting RoPE for temporal relativity. Empirically, by equipping with the aforementioned tailored designs, the proposed method achieves state-of-the-art performance in the Waymo Open Motion and Waymo Interaction datasets. Notably, AMP outperforms other recent autoregressive motion prediction methods: MotionLM and StateTransformer, which demonstrates the effectiveness of the proposed designs.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# LlamaFactory: 100以上の言語モデルの統一されたファインチューニング

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models ( http://arxiv.org/abs/2403.13372v2 )

ライセンス: Link先を確認
Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Yongqiang Ma, (参考訳) 下流タスクに大規模言語モデル(LLM)を適用するためには、効率的な微調整が不可欠である。 しかし、異なるモデルでこれらのメソッドを実装するには、自明な努力が必要である。 LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。 これによってユーザは、内蔵のWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできる。 言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。 https://github.com/hiyouga/LLaMA-Factoryでリリースされ、すでに13,000以上の星と1600のフォークを受け取った。

Efficient fine-tuning is vital for adapting large language models (LLMs) to downstream tasks. However, it requires non-trivial efforts to implement these methods on different models. We present LlamaFactory, a unified framework that integrates a suite of cutting-edge efficient training methods. It allows users to flexibly customize the fine-tuning of 100+ LLMs without the need for coding through the built-in web UI LlamaBoard. We empirically validate the efficiency and effectiveness of our framework on language modeling and text generation tasks. It has been released at https://github.com/hiyouga/LLaMA-Factory and already received over 13,000 stars and 1,600 forks.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# 1枚の画像からタスクを発見・幻覚化させる計画(動画)

See, Imagine, Plan: Discovering and Hallucinating Tasks from a Single Image ( http://arxiv.org/abs/2403.13438v2 )

ライセンス: Link先を確認
Chenyang Ma, Kai Lu, Ta-Ying Cheng, Niki Trigoni, Andrew Markham, (参考訳) 人間は、現在の世界で世界を認識し、理解するだけでなく、すぐに知覚できる以上の将来のシナリオを思い描くことができる。 この深い人間の能力に似て、ゼロショットのタスク幻覚を導入します -- 未知の環境やオブジェクトを含むシーンの1つのRGBイメージを考えると、私たちのモデルは潜在的なタスクを特定し、ビデオとして実現された鮮やかな物語の中でそれらの実行を想像できます。 動的相互作用のためのVLMと物体軌道のための3次元モーションプランニングを組み込んだ,シーンの分解,理解,再構築を段階的に向上するモジュールパイプラインを開発した。 我々のモデルは、機械と人間の両方が理解できる現実的で魅力的な視覚結果を示すタスクビデオによって、多様なタスクを発見できる。 Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/

Humans can not only recognize and understand the world in its current state but also envision future scenarios that extend beyond immediate perception. To resemble this profound human capacity, we introduce zero-shot task hallucination -- given a single RGB image of any scene comprising unknown environments and objects, our model can identify potential tasks and imagine their execution in a vivid narrative, realized as a video. We develop a modular pipeline that progressively enhances scene decomposition, comprehension, and reconstruction, incorporating VLM for dynamic interaction and 3D motion planning for object trajectories. Our model can discover diverse tasks, with the generated task videos demonstrating realistic and compelling visual outcomes that are understandable by both machines and humans. Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# 自動制御システムにおける敵攻撃と防御:総合ベンチマーク

Adversarial Attacks and Defenses in Automated Control Systems: A Comprehensive Benchmark ( http://arxiv.org/abs/2403.13502v2 )

ライセンス: Link先を確認
Vitaliy Pozdnyakov, Aleksandr Kovalenko, Ilya Makarov, Mikhail Drobyshevskiy, Kirill Lukyanov, (参考訳) 機械学習をACS(Automated Control Systems)に統合することで、産業プロセス管理における意思決定が促進される。 業界におけるこれらの技術の普及の限界の1つは、敵の攻撃に対するニューラルネットワークの脆弱性である。 本研究では、テネシー・イーストマン・プロセス・データセットを用いて、ACSにおける障害診断のためのディープラーニングモデルをデプロイする際の脅威について検討する。 3つのニューラルネットワークを異なるアーキテクチャで評価することにより、6種類の敵攻撃を行い、5つの異なる防御方法を探索する。 本研究は, 対戦型サンプルに対するモデルの強い脆弱性と, 防衛戦略の有効性を明らかにするものである。 また,複数の防御手法を組み合わせた新しい保護手法を提案し,その有効性を実証する。 本研究は,ACS内での機械学習の安全性,産業プロセスにおける堅牢な故障診断の確保に関するいくつかの知見に寄与する。

Integrating machine learning into Automated Control Systems (ACS) enhances decision-making in industrial process management. One of the limitations to the widespread adoption of these technologies in industry is the vulnerability of neural networks to adversarial attacks. This study explores the threats in deploying deep learning models for fault diagnosis in ACS using the Tennessee Eastman Process dataset. By evaluating three neural networks with different architectures, we subject them to six types of adversarial attacks and explore five different defense methods. Our results highlight the strong vulnerability of models to adversarial samples and the varying effectiveness of defense strategies. We also propose a novel protection approach by combining multiple defense methods and demonstrate it's efficacy. This research contributes several insights into securing machine learning within ACS, ensuring robust fault diagnosis in industrial processes.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# FMM-Attack:ビデオベースのLLMにおけるフローベースのマルチモーダル・アタック

FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs ( http://arxiv.org/abs/2403.13507v2 )

ライセンス: Link先を確認
Jinmin Li, Kuofeng Gao, Yang Bai, Jingyun Zhang, Shu-tao Xia, Yisen Wang, (参考訳) ビデオベースの大規模言語モデル(LLM)の顕著な性能にもかかわらず、その敵対的脅威は未解明のままである。 このギャップを埋めるために、FMM-Attackと呼ばれるビデオ内の少数のフレームにフローベースのマルチモーダルな摂動を組み込むことにより、ビデオベースのLDMに適した最初の逆襲攻撃を提案する。 広汎な実験により,ビデオに知覚不能な逆方向の摂動を加えると,この攻撃はビデオベースのLCMを効果的に誘導し,誤答を生じさせることが示された。 興味深いことに、我々のFMM-Attackはモデル出力を誘導し、ビデオベースのLCMを幻覚させる。 全体として、我々の観察は、様々なモードにまたがるマルチモーダルロバストネスと安全関連特徴アライメントのさらなる理解を促し、これは様々な大規模マルチモーダルモデルにとって非常に重要である。 私たちのコードはhttps://github.com/THU-Kingmin/FMM-Attack.comから入手可能です。

Despite the remarkable performance of video-based large language models (LLMs), their adversarial threat remains unexplored. To fill this gap, we propose the first adversarial attack tailored for video-based LLMs by crafting flow-based multi-modal adversarial perturbations on a small fraction of frames within a video, dubbed FMM-Attack. Extensive experiments show that our attack can effectively induce video-based LLMs to generate incorrect answers when videos are added with imperceptible adversarial perturbations. Intriguingly, our FMM-Attack can also induce garbling in the model output, prompting video-based LLMs to hallucinate. Overall, our observations inspire a further understanding of multi-modal robustness and safety-related feature alignment across different modalities, which is of great importance for various large multi-modal models. Our code is available at https://github.com/THU-Kingmin/FMM-Attack.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# IDAdapter:テキスト-画像モデルの調整自由なパーソナライズのための混合特徴学習

IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models ( http://arxiv.org/abs/2403.13535v2 )

ライセンス: Link先を確認
Siying Cui, Jia Guo, Xiang An, Jiankang Deng, Yongle Zhao, Xinyu Wei, Ziyong Feng, (参考訳) パーソナライズされた肖像画の生成に安定した拡散を活用することは、強力で注目すべきツールとして現れ、ユーザーは特定のプロンプトに基づいて高忠実でカスタムなキャラクターアバターを作成できる。 しかし、既存のパーソナライズ手法では、テストタイムの微調整、複数入力画像の要求、アイデンティティの保存の低さ、生成した結果の多様性の制限など、課題に直面している。 これらの課題を克服するために、単一顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を向上する、チューニング不要なアプローチであるIDAdapterを導入する。 IDAdapterは、テキストインジェクションとビジュアルインジェクションと顔認証損失を組み合わせることで、パーソナライズされた概念を生成プロセスに統合する。 トレーニング期間中、特定のアイデンティティの複数の参照画像から混在した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を豊かにし、より多様なスタイル、表現、角度を持つ画像を生成するようモデルに誘導する。 画像の多様性と同一性の両方を両立させることにより,本手法の有効性を実証した。

Leveraging Stable Diffusion for the generation of personalized portraits has emerged as a powerful and noteworthy tool, enabling users to create high-fidelity, custom character avatars based on their specific prompts. However, existing personalization methods face challenges, including test-time fine-tuning, the requirement of multiple input images, low preservation of identity, and limited diversity in generated outcomes. To overcome these challenges, we introduce IDAdapter, a tuning-free approach that enhances the diversity and identity preservation in personalized image generation from a single face image. IDAdapter integrates a personalized concept into the generation process through a combination of textual and visual injections and a face identity loss. During the training phase, we incorporate mixed features from multiple reference images of a specific identity to enrich identity-related content details, guiding the model to generate images with more diverse styles, expressions, and angles compared to previous works. Extensive evaluations demonstrate the effectiveness of our method, achieving both diversity and identity fidelity in generated images.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# 多重化促進による12km繊維上の原子-光子量子相関の高速伝送

Fast delivery of heralded atom-photon quantum correlation over 12km fiber through multiplexing enhancement ( http://arxiv.org/abs/2403.13623v2 )

ライセンス: Link先を確認
Sheng Zhang, Jixuan Shi, Yibo Liang, Yuedong Sun, Yukai Wu, Luming Duan, Yunfei Pu, (参考訳) 遠方間の量子絡み合いの分散は、多くの応用が可能であるが、量子チャネルの指数的崩壊に悩まされるため、量子情報科学において重要な課題であるが難しい課題である。 量子リピータは、この目標に対する最も有望なアプローチの1つです。 量子リピータプロトコルでは、隣接するリピータセグメントを接続することで量子リピータのスケールアップを可能にするため、各基本リンク内の絡み合い発生速度がメモリデコヒーレンスレートよりも高速であることが不可欠である。 この厳格な要件は、これまでのところ大都市圏で実施されていない。 この挑戦的な目標に向けて、本研究では、12kmのファイバー上の有価原子-光子量子相関の多重化を実験的に実現した。 我々は、多重化量子メモリにおけるメモリモードを順次励起し、280対の原子-光子量子相関を長繊維を満たすフォトニック時間ビンパルス列と生成する。 シーディング信号の検出に成功した後、励起メモリモードを固定時間または可変時間のいずれかの要求に応じてアイドラー光子に識別して取得することができる。 多重化により、原子-光子相関の計算速度は1.95kHzに達し、量子相関生成率とメモリデコヒーレンス率との比は12kmの繊維長で0.46に向上する。 この研究は、大規模な量子リピータネットワークの実現に向けた重要なステップとなる。

Distributing quantum entanglement between distant parties is a significant but difficult task in quantum information science, as it can enable numerous applications but suffers from exponential decay in the quantum channel. Quantum repeater is one of the most promising approaches towards this goal. In a quantum repeater protocol, it is essential that the entanglement generation speed within each elementary link is faster than the memory decoherence rate, to enable the scale-up of the quantum repeater by connecting neighboring repeater segments. This stringent requirement has not been implemented over a fiber of metropolitan scale so far. As a step towards this challenging goal, in this work we experimentally realize multiplexing-enhanced generation of heralded atom-photon quantum correlation over a 12km fiber. We excite the memory modes in a multiplexed quantum memory successively to generate 280 pairs of atom-photon quantum correlations with a train of photonic time-bin pulses filling the long fiber. After successful detection of a heralding signal, the excited memory mode can be identified and retrieved into idler photons on demand with either fixed or variable storage time. With the multiplexing enhancement, the heralding rate of atom-photon correlation can reach 1.95kHz, and the ratio between the quantum correlation generation rate to memory decoherence rate can be improved to 0.46 for a fiber length of 12km, which is so far the best for long fiber length (>10km) to our knowledge. This work therefore constitutes an important step towards the realization of a large-scale quantum repeater network.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# データを持っていなければ心配するな - 翻訳を使って事前訓練された言語モデルを構築する

Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese ( http://arxiv.org/abs/2403.13638v2 )

ライセンス: Link先を確認
Meet Doshi, Raj Dabre, Pushpak Bhattacharyya, (参考訳) 本稿では,機械翻訳による事前学習言語モデル(LM)の合成データとしての翻訳語の有用性について検討する。 事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。 近年、このデータ不足に対処するために合成データを使うことへの関心が高まっている。 我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。 そして、この翻訳データ(合成)に基づいて28Mと85Mのパラメータを含む言語モデルを訓練する。 下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56%、NLGタスクで1.51%劣っている。 さらに,クリーンデータに事前学習した軽量TinyLMを用いて合成データを効率よくフィルタリングし,モデルの性能を大幅に向上させる手法を提案する。 また, 合成データに基づいてトレーニングしたLMは, 少量 (10%) のクリーンデータの事前学習に強い効果があることがわかった。 私たちは、この作業の一部として収集し、作成したデータをリリースした。IndicMonoDocは、モノリンガルなドキュメントレベルのコーパスの最大のコレクションであり、大きな言語モデルに対する英語と非英語のパフォーマンスのギャップを埋めるのに役立つことを期待しています。

In this paper, we explore the utility of Translationese as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data, which is mostly unavailable for languages other than English. Recently, there has been a growing interest in using synthetic data to address this data scarcity. We take the case of English and Indic languages and translate web-crawled monolingual documents (clean) into the target language. Then, we train language models containing 28M and 85M parameters on this translationese data (synthetic). We show that their performance on downstream natural language understanding and generative tasks is only 3.56% poorer on NLU tasks and 1.51% on NLG tasks than LMs pre-trained on clean data. Further, we propose the use of lightweight TinyLMs pre-trained on clean data to filter synthetic data efficiently which significantly improves the performance of our models. We also find that LMs trained on synthetic data strongly benefit from extended pretraining on a tiny fraction (10%) of clean data. We release the data we collected and created as a part of this work, IndicMonoDoc, the largest collection of monolingual document-level corpora, which we hope will help bridge the gap between English and non-English performance for large language models.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21
# Role Interact:ロールプレイングエージェントの社会的相互作用の評価

RoleInteract: Evaluating the Social Interaction of Role-Playing Agents ( http://arxiv.org/abs/2403.13679v2 )

ライセンス: Link先を確認
Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou, (参考訳) 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。 これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。 本稿では,ロールプレイング対話エージェントのソーシャル性を,個人レベルとグループレベルで体系的に評価するための最初のベンチマークであるRoleInteractを紹介する。 ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。 本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。 個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。 さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。 RoleInteractの実験結果から、ロールプレイング会話エージェントの社会的相互作用を評価するテストベッドとしての重要性が確認された。 ベンチマークはhttps://github.com/X-PLUG/RoleInteract.comで公開されている。

Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce RoleInteract, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on RoleInteract confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/RoleInteract.
翻訳日:2024-03-22 12:40:50 公開日:2024-03-21